【初创记-009】技术篇: 句子配图功能需求技术方案
(前言:这是我人生的一个尝试,用王阳明心学去实践做一件事情,验证自己做事的能力。所做之事就是做一个网站:句子酷,目标是做到全中国最专业的句子搜索网站;每天都会记录一些实践,不管最终成果如何,相信整个经历对我此生也是受益匪浅,至少每天过得明明白白。)
【功能需求】
句子配图功能:根据句子内容自动生成相对应的配图并展示出来。
【实现方案】
根据句子内容提取关键词,然后根据句子关键词来匹配图片索引服务的图片特征关键词,返回匹配结果最相近的那个图片数据。
实现的难点就是:
1、怎么搭建图片索引服务器呢?
其实就是一个采集图片数据的问题。实现的难点其实不大,就是日常维护的工作比较多,而这维护的工作基本上可以耗上大部分时间,基本上也不用干其它事情了。需要有一个自动化程度高,维护成本低的采集程序。并且,现有的句子内容采集程序维护开销很大,每天都要花点时间去检查下工作正不正常,也很耗精力。
2、图片存储问题?
如果申请一个cdn服务器,图片数量起来的话服务器的费用成本会比较高,不符合现在实际情况;暂时方案是不下载图片,直接存储URL地址。
下一步工作重点思考:
对于自动化程度高,维护成本低的数据采集程序。其实有很大的使用价值,并且一个好的数据采集程序的价值可能比网站本身而言更高。值得花时间和精力去把这个功能做好,做得好用、简单用。这几天一直在想这个问题,越想越有必要。
今日头条是怎么起身的?是靠原创内容吗?不是,靠的是大数据的处理,通过大数据处理和用户行为分析进而精准推荐给用户,能够留的住、吸引住用户,后面有实力了才开始做原创平台。说到底,数据采集也是数据处理的一种。有一个自动化程序比较高的数据处理平台,对于后续句子酷的功能开发的实现非常有必要。
对于一个好的数据处理平台,要满足:
1、框架方便定制数据处理方式: 抓取、群发、采集、数据转换、数据发布、下载任务;
2、支持多种脚本语言编写处理程序:js、kotlin、scart;
3、分布式/多终端处理:可以把编写的数据程序提交到其它空闲终端执行。比如:pc端、手机端、服务端。
4、支持对浏览器操作,并且支持代理、cookies,ajax,多种浏览器类型对象; 从而实现对网页内容采集、群发、
5、支持对手机操作;
6、支持对数据的存储;
想法还不成熟,这几天好好考虑下。
另外,在微信小程序搜索栏输入:句子,句子酷小程序排上第一了!!!
【初创记-009】技术篇: 句子配图功能需求技术方案