【初创记-009】技术篇: 句子配图功能需求技术方案

2019-01-24  本文已影响0人  自始而一

(前言:这是我人生的一个尝试,用王阳明心学去实践做一件事情,验证自己做事的能力。所做之事就是做一个网站:句子酷,目标是做到全中国最专业的句子搜索网站;每天都会记录一些实践,不管最终成果如何,相信整个经历对我此生也是受益匪浅,至少每天过得明明白白。)

【功能需求】

      句子配图功能:根据句子内容自动生成相对应的配图并展示出来。

【实现方案】

    根据句子内容提取关键词,然后根据句子关键词来匹配图片索引服务的图片特征关键词,返回匹配结果最相近的那个图片数据。

实现的难点就是: 

1、怎么搭建图片索引服务器呢?

    其实就是一个采集图片数据的问题。实现的难点其实不大,就是日常维护的工作比较多,而这维护的工作基本上可以耗上大部分时间,基本上也不用干其它事情了。需要有一个自动化程度高,维护成本低的采集程序。并且,现有的句子内容采集程序维护开销很大,每天都要花点时间去检查下工作正不正常,也很耗精力。

   

2、图片存储问题?

  如果申请一个cdn服务器,图片数量起来的话服务器的费用成本会比较高,不符合现在实际情况;暂时方案是不下载图片,直接存储URL地址。

下一步工作重点思考

    对于自动化程度高,维护成本低的数据采集程序。其实有很大的使用价值,并且一个好的数据采集程序的价值可能比网站本身而言更高。值得花时间和精力去把这个功能做好,做得好用、简单用。这几天一直在想这个问题,越想越有必要。

    今日头条是怎么起身的?是靠原创内容吗?不是,靠的是大数据的处理,通过大数据处理和用户行为分析进而精准推荐给用户,能够留的住、吸引住用户,后面有实力了才开始做原创平台。说到底,数据采集也是数据处理的一种。有一个自动化程序比较高的数据处理平台,对于后续句子酷的功能开发的实现非常有必要。

    对于一个好的数据处理平台,要满足:

1、框架方便定制数据处理方式: 抓取、群发、采集、数据转换、数据发布、下载任务;

2、支持多种脚本语言编写处理程序:js、kotlin、scart;

3、分布式/多终端处理:可以把编写的数据程序提交到其它空闲终端执行。比如:pc端、手机端、服务端。

4、支持对浏览器操作,并且支持代理、cookies,ajax,多种浏览器类型对象; 从而实现对网页内容采集、群发、

5、支持对手机操作;

6、支持对数据的存储;

    想法还不成熟,这几天好好考虑下。

另外,在微信小程序搜索栏输入:句子,句子酷小程序排上第一了!!!

【初创记-009】技术篇: 句子配图功能需求技术方案
上一篇 下一篇

猜你喜欢

热点阅读