大数据架构与算法学习心得
2018-11-23 本文已影响0人
持戒行善
陆陆续续看完了《大数据架构和算法实现之路》感慨实现一个复杂的大型电商网站真的需要做好都努力,没有足够的技术栈根本撑不起来,几点心得总结如下
1.利用机器学习中的分类算法,可以帮助后台商家添加商品时自动归类,
2.利用机器学习的聚类算法,可以帮助商家进行SEO搜索引擎关键字优化,方便后期搜索引擎更好的查找,也可以防止商家作弊填写误导性的搜索引擎关键字,误导搜索引擎的查找;
3.利用机器学习的中的回归算法,帮助后台商家进行销售预测,看看取货多少时,利润最大
4.加下来时所有大型系统都需要考虑的重头戏-----搜索
基于lucend搜索引擎的两大开源搜索工具solo和elesticserch各有自己的长处,利用他们构建基本的搜索功能,随后要对搜索引擎进行优化的慢慢长路,
- 搜索引擎和非关系型数据库整合,以便随时添加字段
- 搜索引擎和分类技术整合,以便你在搜索“”“牛奶”这个关键字 的时候,出来在最前面的不是“牛年巧克力,牛奶饼干之类的”而是真正的奶制品饮料
- 搜索引擎比起推荐系统更需要个性化,将搜索引擎进行个性化,
- 如何提升搜索引擎的效率,将搜索分片
- 搜索提示和拼写检查也是搜索引擎少不了的东西,就像百度搜索引擎一样,对用于输入进行提示
5.推荐系统的构建
5.1推荐系统按照推荐依据:
- 1.基于用户的推荐 2. 基于商品的推荐 3.基于场景推荐
5.2推荐系统按照推荐的相似度定义划分上
- 1.基于商品内容(特征) 2.基于用户行为 ------> 基于用户或者基于商品的协同过滤 3.基于社交群体
一般推荐系统采用多种推荐方式相结合的方式进行推荐,比如首页的“猜你喜欢”,就是在用户的浏览记录上,通过基于内容特征的推荐方法进行推荐,个人中心 的推荐 采用 对用户购买过的商品进行重复推荐,付款页面或添加购物车页面的购买此商品的人还买了 则是基于商品的协同过滤
6.用户行为跟踪
用户行为跟踪可以帮助系统运维人员,了解用户在系统的行为,而不仅仅是看到购买记录这样太过于少的用户行为信息。同时可以更好地反馈搜索和推荐两大系统,到底有没有带来明显的转化率
用户行为类型包括页面级别和事件级别两种类型,我们更关注与后者。
目前用户行为有两种解决方案:
方案一:采用谷歌分析,把代码嵌套在网站前端
方案二: 自行构建用户行为跟踪系统,具体有以下两种架构方式
Flume(收集用户行为数据)+ HDFS(存储用户行为数据)+hive(批量分析用户行为数据)
Flume(收集用户行为数据)+kafaka/MQ(存储用户行为数据)+stom(实时分析和监控用户行为数据)