通过用户评论建立产品画像系统
本文使用到的数据是从京东五谷磨房旗舰店爬取的核桃芝麻黑豆粉用户评论数据,共804条(非完整数据),其中好评:389条(非完整),中评:276条(完整),差评179条(完整)。
在对用户评论进行了收集、分词、去停用词、按词性筛选等一系列文本处理后,我们拿出“好评”、“差评”和“中评”中出现频数最高的前100个词绘制了词云图。这些高频词看起来杂乱无章,但从中可以发现很多亮点。
从好评词云图中可以看到用户提到了“味道”、“营养”、“口感”、“很香”、“早餐”、“物流”等。
好评词词云.png从中评词云图中可以看到用户提到了“味道”、“价格”、“包装”、“口感”、“降价”。
中评词词云.png从差评词云图中可以看到用户提到了“味道”、“价格”、“客服”、“降价”。
差评词词云.png在好评、中评和差评词中,用户提到最多的词就是“味道”,说明用户对该产品味道特征比较敏感,在好评词和中评词中,用户对“口感”做出了不同的评价,“价格”和“降价”则是中评与差评中的高频词。
后续可进一步使用线性回归模型来探索每个热评词出现的频率是否能显著影响产品的好评率,并对每个显著的热评词进行深挖,找出它背后具体的“关注点”,并探索每个关注点的正负作用。
最后,根据以上建立的得分体系,我们可以为每个产品进行整体画像,判断它在多个方面的整体表现。其次,根据不同方面的画像,我们可以更细致的给出该产品在该热评词各个关注点的细节画像,从中找出具体改进方向。
研究过程中遇到的问题:
1、京东对评论数据展示有限制,只展示商品前100页评论,即1000条评论;
2、被京东监测到爬虫行为,会导致短暂无法查询到评价数据(爬取1000条评论被禁,几分钟后恢复),需要进一步研究反爬虫机制。
3、热评词深挖还需要更专业的知识支撑,比如根据业务对热评词分类,建立数学模型计算热评词对好评率的影响等。