数据挖掘

Python爬虫实战笔记_3 大作业mongo进阶查询

2016-07-16  本文已影响114人  Sugeei
mongo pipeline 的应用
pipeline = [
        {'$match': {'address': {'$all': [areas[0]]}}},
        {'$group': {'_id': {'$slice': ['$category', 0, 1]}, 'counts': {'$sum': 1}}},
        {'$sort': {'counts': -1}},
        {'$limit': 3}
    ]
Source code
# 由于数据太少了,去掉了发贴时间的筛选条件
def gen_data():
    pipeline = [
        {'$match': {'address': {'$all': [areas[0]]}}},
        {'$group': {'_id': {'$slice': ['$category', 0, 1]}, 'counts': {'$sum': 1}}},
        {'$sort': {'counts': -1}},
        {'$limit': 3}
    ]
    for i in tinfo.aggregate(pipeline):
        item = {
                'name': i['_id'][0],
                'data': [i['counts']],
                'type': 'column'
            }
        yield item
运行结果
Screen Shot 2016-07-10 at 9.12.26 AM.png
上一篇 下一篇

猜你喜欢

热点阅读