统计词频并按词频排序

2019-01-01  本文已影响0人  鹅鹅鹅_

一、背景描述

  1. 源文件格式
    需要处理的源文件格式如下:
    ont:a
    asd:a
    sdfd:cc
    
  2. 处理任务
    我们需要统计冒号之后的字段出现的频率,并以频率排序输出,比如上面的例子对应的输出是:
    aa
    cc
    

二、技术实现

  1. shell脚本实现
    主要思路是先用awk将需要的字段分离出来,然后写一个shell脚本利用字典用来统计单词出现的个数,最后利用linux命令sort及其-k选项来进行排序。
    下面是统计单词出现次数的脚本wordcount.sh:
    #! /bin/sh
    
    declare -A dict
    
    while read word
    do
        if [ ! -n dict[${word}] ];then
            dict[${word}]=1
        else
            ((dict[${word}]++))
        fi
    done
    
    for key in $(echo ${!dict[*]})
    do
        echo -e "$key\t\t${dict[$key]}"
    done
    
    
    在命令行运行以下命令:
    #sort -r 表示逆序排序
    [hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" | awk -F ":" '{print $2}' | ./wordcount.sh | sort -k 2 -r
    a       2
    cc      1
    [hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" | awk -F ":" '{print $2}' | ./wordcount.sh | sort -k 2 -r | cut -f1
    a
    cc
    
  2. wordcount.py替换wordcount.sh
    其实主要也就是Python版本的wordcount.py:
    #! /usr/local/bin/python3.6
    
    import sys
    
    # maps words to their counts
    word2count = {}
    
    # input comes from STDIN (standard input)
    for line in sys.stdin:
        #print(line)
        passwd = line.strip()
        if passwd not in word2count:
            word2count[passwd] = 1
        else:
            word2count[passwd] += 1
    
    for key in word2count:
        print(key + "\t" + str(word2count[key]))
    
    
    运行如下命令:
    [hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" | awk -F ":" '{print $2}' | ./wordcount.py | sort -k 2 -r | cut -f1
    a
    cc
    
    
  3. 全程Python
    在2中,我们结合了shell命令和python脚本,主要利用了shell来分割字段和排序,其实这两个功能也可以由python来实现。

三、大数据思维

当然,这个问题也可以使用hadoop的mapreduce来解决。和wordcount经典程序差不多,只是reducer最后需要一个排序过程。

上一篇 下一篇

猜你喜欢

热点阅读