python统计一个英文文本中的单词出现的频次

2018-05-09  本文已影响0人  潇湘demi

import re

def find_word_freq(file):

    file1= open(file,'r')

    lines = file1.readlines() #读取全部内容

    dic ={}

    for line in lines:

        re.sub(r'[?.!,""/]",'  ',line) #特殊字符替换成空格

        re.sub(r" - "," ",line) #替换单独的-,不是同一单词里的连字符

        for word in line.split():#分隔默认以空格分

                if word[-1]="-":

                    has_lianjie =True

                    m=word[:-1]

                    break

                if has_lianjie:

                    has_lianjie= False

                    word = m+word

                dic.setdefault(word.lower(),0)

                dic[word.lower()]+=1

        print dic

find_word_freq("D:\pythonex\eng1.txt")

上一篇下一篇

猜你喜欢

热点阅读