有关域名去重获取主站

2017-12-19  本文已影响16人  g0
l1 = []
import re
with open('346.txt') as f:
    for i in f.readlines():
        i = i.strip('\n').strip('\r')
        if i.startswith('http://'):
            i = i.replace('http://','')
        if i.startswith('www.'):
            i = i.replace('www.','')
        if i.find('ac.cn') != -1:
            i = 'ac.cn'
        if i.find('.com.cn') != -1:
            i = re.split('\.', i)[-3] + '.' + re.split('\.', i)[-2] + '.' + re.split('\.', i)[-1]
        if i.find('.com') != -1 and i.find('.cn') == -1:
            i = re.split('\.', i)[-2] + '.' + re.split('\.', i)[-1]
        if i.find('cetc') != -1:
            i = 'cetc.com'
        
        l1.append(i)
ss = list(set(l1))
for k in ss:
    print k
        
上一篇下一篇

猜你喜欢

热点阅读