2018-01-15 剖析新闻标识符 用于下一个的爬取评论

2018-01-15  本文已影响0人  万般柔情涌上心头

开头 怎么说  慢慢学吧  

开始 对网址进行剖析 URL = news.sina.com.cn/c/nd/2018-01-15/doc-ifyqptqv9660647.shtml

对于下一次的爬取评论用到的import json这个再说

爬取url中的fyqptqv9660647这一部分 没办法 要用到

还是图片

然后就是结果

可以看出 已经按/进行剖析了 list 

还有图片

可以看出不同 多了一个[-1]

结果图片

然后怎么把所需要的拿出来呢 用到的是rstrip和lstrip

用的rstrip

加上lstrip

over!

#不怎么习惯加标点 下一遍文章看情况把

#软件用的pychram虽说很难用 但是比myeclipse好用点

还有一个方法进行剖析 比上一个简单

用到 re search group

看图

首先导入re

用search进行选择 主要内容就是(.*)

然后用到group进行获取 有0有1                        看图

group1轻松的剖析出所需内容

上一篇下一篇

猜你喜欢

热点阅读