2018-01-15 剖析新闻标识符 用于下一个的爬取评论
2018-01-15 本文已影响0人
万般柔情涌上心头
开头 怎么说 慢慢学吧
开始 对网址进行剖析 URL = news.sina.com.cn/c/nd/2018-01-15/doc-ifyqptqv9660647.shtml
对于下一次的爬取评论用到的import json这个再说
爬取url中的fyqptqv9660647这一部分 没办法 要用到
还是图片

然后就是结果

可以看出 已经按/进行剖析了 list
还有图片

可以看出不同 多了一个[-1]
结果图片

然后怎么把所需要的拿出来呢 用到的是rstrip和lstrip

用的rstrip

加上lstrip

over!
#不怎么习惯加标点 下一遍文章看情况把
#软件用的pychram虽说很难用 但是比myeclipse好用点
还有一个方法进行剖析 比上一个简单
用到 re search group

看图

首先导入re
用search进行选择 主要内容就是(.*)
然后用到group进行获取 有0有1 看图

group1轻松的剖析出所需内容