学习笔记-网络数据采集
2019-12-26 本文已影响0人
活点地图的守护神
网络数据采集
马尔可夫模型文字链原理手绘今天速读了一下Python网络数据采集,第一次用泛读速读的方法阅读学习材料。这里记上一些一天之后的收获,思路由目录回忆,粗略的片段,并不保证准确,随着日后的学习会补充。
1. 关于BeautifulSoup 这玩意是干啥的? 负责把网页中的信息转换成python能够读取得懂的信息 有俩函数很厉害find()
和findAll()
,用于过滤html页面
2.关于正则表达式 给出两个学习正则表达式的链接 python中的正则表达式模块 正则表达式30分钟入门教程
3.储存数据 使用Mysql储存文件 关于Mysql安装:一会儿写一下 [to-do] pymysql可以实现python和mysql的连接
4. 文档编码 简单来说unicode最全面,但是iso还是弥补了很多 对于拉丁文来说ascii比unicode简介很多,不过对于中文来说就是unicode了
5. 数据清洗 引入了n-gram模型,把一个文本中,连续出现的n个词组成一个组合,并返回词频,而n-gram模型作出的统计是当前置词出现之后,后续词出现的条件概率统计。
6. 马尔可夫模型 举例了马尔可夫模型的天气预测解释 从而引入马尔可夫文字生成器,图如下
马尔可夫模型7. Requests库 通过requests库可以提交简单的表单 通过requests库可以提交弹窗那种HTTP基本接入认证 通过requests库可以解决登陆和cookie的检测