Python数据分析流程及常用库介绍

2023-05-22  本文已影响0人  卡门001

数据分析的价值

数据分析遵循以下三个主要过程:

  1. 数据采集
  2. 数据挖掘
  3. 数据可视化

数据采集

采集数据时需遵守《中华⼈⺠共和国个⼈信息保护法》

数据挖掘

数据可视化

常用库:

数据分析的每个过程均有 Python 库⽀持,可以通过 Python实现数据分析的全部技术栈

数据采集的⽅法之HTTP 协议速查

import requests
r = requests.get('https://time.geekbang.org', auth=('user', 'pass'))
r.status_code #200
r.headers['content-type'] #'application/json; charset=utf8'
r.encoding # ’utf-8’
r.text #’{"authenticated": true, …'
r.json() #{'authenticated': True, ...}
通过 r.text 可以提取⽹⻚的内容,*⼤部分和使⽤浏览器查看源代码相同
⽹⻚包含样式和数据两类内容,要想实现⽂字内容的提取,必须将样式剔除
*注:部分⽹⻚使⽤了特定浏览器访问机制

数据展示 - Matplotlib

• Notebook 不会像 Python 终端⼀样⾃动展示图表
• 如果你⽤ Notebook 运⾏ Matplotlib 库,需要在绘图时增加函数 figure.show()

例:展示天气数据

  1. 从db中读取数据 ==》将数据转换为字典 ==》 用Matplotlib绘图

基于该城市当年每⽉⽓温变化,绘制图表如下:


图片.png

更多样图

https://matplotlib.org/stable/gallery/index
上一篇下一篇

猜你喜欢

热点阅读