Python爬虫系列19-采集B站视频弹幕数据

2022-08-25  本文已影响0人  Tony_Pm

序言

种一棵树最好的时间是十年前,其次是现在。
不管自己想做一件什么样的事情,要么全力以赴,要么果断放弃,明确对生活的态度会让一切变得更好简单。
当我们同时做很多件事情的时候,很有可能一件事情都做不好,倒不如专注的做好一件事,来的更好。

实战

image.png

代码源文件

import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
 
# 弹幕保存文件
file_name = '冷笑话.csv'
# 获取页面
cid = 161896483
url = "https://comment.bilibili.com/" + str(cid) + ".xml"
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
    }
request = requests.get(url=url, headers=headers)
request.encoding = 'utf-8'

# 提取弹幕
soup = BeautifulSoup(request.text, 'lxml')
results = soup.find_all('d')

# 数据处理
data = [data.text for data in results]
# 正则去掉多余的空格和换行 
for i in data: 
    i = re.sub('\s+', '', i)

# 查看数量
print("弹幕数量为:{}".format(len(data)))
 
# 输出到文件 
df = pd.DataFrame(data) 
df.to_csv(file_name, index=False, header=None, encoding="utf_8_sig")
print("写入文件成功")
image.png

如果本文对你学习有所帮助-可以点赞👍+ 关注!将持续更新更多新的文章。

上一篇下一篇

猜你喜欢

热点阅读