提取网页文本内容
2024-11-06 本文已影响0人
孙庚辛
在html 中填写网页编码,运行程序,去掉网页标签,仅提取其中的网页文本内容:
from bs4 import BeautifulSoup
def extract_span_text(html_content):
# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html_content, 'html.parser')
# 找到所有的 span 标签
span_tags = soup.find_all('span')
# 提取每个 span 标签中的文本内容
span_texts = [span.get_text() for span in span_tags]
# 返回所有文本内容的列表
return span_texts
# 使用示例
html = """
"""
result = extract_span_text(html)
for text in result:
print(text)