提取网页文本内容

2024-11-06 本文已影响0人孙庚辛

在html 中填写网页编码，运行程序，去掉网页标签，仅提取其中的网页文本内容：

from bs4 import BeautifulSoup

def extract_span_text(html_content):
    # 使用 BeautifulSoup 解析 HTML
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # 找到所有的 span 标签
    span_tags = soup.find_all('span')
    
    # 提取每个 span 标签中的文本内容
    span_texts = [span.get_text() for span in span_tags]
    
    # 返回所有文本内容的列表
    return span_texts

# 使用示例
html = """
"""

result = extract_span_text(html)
for text in result:
    print(text)

提取网页文本内容

猜你喜欢

热点阅读