当某些HTML文本内容无法被etree.HTML解析时
2024-03-06 本文已影响0人
sexy_cyber
- 下面的代码有时候会遇到tree是None的情况
tree = etree.HTML(res.text)
-
用beautifulsoup来替代
比如获取标签属性为"NEXT_DATA"的script标签的文本内容
res = requests.get(url,headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
target_script = soup.find("script", id="__NEXT_DATA__")
if target_script:
# 提取目标script标签的文本内容
target_script_text = target_script.text