抓取表格为空入库
2018-09-18 本文已影响0人
chliar
表格里包含td标签,有td标签,但是数据为空的情况。
这个a标签就没有子公司的code 代码编号,其他的都有
使用pandas 中的read_html()
如何补全呢?
方法来了:
soup = BeautifulSoup(page_source, 'lxml')
用read_html()获取table
在xpath标签中的code
for i in xpath:
''.join(i)
如果匹配不到也为空字符 就不会错位