scrapy使用xpath的text提取文字内容出现丢失


使用python库scrapy在提取html内容的时候, 如果需要提取的标签中有em一类标签, 这时候使用text进行提取就会出现内容丢失,比如

<a href="http://www.xxxx.xxx" target="_blank"><em>go</em>微架<em>go</em>-<em>micro</em>深度学园</a>

这时候可以考虑手动提取, 或者使用lxml库中的etree

html = etree.HTML(html_text)
title = ''.join(html.xpath('.//text()'))

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.11000011.com/?id=223

« 上一篇 下一篇 »

我要评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

主机推荐

  • 搬瓦工