scrapy 使用 CSS 或者 xpath 提取没有 HTML 标签包括的文本

如何使用 css 或者 xpath 选择器提取到 `1-1 Java简介 (05:49)` 的内容?

<a href="/video/1430" class="J-media-item">
     <i class="imv2-play_circle type"></i>
    1-1 Java简介 (05:49)
     <button class="r moco-btn moco-btn-red preview-btn">开始学习</button>
</a>

目前的解决方法是使用 beautifulsoup4, 除了这里的数据其他数据都提取到了, 不想为了这个问题再引入 bs4, 请教下 css 或者 xpath 如何实现?

scrapy

Demodeom

课程读者 32 声望

初级开发工程师 @ 研发部

暂无个人描述~

0 人点赞

Bgods

90 声望

最佳答案

from lxml import etree
wb_data = '''
<a href="/video/1430" class="J-media-item">
     <i class="imv2-play_circle type"></i>
    1-1 Java简介 (05:49)
     <button class="r moco-btn moco-btn-red preview-btn">开始学习</button>
</a>
'''
html = etree.HTML(wb_data)
a_text = html.xpath('//a/text()')
print(a_text)

4年前评论

讨论数量: 3

codeby

0 声望

css: i::text()
xpath: a//i//text()

4年前评论

Demodeom （楼主）

感谢你的解答，文本没有在 i 标签里面，在 i 标签后面

pardon110

855 声望 / 开发者 @ 社科大

取a标签的内的文本节点集合，取第1个索引就是了

4年前评论

Bgods

90 声望

from lxml import etree
wb_data = '''
<a href="/video/1430" class="J-media-item">
     <i class="imv2-play_circle type"></i>
    1-1 Java简介 (05:49)
     <button class="r moco-btn moco-btn-red preview-btn">开始学习</button>
</a>
'''
html = etree.HTML(wb_data)
a_text = html.xpath('//a/text()')
print(a_text)

4年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

scrapy 使用 CSS 或者 xpath 提取没有 HTML 标签包括的文本

如何使用 css 或者 xpath 选择器提取到 `1-1 Java简介 (05:49)` 的内容?

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

scrapy 使用 CSS 或者 xpath 提取没有 HTML 标签包括的文本

如何使用 css 或者 xpath 选择器提取到 1-1 Java简介 (05:49) 的内容?

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录

如何使用 css 或者 xpath 选择器提取到 `1-1 Java简介 (05:49)` 的内容?