爬取某小说网站，代码报错，IndexError: list index out of range

问答 / 109 / 11 / 创建于 11个月前 / 更新于 11个月前

import requests
from lxml import etree
# 1、获取要爬的urls
urls = [
    'https://www.777zw.net/book/5d/37eefc2f6e/{}.html'.format(i) for i in range(1, 148)]
# print(urls) 正确
# 2、保存小说地址
#
# 3、获取小说内容
def get_text(url):
    r = requests.get(url)
    r.encoding = 'utf-8'
    html = etree.HTML(r.text)
    title = html.xpath(
        "/html/body/div[4]/div/div/div[1]/a[2]/text()")
    text = html.xpath(
        "/html/body/div[4]/div/div/div[2]/h1//text()")  # 读取第一章内容"
    with open(title[0] + ".doc", encoding="utf-8") as f:
        for i in text:
            f.write(i)

if __name__ == '__main__':
    for url in urls:
        get_text(url)

运行后，显示

爬取小说报错

ZHY2023CXZ

27 声望

暂无个人描述~

0 人点赞

推荐文章：

更多推荐...

博客

收集了一些各大网站 python 的登陆方式,希望对学习 python 的小白，和想写爬虫的你们有所帮助,,本项目用于研究和分享各大网站的模拟登陆方式 16 / 5 |

讨论数量: 11

Jason990420

1.8k 声望 / 個人 @ 個人

It looks like that you got a wrong x-path.

title = html.xpath("/html/body/div[3]/div[1]/div/div/div[2]/div[1]/h1/text()")
print(repr(title))

[]

>>> title = []
>>> title[0]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
IndexError: list index out of range

Wrong xpath for the title

import requests
from lxml import etree

url = 'https://www.777zw.net/book/5d/37eefc2f6e/1.html'
r = requests.get(url)
r.encoding = 'utf-8'
html = etree.HTML(r.text)
# title = html.xpath("/html/body/div[3]/div[1]/div/div/div[2]/div[1]/h1/text()")

title1 = html.xpath("/html/body/div[4]/div/div/div[1]/a[2]/text()")
print(title1[0])
title2 = html.xpath("/html/body/div[4]/div/div/div[2]/h1/text()")
print(title2[0])

新覆雨翻云
第1章 楞严：达先天境中上段

11个月前评论

ZHY2023CXZ （楼主）

title在实际网页中的这个路径是没问题的，可以打印出['新覆雨翻云']，在这个程序中打印不出么，怎么验证啊

Jason990420 （作者）

@ZHY2023CXZ Updated as above.

Jason990420 （作者）

@ZHY2023CXZ 还有什么问题 ?!

ZHY2023CXZ （楼主）

@Jason990420 我更新了你title1、title2地址，运行仍显示IndexError: list index out of range

Jason990420 （作者）

@ZHY2023CXZ 更新一下你的代码 , 才能看哪里有问题 !

ZHY2023CXZ （楼主）

@Jason990420 已更新，麻烦指点下

Jason990420 （作者）

@ZHY2023CXZ default mode is 'r' or read for open(title[0] + ".doc", encoding="utf-8"), you cannot call method write. Replace it by open(title[0] + ".doc", mode='wt', encoding="utf-8"), or mode='a' if append new content.

ZHY2023CXZ （楼主）

@Jason990420 根据您的指点，我open(title[0] + ".txt", mode='a', encoding="utf-8").运行成功，后又open(title[0] + ".doc", mode='a', encoding="utf-8")也运行成功

raybon

Laravel 8.x 译者 285 声望 / php @ 远程

数组索引越界，检查下数据

11个月前评论

ZHY2023CXZ （楼主）

小白，应该怎么检查，求指点

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

爬取某小说网站，代码报错，IndexError: list index out of range

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

爬取某小说网站，代码报错，IndexError: list index out of range

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录