爬虫程序一直运行不完,是写的正则式不对吗

刚开始学习爬虫,用urllib,想尝试爬下豆瓣的热门话题,代码和html中需要截取的部分如下。但是程序一直在运行,是什么原因呢?

讨论数量: 3

把代码复制出来,不要截图

2年前 评论
from urllib import request, parse
import re
import time
import random
import pprint

headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:65.0) Gecko/20100101 Firefox/65.0"} 

url = "https://www.douban.com/gallery/all?column_id=5"

req = request.Request(url=url, headers=headers) 
res = request.urlopen(req) 
html = res.read().decode("utf-8")

mylist = re.findall(r'<li class="topic-link">(.*?)</li>', html, re.S) 

pprint.pprint(mylist)
2年前 评论

你是想全用标准库吗?

2年前 评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!