爬虫程序一直运行不完，是写的正则式不对吗

问答 / 0 / 3 / 创建于 3年前

刚开始学习爬虫，用urllib，想尝试爬下豆瓣的热门话题，代码和html中需要截取的部分如下。但是程序一直在运行，是什么原因呢？

Icuras

1 声望

暂无个人描述~

0 人点赞

推荐文章：

更多推荐...

置顶

[进度 100.00%] Python Masonite 4.0 中文翻译召集（Python 中的类 Laravel 框架） 15 / 20 |

公告

Python Masonite 框架中文翻译召集（Python 中的类 Laravel 框架） 24 / 25 |

博客

收集了一些各大网站 python 的登陆方式,希望对学习 python 的小白，和想写爬虫的你们有所帮助,,本项目用于研究和分享各大网站的模拟登陆方式 17 / 5 |

翻译

Python 3.7 的一些新特性 10 / 2 |

链接

快速掌握一个语言最常用的 50% 11 / 1 |

翻译

使用 Python 一步步搭建自己的区块链 22 / 1 |

讨论数量: 3

hustnzj

版主 2.2k 声望

把代码复制出来，不要截图

3年前评论

hustnzj

版主 2.2k 声望

from urllib import request, parse
import re
import time
import random
import pprint

headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:65.0) Gecko/20100101 Firefox/65.0"} 

url = "https://www.douban.com/gallery/all?column_id=5"

req = request.Request(url=url, headers=headers) 
res = request.urlopen(req) 
html = res.read().decode("utf-8")

mylist = re.findall(r'<li class="topic-link">(.*?)</li>', html, re.S) 

pprint.pprint(mylist)

3年前评论

MaxKing

29 声望

你是想全用标准库吗?

3年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

爬虫程序一直运行不完，是写的正则式不对吗

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

爬虫程序一直运行不完，是写的正则式不对吗

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录