每天一个爬虫-learnku:我的博客列表

前言

昨天开了一个新的坑,现在想一步一步将learnku全站给爬下来,目前想要实现的功能:1.可以出现新文章提醒,各类消息提醒。2.各大版块的新文章收录,先将文章收录起来,然后完成筛选后推送给我3.每天更新个人相关数据,及时推送。后续还可能会加入新的功能,在此出一个系列文章,分享我完成这个项目的整个过程。
昨天写了一个爬虫完成了对我的博客页面个人相关数据的爬虫,今天计划完成个人所有文章的爬虫
代码如下:

...
title_list = result.xpath('//div [@class = "event"]//div [@class = "summary"]/a/text()')
post_url_list = result.xpath('//div [@class = "event"]//div [@class = "summary"]/a/@href')
page_num = len(result.xpath('//ul [@class = "pagination"]/li')) - 1
for i in range(2, page_num):
    next_url = 'https://learnku.com/blog/SilenceHL?page={}'.format(i)
    response = requests.get(url).content.decode()
    title_list.extend(result.xpath('//div [@class = "event"]//div [@class = "summary"]/a/text()'))
    post_url_list.extend(result.xpath('//div [@class = "event"]//div [@class = "summary"]/a/@href'))
for i in range(len(title_list)):
    print('博文标题为:{},链接为:{}'.format(title_list[i], post_url_list[i]))
本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!