关于站点URL分层级爬取提交百度收录

SIte：www.lesou365.com/

打开链接分别有若干板块，想要爬取这些链接不难；但是这些链接下面有大量的文章链接，并且涉及到翻页爬取，我想拿到也能捣鼓出来，但是效率大大折扣，作为一个pythoner怎么能放任低效率进行工作呢？

Demo Code

思路是：每获取到一个上层URL时则进入该URL爬取所有文章的URL保存为txt文档；直到这个上层URL下面的URL都爬取完毕后再继续爬取其他上层URL的下层文章链接。

关于站点URL分层级爬取提交百度收录

File Structure

——washUrl            # URL清洗作为一个动作
｜——getUrl.py
——pushUrl            # 推送URL至百度作为一个动作
｜——push.py
——config.py
——main.py

Ask For

请求指点如何增加爬取效率，可以用上Thread多线程（emmm我还没理解懂多线程 -_-）
请求指点py项目的结构体系应当如何构建才是规范（PS：上方结构树完全是凭感觉瞎造出来的）
项目完成会考虑使用GUI封装可视化使用（PS：毕竟使用的人不懂编程），请推荐一种相对上手简单的GUI模块

虚心求学，悉听指教！感谢learnku以及所有默默付出的成员。

爬虫

Scrooge

课程读者 281 声望

奋进小生，Gopher

0 人点赞

推荐文章：

更多推荐...

博客

收集了一些各大网站 python 的登陆方式,希望对学习 python 的小白，和想写爬虫的你们有所帮助,,本项目用于研究和分享各大网站的模拟登陆方式 17 / 5 |

Jason990420

1.9k 声望 / 個人 @ 個人

最佳答案

以下代码只是简单显示一下多线程的作法, 也使用 PySimpleGUI 作为使用者介面

import time
import threading
import PySimpleGUI as sg


def func(window):
    time.sleep(5)   # Load page here

layout = [
    [sg.Button("New"), sg.Button('Exit')],
    [sg.Text('', size=40, key='STATUS')],
]

window = sg.Window("Multithread", layout, finalize=True, enable_close_attempted_event=True)

threads = []
while True:

    event, values = window.read(timeout=100)

    if event in (sg.WINDOW_CLOSE_ATTEMPTED_EVENT, 'Exit'):
        for thread in threads:
            thread.join()
        break
    elif event == 'New':
        thread = threading.Thread(target=func, args=(window, ), daemon=True)
        threads.append(thread)
        thread.start()
    elif event == sg.TIMEOUT_EVENT:
        window['STATUS'].update(f'No. of threads: {threading.active_count()}')

window.close()

PySimpleGUI 請參考 PySimpleGUI 简介

3年前评论

讨论数量: 1

Jason990420

1.9k 声望 / 個人 @ 個人

以下代码只是简单显示一下多线程的作法, 也使用 PySimpleGUI 作为使用者介面

import time
import threading
import PySimpleGUI as sg


def func(window):
    time.sleep(5)   # Load page here

layout = [
    [sg.Button("New"), sg.Button('Exit')],
    [sg.Text('', size=40, key='STATUS')],
]

window = sg.Window("Multithread", layout, finalize=True, enable_close_attempted_event=True)

threads = []
while True:

    event, values = window.read(timeout=100)

    if event in (sg.WINDOW_CLOSE_ATTEMPTED_EVENT, 'Exit'):
        for thread in threads:
            thread.join()
        break
    elif event == 'New':
        thread = threading.Thread(target=func, args=(window, ), daemon=True)
        threads.append(thread)
        thread.start()
    elif event == sg.TIMEOUT_EVENT:
        window['STATUS'].update(f'No. of threads: {threading.active_count()}')

window.close()

PySimpleGUI 請參考 PySimpleGUI 简介

3年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

关于站点URL分层级爬取提交百度收录

SIte：www.lesou365.com/

Demo Code

思路是：每获取到一个上层URL时则进入该URL爬取所有文章的URL保存为txt文档；直到这个上层URL下面的URL都爬取完毕后再继续爬取其他上层URL的下层文章链接。

File Structure

Ask For

虚心求学，悉听指教！感谢learnku以及所有默默付出的成员。

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

关于站点URL分层级爬取提交百度收录

SIte：www.lesou365.com/

Demo Code

思路是：每获取到一个上层URL时则进入该URL爬取所有文章的URL保存为txt文档；直到这个上层URL下面的URL都爬取完毕后再继续爬取其他上层URL的下层文章链接。

File Structure

Ask For

虚心求学，悉听指教！感谢learnku以及所有默默付出的成员。

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录