Python 爬虫入门问题

我这个代码运行后，输入任意中文，然后用编译器打搜索.html，为啥会呈现图片中的文字：网络不给力，请稍后重试，不理解。希望得到解答，谢谢。

import urllib.request
import urllib.parse

# 拼接URL
basedurl = "http://baidu.com/s?"
key = input("请输入要搜索的内容:")

# 进行urlencode()编码
wd = {"wd": key}
key = urllib.parse.urlencode(wd)

url = basedurl + key
headers = {"User-Agent": "Mozilla/5.0"}

# 创建请求对象
req = urllib.request.Request(url, headers=headers)

# 获取响应对象
res = urllib.request.urlopen(req)
html = res.read().decode("utf-8")


# 写入本地文件
with open("搜索.html", "w", encoding="utf-8") as f:
      f.write(html)

python 爬虫

OlafChou

17 声望

暂无个人描述~

0 人点赞

推荐文章：

更多推荐...

置顶

[进度 100.00%] Python Masonite 4.0 中文翻译召集（Python 中的类 Laravel 框架） 15 / 19 |

博客

2021年python库大全 30 / 5 |

公告

Python Masonite 框架中文翻译召集（Python 中的类 Laravel 框架） 24 / 25 |

博客

收集了一些各大网站 python 的登陆方式,希望对学习 python 的小白，和想写爬虫的你们有所帮助,,本项目用于研究和分享各大网站的模拟登陆方式 17 / 5 |

翻译

Python 3.7 的一些新特性 10 / 2 |

公告

一起学 Python 《Python 最佳实践指南》翻译召集 16 / 2 |

Coolest

见习助教 395 声望

最佳答案

爬取搜索引擎？很明显，百度搜索查出来了你是机器人。我之前弄过百度搜索和百度翻译，基本上百度的网站都是cookie验证而不是user-agent认证的。所以说，user-agent其实不用加的，但是cookie必须要加。否则，百度会判断你是机器人并给你个安全验证。
参考代码：

import urllib.request
import urllib.parse

# 拼接URL
basedurl = "http://baidu.com/s?"
key = input("请输入要搜索的内容:")

# 进行urlencode()编码
wd = {"wd": key}
key = urllib.parse.urlencode(wd)

url = basedurl + key
headers = {"Cookie": "BAIDUID=F38AC2419CF0AC3B3A3DB41595EB6F9F:FG=1; BIDUPSID=F38AC2419CF0AC3B3A3DB41595EB6F9F; PSTM=1585882998; BD_UPN=12314353; yjs_js_security_passport=2413cfeabab8c429a825972715f9d67519fdc472_1586848693_js; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; sugstore=0; delPer=0; BD_CK_SAM=1; PSINO=6; H_PS_PSSID=30970_1425_21096_31186_31229_30824_31164_22157; H_PS_645EC=9c74rZPiR3LwXxmfeU8X%2BBOX16mULH1FiPiE%2BjnCZl4U%2FmS8b%2BkiuGco%2FMyieurN5zIG"}

# 创建请求对象
req = urllib.request.Request(url, headers=headers)

# 获取响应对象
res = urllib.request.urlopen(req)
html = res.read().decode("utf-8")


# 写入本地文件
with open("搜索.html", "w", encoding="utf-8") as f:
      f.write(html)

怕你不会找cookie，这个cookie就给你了。反正这是一个游客cookie

5年前评论

OlafChou （楼主）

我试过了，没用，跟我的效果一样

OlafChou （楼主）

我后来换成知乎，就可以了，不过还是谢谢你，虽然这个没实现

Coolest （作者）

@OlafChou 你是在弄搜索引擎吗

Coolest （作者）

@OlafChou 我之前弄过一个百度的，你要不要代码

OlafChou （楼主）

@TNT_God 可以啊，我在自学爬虫，新手刚开始。。。。

Coolest （作者）

@OlafChou 私聊我吧

Coolest （作者）

@OlafChou 出了什么问题

Coolest （作者）

说错了，是必应搜索，不过也没啥区别

讨论数量: 4

Coolest

见习助教 395 声望

import urllib.request
import urllib.parse

# 拼接URL
basedurl = "http://baidu.com/s?"
key = input("请输入要搜索的内容:")

# 进行urlencode()编码
wd = {"wd": key}
key = urllib.parse.urlencode(wd)

url = basedurl + key
headers = {"Cookie": "BAIDUID=F38AC2419CF0AC3B3A3DB41595EB6F9F:FG=1; BIDUPSID=F38AC2419CF0AC3B3A3DB41595EB6F9F; PSTM=1585882998; BD_UPN=12314353; yjs_js_security_passport=2413cfeabab8c429a825972715f9d67519fdc472_1586848693_js; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; sugstore=0; delPer=0; BD_CK_SAM=1; PSINO=6; H_PS_PSSID=30970_1425_21096_31186_31229_30824_31164_22157; H_PS_645EC=9c74rZPiR3LwXxmfeU8X%2BBOX16mULH1FiPiE%2BjnCZl4U%2FmS8b%2BkiuGco%2FMyieurN5zIG"}

# 创建请求对象
req = urllib.request.Request(url, headers=headers)

# 获取响应对象
res = urllib.request.urlopen(req)
html = res.read().decode("utf-8")


# 写入本地文件
with open("搜索.html", "w", encoding="utf-8") as f:
      f.write(html)

怕你不会找cookie，这个cookie就给你了。反正这是一个游客cookie

5年前评论

OlafChou （楼主）

我试过了，没用，跟我的效果一样

OlafChou （楼主）

我后来换成知乎，就可以了，不过还是谢谢你，虽然这个没实现

Coolest （作者）

@OlafChou 你是在弄搜索引擎吗

Coolest （作者）

@OlafChou 我之前弄过一个百度的，你要不要代码

OlafChou （楼主）

@TNT_God 可以啊，我在自学爬虫，新手刚开始。。。。

Coolest （作者）

@OlafChou 私聊我吧

Coolest （作者）

@OlafChou 出了什么问题

Coolest （作者）

说错了，是必应搜索，不过也没啥区别

GA17

42 声望

你的 headers 要添加 Accept，User-Agent 换成自己浏览器的或者其他的，我试过你这个UA不行

5年前评论

Coolest

见习助教 395 声望

wow

5年前评论

Jason990420

1.9k 声望 / 個人 @ 個人

可以的, 我可以下到网页, 再打开也OK ! :+1:

5年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

Python 爬虫入门问题

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

Python 爬虫入门问题

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录