图片下载器

未匹配的标注

图片下载器

图片下载器

利用前面我们掌握的知识,可以完成网页数据文本内容的爬取操作。保存到指定文件中加以分析、利用。类似的,我们同样可以爬取网页中其他数据内容。如:jpg、gif、MP4等。实现原理大同小异。

这里,我们以“斗鱼”网站为例,尝试获取网页中图片信息,保存成jpg文件到本地终端指定目中。

首先,依然是“明确目标”,打开斗鱼直播网站首页。www.douyu.com/ 在“分类”中选择“颜值”模块,得到URL:www.douyu.com/g_yz 在任意一张图片上“审查元素”, 得到该图片相关网页数据信息:

图片下载器

使用浏览器自带功能,查看网页源码,每一个网页中共有多个图片。每个图片都对应有两个独立的URL链接,假设这里我们取第一个。该URL以 “data-original="”开头,以“"”结尾。以之前我们积累的经验,可以设定正则表达式 *(.?) **将图片链接单独获取。循环操作可以获取整个页面内,所有图片的 URL地址。

点击该链接,可以打开一个独立的页面,显示整张图片。只需将这个URL再次传递给http.Get()函数,即可获取所有网页数据。指定存储目录位置,设定保存文件名。将读取到的网页图片数据信息,写入文件保存即可完成该图片下载操作。循环操作可以保存整个页面内,所有图片。

当然,为提高效率,这里我们依然可以借助goroutine 和channel 并发处理。

这里不再提供源码参考。请大家利用所学知识,独立完成图片下载器练习。

本文章首发在 LearnKu.com 网站上。

上一篇 下一篇
讨论数量: 0
发起讨论 只看当前版本


暂无话题~