图片下载器
图片下载器#
利用前面我们掌握的知识,可以完成网页数据文本内容的爬取操作。保存到指定文件中加以分析、利用。类似的,我们同样可以爬取网页中其他数据内容。如:jpg、gif、MP4 等。实现原理大同小异。
这里,我们以 “斗鱼” 网站为例,尝试获取网页中图片信息,保存成 jpg 文件到本地终端指定目中。
首先,依然是 “明确目标”,打开斗鱼直播网站首页。www.douyu.com/ 在 “分类” 中选择 “颜值” 模块,得到 URL:www.douyu.com/g_yz 在任意一张图片上 “审查元素”, 得到该图片相关网页数据信息:
使用浏览器自带功能,查看网页源码,每一个网页中共有多个图片。每个图片都对应有两个独立的 URL 链接,假设这里我们取第一个。该 URL 以 “data-original="” 开头,以 “"” 结尾。以之前我们积累的经验,可以设定正则表达式 *(.?) ** 将图片链接单独获取。循环操作可以获取整个页面内,所有图片的 URL 地址。
点击该链接,可以打开一个独立的页面,显示整张图片。只需将这个 URL 再次传递给 http.Get () 函数,即可获取所有网页数据。指定存储目录位置,设定保存文件名。将读取到的网页图片数据信息,写入文件保存即可完成该图片下载操作。循环操作可以保存整个页面内,所有图片。
当然,为提高效率,这里我们依然可以借助 goroutine 和 channel 并发处理。
这里不再提供源码参考。请大家利用所学知识,独立完成图片下载器练习。
推荐文章: