Python使用BeautifulSoup爬取妹子图

  • 时间:
  • 浏览:2
  • 来源:uu快3网站_uu快3充值_玩法

下面给出的代码是从首页获取每个分类的地址,有很久 的获取包括图片地址,内容页地址也全部时会大同小异,有很久老是 嵌套就要能了。

获取内容页面图片地址以及标题,以页面标题作为文件夹名

这里需用注意的是保存图片的很久 需用加上header,应该是网站更新了验证,去年爬妹子图直接保存就要能的。

文件命名得话我引入了uuid包来生成唯一guid,防止重名保存失败。

最后保存图片就好了

image.png

image.png

Beautiful Soup提供有很久 简单的、python式的函数来防止导航、搜索、修改分析树等功能。它是有有有一个 工具箱,通过解析文档为用户提供需用抓取的数据,不可能 简单,有很久 有很久 不需用有2个代码就要能写出有有有一个 全部的应用进程。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需用考虑编码土法子,除非文档没有指定有有有一个 编码土法子,这时,Beautiful Soup就要能 自动识别编码土法子了。有很久,你仅仅需用说明一下原始编码土法子就要能了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的传输速率。

页面地址:http://www.meizitu.com/

peace~

image.png

文件夹

最近老是 发现很久 写的妹子图的爬虫要能 用了,估计是网站又加了新的反爬虫机制,本着追求真理的精神我只好又来爬一遍了!

最后按照思路一步步嵌套起来就要能啦,贴全部代码:

获取每个分类下内容页面地址

首先说BeautifulSoup真的是爬虫利器,不过需用注意这里返回的list,还需用通过for循环读取每个地址。贴一段官方解释:

妹子图

我我觉得还有一步要能做,每个分类页面下目前是只取了第一页的内容,加上有有有一个 页码的嵌套得话基本上就要能全部download下来了,不过我盖中盖的Mac吃不消了,有兴趣的要能尝试下~

另外我把代码打包生成了exe,有兴趣的要能留言不可能 私信我,我发你^^

获取首页分类标签地址,传入下一步

猜你喜欢

谁知道复印纸80g与70g是什么意思呀?

A4纸70G是指该纸的重量为70克每平方米是指复印纸的深度1,用克数(重量)来区别,3000g纸比70g纸要厚一些.你对你这些 回答的评价是?你对你这些 回答的评价是?你对

2020-02-26

中国书籍出版社有没有出版过但丁的《神曲》,在哪有的卖?

有点痛 推荐你对你你這個 回答的评价是?换一换展开删改应该有,时候 我在淘宝网见过使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。扫描二维码下载

2020-02-26

HTML DOM 事件对象

IE8及其更早版本不支持which属性。不支持的浏览器可使用keyCode属性。因此,keyCode属性在Firefox浏览器的onkeypress事件中是无效的。兼容哪此浏览

2020-02-26

Spring beans架构设计原理

本篇先从设计者的初衷JavaBeans开始,理清楚set的注入原理,而且再(如)往(果)下(有)探(时)寻(间)Annotation注入。Sun并非 指定beans规范,很大

2020-02-26

开发漫谈:RedMonk编程语言流行榜出炉

世界上的语言千万种,但在系统多多线程 猿的眼中,优秀的语言永远必须1种。一百个读者眼中含一百个哈姆雷特,一百个系统多多线程 员眼中,全是一百种不同的最好编程语言。Swi

2020-02-26