当前位置 博文首页 > andang3003的博客:Python爬虫下载美女图片(不同网站不同方法)
声明:以下代码,Python版本3.6完美运行
一、思路介绍
不同的图片网站设有不同的反爬虫机制,根据具体网站采取对应的方法
1. 浏览器浏览分析地址变化规律
2. Python测试类获取网页内容,从而获取图片地址
3. Python测试类下载图片,保存成功则爬虫可以实现
?
二、豆瓣美女(难度:?)
1.? 网址:https://www.dbmeinv.com/dbgroup/show.htm
浏览器里点击后,按分类和页数得到新的地址:"https://www.dbmeinv.com/dbgroup/show.htm?cid=%s&pager_offset=%s" % (cid, index)
(其中cid:2-胸 3-腿 4-脸 5-杂 6-臀 7-袜子? ? ?index:页数)
?
2. 通过python调用,查看获取网页内容,以下是Test_Url.py的内容
1 from urllib import request 2 import re 3 from bs4 import BeautifulSoup 4 5 6 def get_html(url): 7 req = request.Request(url) 8 return request.urlopen(req).read() 9 10 11 if __name__ == '__main__': 12 url = "https://www.dbmeinv.com/dbgroup/show.htm?cid=2&pager_offset=2" 13 html = get_html(url) 14 data = BeautifulSoup(html, "lxml") 15 print(data) 16 r = r'(https://\S+\.jpg)' 17 p = re.compile(r) 18 get_list = re.findall(p, str(data)) 19 print(get_list)cs