当前位置 博文首页 > andang3003的博客:Python爬虫下载美女图片(不同网站不同方法)

    andang3003的博客:Python爬虫下载美女图片(不同网站不同方法)

    作者:[db:作者] 时间:2021-07-30 18:08

    声明:以下代码,Python版本3.6完美运行


    一、思路介绍

      不同的图片网站设有不同的反爬虫机制,根据具体网站采取对应的方法

      1. 浏览器浏览分析地址变化规律

      2. Python测试类获取网页内容,从而获取图片地址

      3. Python测试类下载图片,保存成功则爬虫可以实现

    ?

    二、豆瓣美女(难度:?)

      1.? 网址:https://www.dbmeinv.com/dbgroup/show.htm

      浏览器里点击后,按分类和页数得到新的地址:"https://www.dbmeinv.com/dbgroup/show.htm?cid=%s&pager_offset=%s" % (cid, index)

      (其中cid:2-胸 3-腿 4-脸 5-杂 6-臀 7-袜子? ? ?index:页数)

    ?

      2. 通过python调用,查看获取网页内容,以下是Test_Url.py的内容 

     1 from urllib import request
     2 import re
     3 from bs4 import BeautifulSoup
     4 
     5 
     6 def get_html(url):
     7     req = request.Request(url)
     8     return request.urlopen(req).read() 9 10 11 if __name__ == '__main__': 12 url = "https://www.dbmeinv.com/dbgroup/show.htm?cid=2&pager_offset=2" 13 html = get_html(url) 14 data = BeautifulSoup(html, "lxml") 15 print(data) 16 r = r'(https://\S+\.jpg)' 17 p = re.compile(r) 18 get_list = re.findall(p, str(data)) 19 print(get_list)
    cs
    下一篇:没有了