当前位置 博文首页 > Python爬虫爬取商品失败处理方法

    Python爬虫爬取商品失败处理方法

    作者:py 时间:2021-09-19 18:28

    1.登陆网站,开启开发者模式。

    可以在浏览器中点击右键检查或者F12打开开发者模式。

    2.点选 NetWork,DOC,然后刷新页面。

    在 network 中选择 doc,在请求的 headers 中搜索 cookie。

    3.获取对应的 cookie 以及 user-agent。

    4.在代码中添加到 headers 里面。

    def getHTMLText(url):
      kv = {
        'cookie': 'adsgadfafegadsgadsfaefasdfaewfadsfag'
        'uaer-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
      }
        try:
        r = requests.get(url, headers=kv, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
      except:
        return "gg"

    实例扩展:

    程序的结构设计

    1. 提交商品搜索请求,循环获取页面
    2. 对于每个页面,提取商品名称和价格信息
    3. 将信息输出

    遇到问题

    爬取成功,数据有问题

    打印 html 文件,返回如下

    <script type="text/javascript">
      TRLang = {
        ERROR_NICK_BLANK: "请填写账户名",
        ERROR_PASSWORD_BLANK: "请输入密码",
        ERROR_NICK_PASSWORD_BLANK: "请输入账户名和密码",
        ERROR_CHECKCODE_BLANK: "请输入验证码",
        TIPS_REMEMBER_PASSWORD: "记住密码",
        TIPS_NOT_REMEMBER_PSW_ON_PUBLIC: "不要在公共计算机记住密码,防止账户被盗"
      };
    </script>
    jsjbwy
    下一篇:没有了