Python抓取Discuz!用户名脚本代码

当前位置博文首页 > Python抓取Discuz!用户名脚本代码

Python抓取Discuz!用户名脚本代码

作者：admin 时间：2021-06-12 18:27

最近学习Python，于是就用Python写了一个抓取Discuz!用户名的脚本，代码很少但是很搓。思路很简单，就是正则匹配title然后提取用户名写入文本文档。程序以百度站长社区为例(一共有40多万用户)，挂在VPS上就没管了，虽然用了延时但是后来发现一共只抓取了50000多个用户名就被封了。。。
代码如下：

复制代码代码如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站长平台用户名脚本

import urllib
import urllib2
import re
import time

def BiduSpider():
     pattern = re.compile(r'<title>(.*)的个人资料百度站长社区 </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://style.iis7.com/uploads/2021/06/18274425325.png">

上一篇：bigfish99：使用regulator_get时的一个小注意事项

下一篇：没有了

立即下载 - IIS7 站长工具包