赤脚趴在沙滩上的海星的博客：Python Web爬虫--准备工作

当前位置博文首页 > 赤脚趴在沙滩上的海星的博客：Python Web爬虫--准备工作

赤脚趴在沙滩上的海星的博客：Python Web爬虫--准备工作

作者：[db:作者] 时间：2021-08-17 13:25

一.概念：使用Http协议从网站上采集提取数据的过程
二.知识结构和线路
1.Web前端:(1)HTML(2)CSS(3)JavaScript
2.HTTP 超文本传输协议
3.编程语言 Python
4.HTTP 编程：（1）Python标准库 urllib（2）Requests第三方库
5.数据采集：文本图片 API数据 …
6.HTML解析，数据提取：(1)htmlparser(2)BeautifulSoup4
7.性能和并发：多线性
8.数据存储：（1）文件存储 TXT、CSV、Excel9(2)SQL关系型数据库（3）文档型数据库MongoDB
9.表单和登录：（1）表单数据提交（2）文件、图片资源上传
10.Web状态管理：（1）Cookie（2）Session
11.反爬虫技术应用：（1）验证码（2）时间频率控制（3）头部信息模拟（4）ip代理替换（5）模拟人力操作-Selenium（6）动态内容处理-Ajax和Selenium
12.单元测试
三.工具
1.环境:(1)系统：win linux Mac (2)Python
开发:(2)Python-- PyCharm SublimeText
数据库:（3）SQlite–SQLite Expret (4)MongoChef
浏览器：Chrome
HTTP: PostMan Fiddle

上一篇：赤脚趴在沙滩上的海星的博客：JAVA基础知识图解及常见DOS命令

下一篇：没有了

立即下载 - IIS7 站长工具包