当前位置 博文首页 > 赤脚趴在沙滩上的海星的博客:Python Web爬虫--准备工作
一.概念:使用Http协议 从网站上采集提取数据的过程
二.知识结构和线路
1.Web前端:(1)HTML(2)CSS(3)JavaScript
2.HTTP 超文本传输协议
3.编程语言 Python
4.HTTP 编程:(1)Python标准库 urllib(2)Requests第三 方库
5.数据采集:文本 图片 API数据 …
6.HTML解析,数据提取:(1)htmlparser(2)BeautifulSoup4
7.性能和并发:多线性
8.数据存储:(1)文件存储 TXT、CSV、Excel9(2)SQL关系型数据库(3)文档型数据库MongoDB
9.表单和登录:(1)表单数据提交(2)文件、图片资源上传
10.Web状态管理:(1)Cookie(2)Session
11.反爬虫技术应用:(1)验证码(2)时间频率控制(3)头部信息模拟(4)ip代理替换(5)模拟人力操作-Selenium(6)动态内容处理-Ajax和Selenium
12.单元测试
三.工具
1.环境:(1)系统:win linux Mac (2)Python
开发:(2)Python-- PyCharm SublimeText
数据库:(3)SQlite–SQLite Expret (4)MongoChef
浏览器:Chrome
HTTP: PostMan Fiddle