当前位置 博文首页 > 赤脚趴在沙滩上的海星的博客:Python Web爬虫--准备工作

    赤脚趴在沙滩上的海星的博客:Python Web爬虫--准备工作

    作者:[db:作者] 时间:2021-08-17 13:25

    一.概念:使用Http协议 从网站上采集提取数据的过程
    二.知识结构和线路
    1.Web前端:(1)HTML(2)CSS(3)JavaScript
    2.HTTP 超文本传输协议
    3.编程语言 Python
    4.HTTP 编程:(1)Python标准库 urllib(2)Requests第三 方库
    5.数据采集:文本 图片 API数据 …
    6.HTML解析,数据提取:(1)htmlparser(2)BeautifulSoup4
    7.性能和并发:多线性
    8.数据存储:(1)文件存储 TXT、CSV、Excel9(2)SQL关系型数据库(3)文档型数据库MongoDB
    9.表单和登录:(1)表单数据提交(2)文件、图片资源上传
    10.Web状态管理:(1)Cookie(2)Session
    11.反爬虫技术应用:(1)验证码(2)时间频率控制(3)头部信息模拟(4)ip代理替换(5)模拟人力操作-Selenium(6)动态内容处理-Ajax和Selenium
    12.单元测试
    三.工具
    1.环境:(1)系统:win linux Mac (2)Python
    开发:(2)Python-- PyCharm SublimeText
    数据库:(3)SQlite–SQLite Expret (4)MongoChef
    浏览器:Chrome
    HTTP: PostMan Fiddle

    cs