当前位置 博文首页 > 杨秀璋的专栏:[Python从零到壹] 十五.文本挖掘之数据预处理、Ji

    杨秀璋的专栏:[Python从零到壹] 十五.文本挖掘之数据预处理、Ji

    作者:[db:作者] 时间:2021-08-12 12:09

    欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解,真心想把自己近十年的编程经验分享给大家,希望对您有所帮助,文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持,知识无价人有情,希望我们都能在人生路上开心快乐、共同成长。

    前一篇文章讲述了分类算法的原理知识级案例,包括决策树、KNN、SVM,并通过详细的分类对比实验和可视化边界分析与大家总结。本文将详细讲解数据预处理、Jieba分词和文本聚类知识,这篇文章可以说是文本挖掘和自然语言处理的入门文章。两万字基础文章,希望对您有所帮助。

    文章目录

    • 一.数据预处理概述
    • 二.中文分词
      • 1.中文分词技术
      • 2.Jieba中文分词用法
    • 三.数据清洗
      • 1.数据清洗概述
      • 2.中文语料清洗
    • 四.特征提取及向量空间模型
      • 1.特征规约
      • 2.向量空间模型
      • 3.余弦相似度计算
    • 五.权重计算
      • 1.常用权重计算方法
      • 2.TF-IDF
      • 3.Sklearn计算TF-IDF
    • 六.文本聚类
    • 七.总结
    cs