当前位置 博文首页 > fenfyue的博客:大数据导论

    fenfyue的博客:大数据导论

    作者:[db:作者] 时间:2021-08-19 21:56

    三天打鱼两天晒网——写CSDN博客

    大致看看大数据导论这本书

    这个假期被老师一问自己想学点什么结果我迷茫了不知道学点什么好,这本书在上课期间我就想好好好读一下,但是肯定是没有时间看的,现在正好不知道学点什么虽然说是大数据专业的孩儿,但是这么久了我还是对我们专业没有太多的了解,总是感觉这样子是挺失败的一个大数据er。这个假期每天写博客的flag在前天就立了,但是都没有写,在今终于打开了它!内容是有点多哈,反正自己就是一个小白了,多看看总没错。

    关于本书

    编写背景

    大数据的蓬勃发展,大数据领域人才的需求越来越大,大数据人才培养收到了各界的广泛关注,中国计算机学会大数据专家委员会成立了大数据教材系列丛书编委会,着手编著系列化、规范化的大数据教材。

    内容

    《大数据导论》是一本全面介绍大数据相关知识的专业通识教材,系统的介绍大数据涵盖的内容,包含数据与大数据、大数据获取与感知、大数据存储与管理、大数据分析、大数据管理、大数据治理、大数据安全与隐私等,还介绍了部分行业中大数据的典型应用案例,反映大数据在社会经济生活中的重要价值。

    适用人群

    这本书时大数据系列教材中的第一本,其目的是从技术层面,为大数据相关专业本科生、研究生及科研人员,提供一本全面介绍大数据相关技术的专业通识教材。啊啊啊他说是一本通识教材,适用于本科生,但我觉得适合研究生及科研人员或者是那些想要了解大数据技术已经有很强学习能力的人来读这本书才对。

    关于本书最初的学习心得

    对于我们这些才接触到专业的大二学生来说真的是有点难!假如我要去了解这本书的话我得去网上学多少东西才行呀!在我看来这本书就只是一本关于大数据一些相关技术的框架,每个组成这个技术的分支上面有各种各样的需要去摘下来的知识点,我想全部都了解一些,但是好难哦。在上课期间老师也说这门课就是和我们吹牛的一门课,其实我也在想是老师抓住了重点只讲书上的一些重点呢,还是说很多细致的东西老师并没有去好好的了解然后决定来讲给我们听呢。
    其实我自己想的哈,这个专业有些太新了,肯定没有谁可以保证自己说的东西就是永远不会改变的,这本书其实我觉得蛮重要的。这会正是我们提升对专业兴趣的,就应该多看看多涉及一些,虽说后面精通一门比较好,但是这个时候就应该多看看发展自己的兴趣才对呐!老师没有太重视这个课本,可能也是觉得内容对于我们来说有点困难吧,这个假期我要努力把它看看了解一下!加油!

    认识大数据

    大数据来源于互联网及其延伸所带来的无所不在的信息技术,由计算机领域发端,之后逐渐波及科学和商业领域。ps:大数据有好多好多应用的领域啊,但是作为菜鸡的我每次别人问我大数据有什么用的时候我只能举出大数据可以根据你淘宝的浏览记录推荐你可能喜欢的商品,,,哈哈哈哈太低级了。
    大量智能应用通过对数据深度r融合与挖掘,帮助人们采用新的视角和新的手段,全方位、全视角展现事物烟花历史和当前状态,掌握事物的全局态势和细微差别。对未发生的事物进行预判和选择。

    信息化发展

    第一次信息化浪潮:以单机应用为主要特征的数字化阶段(信息化 1.0)
    第二次信息化浪潮:以联网为主要的网络化阶段(信息化2.0)
    第三次信息化浪潮:以数据的胜读挖掘和融合为主要特征的智能阶段(信息3化3.0)

    万物数字化

    这个概念听过但是没有细致了解,但是好像又知道是意思哈哈哈,现在来书面化表达一下。
    万物数字化是指物理实体的实时状态被采集、传输和汇聚当前的新阶段,网络化的终点平台是面向各行各业、面向物理各类实体的物理网络。

    数字经济

    以使用数字化的知识和信息作为关键的生产要素、以网络为载体,以信息通信技术的有效使用作为效率提升和经济结构优化的重要推动力的一系列经济活动,是新一代信息技术和产业为依托,继农业经济、工业经济之后的新经济之后的新经济形态。

    大数据的用处

    判断态势 预测趋势 辅助决策
    是一种新的思维模式和形式方法
    是一种辅助工具但是随着时代的发展正在向引领经济发展的核心引擎转变。大数据的饱和在那里是什么样的程度才回到到达饱和,有这种可能吗?

    大数据对于现有的信息技术体系的挑战

    现在的技术很多都不能满足大数据的分析存储、管理、分析等一系列的问题,大数据的挑战推动了数据分析方法的改进,也促进了新方法和技术的出现。

    在分析方面存在的问题

    传统的数据分析要进行数据的预处理对数据进行筛选等相关操作。
    大数据环境下,由于缺少了对数据预处理的时间,需要对包含大量噪声的原始数据进行分析;对为经采样和特征筛选的全数据进行分析。

    数据分析需求的改变

    人们对数据分析结果的精确性的预期不断提升,期待数据的深层次特征和复杂关联进行分析,模型能力的不断变化要求更多的场景和数据下有效。

    大数据处理方面

    由于单机的能力有限,并行是最好的选择,点心的系统包括支持MapReduce模型的Hadoop平台和之处内存计算模式的spark平台。▼
    在这里插入图片描述
    Hadoop ▼
    在这里插入图片描述

    流处理计算平台:适用于产生速度快,需及时处理的实时数据流。
    混合计算模型:综合批处理和流处理的优点。Yahoo 和Mrtamakerte这两个在用。
    图处理模型:处理具有亿万个顶点的大规模图数据。Pregd、Graphlab,X-Stream,
    哈,看望这一点我发现我对于啥流处理不懂、批处理不懂、好多好多不懂呢!我去百度回来啦!流处理▼
    在这里插入图片描述

    解决大数据所面临的挑战的技术

    由于关系型数据库中数据常采用表格存储,对大规模多表关联查询及复杂分析类型的SQL查询,查询性能严重下降。以NoSQL和NewSQL为代表的新型数据库管理模式正在快速发张。

    NoSQL:是一种非关系型数据库。可以解决大规模数据集,多种数据类型的数据,加快查询时间等优点。针对不同的数据类型和应用领域有不同的NoSQL解决方案。

    ·(key-value)存储数据库
    ·列存贮数据库
    ·文档型数据库

    NewSQL:可拓展/高性能数据库。通常采用分布式系统架构,利用基于内存SQL和轻量级的事物来支持等提高性能,保持传统数据库支持的ACID和SQL等特性。

    今天的学习心得

    看完第一节序言,比在课堂听课得到东西更加细致一些,虽然还是有很多东西不懂,一定是循循渐进的,坚持就好。

    cs
    下一篇:没有了