当前位置 博文首页 > ChinaManor的博客:大数据系列思考题----[持续更新]

    ChinaManor的博客:大数据系列思考题----[持续更新]

    作者:[db:作者] 时间:2021-06-20 09:10

    文章目录

      • 每日精进
        • 1.hdfs启动流程
        • 2.hdfs ,spark streaming, flink三者中的checkpoint原理
        • 1、谈谈你对Hive内部表、外部表、分区表、分桶表的区别,并介绍一下使用场景
        • 2、介绍一下Sort By,Order By,Distrbute By,Cluster By的区别
        • 3、谈谈你所知道有哪些常用的Hive调优方式?
        • 1、清楚描述 MapReduce 的 shuffle 过程
        • 2、HBase 的 rowkey 设计需要遵循什么原则,以及如何解决热点问题
        • 3、早几年是有很多 elasticsearch /solr 为 mysql 或者 HBase 作二级索引,但是现在 elasticsearch 在不断的加大在大数据领域的支持,是否可以取代 HBase
        • 1、谈谈Hadoop里面的压缩格式以及使用场景
        • 2、Sqoop在导入数据的时候出现了数据倾斜,你有什么解决方案。另外,使用Sqoop的注意事项,你能列举出来几个?
        • 3、小鹏汽车充电有两种类型,快充、慢充,有如下数据:
        • 1、介绍一下拉链表的原理,以及适用于哪些场景?
        • 2、如果使用spark遇到了 OOM ,你会怎么处理?
        • 3、A 文件有 50 亿条 URL,B 文件也有 50 亿条 URL,每条 URL 大小为 64B,在一台只有 4G 内存的机器上,怎么找出 A、B 中相同的 URL?
        • 1、简述Spark中的缓存机制(cache和persist)与checkpoint机制,并指出两者的区别与联系
        • 2、Storm ,Spark Streaming , Spark structured streaming,Flink 的区别?
        • 3、给40亿个不重复的无符号的 int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?
        • 1、简单讲述一下Yarn Application生命周期
        • 2、Hive如何避免小文件的产生,你会如何处理大量小文件?
        • 1、请谈谈 Flink 中的时间分类,以及适用的不同的场景
        • 2、谈谈你所知道的 HBase 常见的优化
        • 3、有两根不均匀分布的香,香烧完的时间是一个小时,你能用什么方法来确定一段15分钟的时间
        • 1、简单谈谈 Flink 中重启策略
        • 2、介绍一下Zookeeper 的选举机制,以及我们还可以用 Zookeeper 做些什么
        • (player_id,event_date)是此表的主键。这张表显示了某些游戏的玩家的活动情况。每一行是一个玩家的记录,他在某一天使用某个设备注销之前登录并玩了很多游戏(可能是 0)。Activity table:
      • 更多思考题