ChinaManor的博客：大数据系列思考题----[持续更新]

当前位置博文首页 > ChinaManor的博客：大数据系列思考题----[持续更新]

最大化缩小

ChinaManor的博客：大数据系列思考题----[持续更新]

作者：[db:作者] 时间：2021-06-20 09:10

文章目录

- 每日精进
- - 1.hdfs启动流程
  - 2.hdfs ，spark streaming， flink三者中的checkpoint原理
  - 1、谈谈你对Hive内部表、外部表、分区表、分桶表的区别，并介绍一下使用场景
  - 2、介绍一下Sort By，Order By，Distrbute By，Cluster By的区别
  - 3、谈谈你所知道有哪些常用的Hive调优方式？
  - 1、清楚描述 MapReduce 的 shuffle 过程
  - 2、HBase 的 rowkey 设计需要遵循什么原则，以及如何解决热点问题
  - 3、早几年是有很多 elasticsearch /solr 为 mysql 或者 HBase 作二级索引，但是现在 elasticsearch 在不断的加大在大数据领域的支持，是否可以取代 HBase
  - 1、谈谈Hadoop里面的压缩格式以及使用场景
  - 2、Sqoop在导入数据的时候出现了数据倾斜，你有什么解决方案。另外，使用Sqoop的注意事项，你能列举出来几个？
  - 3、小鹏汽车充电有两种类型，快充、慢充，有如下数据：
  - 1、介绍一下拉链表的原理，以及适用于哪些场景?
  - 2、如果使用spark遇到了 OOM ，你会怎么处理？
  - 3、A 文件有 50 亿条 URL，B 文件也有 50 亿条 URL，每条 URL 大小为 64B，在一台只有 4G 内存的机器上，怎么找出 A、B 中相同的 URL？
  - 1、简述Spark中的缓存机制（cache和persist）与checkpoint机制,并指出两者的区别与联系
  - 2、Storm ，Spark Streaming , Spark structured streaming，Flink 的区别？
  - 3、给40亿个不重复的无符号的 int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？
  - 1、简单讲述一下Yarn Application生命周期
  - 2、Hive如何避免小文件的产生,你会如何处理大量小文件？
  - 1、请谈谈 Flink 中的时间分类，以及适用的不同的场景
  - 2、谈谈你所知道的 HBase 常见的优化
  - 3、有两根不均匀分布的香，香烧完的时间是一个小时，你能用什么方法来确定一段15分钟的时间
  - 1、简单谈谈 Flink 中重启策略
  - 2、介绍一下Zookeeper 的选举机制，以及我们还可以用 Zookeeper 做些什么
  - （player_id，event_date）是此表的主键。这张表显示了某些游戏的玩家的活动情况。每一行是一个玩家的记录，他在某一天使用某个设备注销之前登录并玩了很多游戏（可能是 0）。Activity table:
- 更多思考题

上一篇：ChinaManor的博客：大数据面试题百日更新索引目录

下一篇：没有了

立即下载 - IIS7 站长工具包

ChinaManor的博客：大数据系列思考题----[持续更新]

作者：[db:作者] 时间：2021-06-20 09:10

文章目录

最新 更多<<

推荐 更多<<

ChinaManor的博客：大数据系列思考题----[持续更新]

作者：[db:作者] 时间：2021-06-20 09:10

文章目录

最新 更多<<

推荐 更多<<

最新更多<<

推荐更多<<