2024年最全网易大数据面试题及参考答案(3万字长文持续更新)
目录
简单介绍map reduce和Spark它们之间有什么区别,哪个性能方面更好以及适用于哪一些场景?
两个活动对比 一个活动留存较高,给出可能的原因,会用到哪些数据
如果现在给出几个日志记录的字段(时间、登录状态、id等等),你能提取什么信息分析什么结论
从原始数据层ODS到汇总数据仓DWD再到应用数据层中间的数据处理是怎么做的?
如果各层时使用的是hive sql进行数据处理的,那么应该有类似于ETL任务调度,那这种调度在终端中是怎么实现的?
客户端和服务端的日志采集最终是写到Kafka,那么kafka再到Hadoop的中间过程是怎么实现的?
Flink checkpoints和barrier是同时进行的吗?
为什么数据存入HDFS还要再倒入NoSQL,为什么HDFS对OLAP支持不友好?
介绍一下MR的原理(工作流程,Map-Shuffle-Reduce)
Hadoop数据倾斜的解决方案(Combiner、局部聚合加全局聚合、自定义分区、增加JVM内存)
开发统计某app用户各功能使用时长,整个流程怎么实现,怎么优化,怎么横向拓展
统计评估各个网页的重要性,采取的算法思路,Spark代码实现
Kafka结构,怎样防止脑裂,为什么最新版本不用zookeeper来维护offset
如何评价新用户的留存指标有哪些?
在评估新用户的留存时,通常会关注一系列关键指标来衡量用户在不同时间段内的留存情况。这些指标包括但不限于:
-
次日留存率(D1):指用户在首次使用后的第二天仍继续使用的比例。这是一个非常重要的早期信号,可以用来快速判断产品的吸引力和用户体验是否良好。
-
七日留存率(D7):表示用户在首次使用后第七天仍然活跃的比例。与次日留存相比,这个指标更能够反映用户对产品的真实兴趣和忠诚度。
-
三十日留存率(D30):衡量用户在注册或下载应用后的第30天仍然活跃的比例。这是评估长期用户价值的一个重要指标,因为只有真正喜欢并持续使用产品的用户才会在这个阶段仍然留存下来。
-
长期留存率:除了上述短期留存率之外,还需要关注更长周期的留存率,比如90天、180天乃至一年以上的留存率。这些数据对于理解用户的生命周期价值至关重要。
为了更好地
原文地址:https://blog.csdn.net/linweidong/article/details/140725610
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!