自学内容网 自学内容网

美团 - 运维开发 - 春招复盘(更新中)

美团运维开发复盘(更新中)

面试官很nice,感谢两位大佬,耐心回答了很多。


考察主要分为三大块:

  • Linux命令,原理
  • Python开发
  • 组件原理,组里主要是HDFS/YARN/k8s

待弄懂的面试题

没答好和没弄懂的部分,TODO list

环境配置

Q:如何配置Python环境且重启仍生效

A:(犹豫了下说通过conda指定,还是直接~/.bashrc配路径。不过conda初始化也是配在.bashrc里的)~/.bashrc,一般都写在这里。

Q:.bashrc/etc/profile如果配了不同的Python环境,哪个会生效?

A:(这里正解应该是.bashrc。写下来~/.bashrc在用户路径下,/etc/profile在系统路径下,一般而言,作用域小的配置会覆盖作用域大的配置。)TODO:看下三种配置文件的详解,印象中有的不推荐使用,看下原因

如何判断操作系统CPU,内存,IO,网络资源耗尽了?

提了htop后,面试官是打算对着htop界面问的,具体看哪个参数etc。

好问题,又是一个自己之前模糊带过的点。

TODO:平时用Prometheus + Grafana的时候显示就只有用量/百分比,也想知道这个数值是怎么来的?

TODO:结合htop显示,几项参数意义,阈值在大约多少等。这周末先理一个初步答案

无意间发现了一个很全的工具,sar,结合用过的top,htop,free -m比较看看

整理中:https://blog.csdn.net/mathemagics/article/details/137754436

TODO:之后模拟下耗尽的情况看看 + 复习OS时再改进下

内存耗尽,如果关了swap,如何看?

日志查看访问量top100

cat server.log \
 | sed -E 's/???/???/g' \ # 匹配出ip,正则还要再复习下,太依赖Copilot+在线regex调试工具了
 | sort | uniq -c \ # -c for `count`,输出是类似 9 10.23.23.1 的结果
 | sort -nk1,1 -r | head -100 \
 | awk '{print $2}' | paste -sd, 

(组件方面Hadoop/YARN/k8s任选一个考察)

一面发现大数据组件也考,去复习了以前用Spark standalone环境配置和Spark开发+Scala的笔记,以及粗看了Spark on k8s的三种方式。二面知道了需要维护的主要还是Hadoop/YARN/k8s(白通宵了x,但快乐的是信息+1哈哈)

k8s如何起一个容器?

哪个组件 跟 哪个组件

好问题,学习时忽视了。熟悉流程应该会对排查问题很有帮助,之后学习时都关注下。

TODO

默认调度器如何知道哪个Node上还有多少资源的?

TODO:源码里那个变量从哪传进来的?是和etcd通信还是API server通信?

TODO:论文中的调度器用的metrics是否要做个持久化存储?只cache而不留历史数据,感觉确实有问题

如果容器在启动时就挂了(比如网络问题,启动到一半Node挂了),会发生什么?

// 网络问题我当时理解的是,比如容器仓库无法访问?

// 但如果是controlplane与Node间的网络问题呢?TODO:实验下

为什么从后端开发转运维开发?公司间选择看重什么?

(// 两三年前认准了运维方向后,其实没考虑过其他岗位。直到被变化拥抱)

对运维角色的认同感,以及看好未来十年稳定性建设&降本的价值。// 后半句当时没提到,现在很想听听业内人会不会反驳,可惜。// 若能厘清这点,说不定就能撺掇同门一起冲运维了x

  • 推力方面,当时答了想尽早入行,以及职业认可感。
  • 阻力方面,目前听说过的缺点都能接受:夜班值班/随时待命,薪资低,线上事故的压力,工作琐碎。

看重的地方,答了工作内容。其实还有技术氛围,一群人在有挑战的任务前会走得更快。

有关大数据运维

笔记梳理中,之后挑一部分内容上传

工作的主要内容,需要的基础?

对应前面考察内容

  • 操作系统原理
  • Python开发(运维工具开发etc)
  • 组件原理(追查原因etc)

工作内容

  • 事前(公司内部工具等 预警), 事中
  • 资源监控
  • 运维效率提升
  • 标准化治理

五年运维vs新手运维,提升的方向?年龄对运维的影响?

  • 工作范围变大:比如机房迁移的方案(复杂模糊任务拆解,考虑各种问题)
  • 在三个领域持续积累

在公司/部门的位置?对接的角色?同事之间?

会与开发角色对接,不和产品对接
(其他暂略,不确定是否合适放网上)

值班?工作时长和强度?

每月约5-6个晚的on-call。夜间有事情电脑上做,不用回公司(岗位非机房运维)

面完发现课题组人均上班时间比互联网长多了,和师姐的讨论:

“啊 那是因为上一级师兄每天11、12点离开实验室,有时还会更晚

”???

“不过在学校的时长和工作的时长还不太一样。他当时面xx听说10点下班觉得小意思,比在学校早得多;进去后发现蛮有压力的”“因为上班的是不能走,在校时是不想走

(可无论是否被“买走”,我的时间永远是我的… 会不会是因为复盘&学习新东西的时间不足,导致的这一感受?// TODO:留意下)

看哪里学?

开源社区会议

运维的笔记库该长啥样?

再次遇到同样BUG时能快速找到就行。灾备(如果电脑坏了)。

计划 Actions to Take

  • 根据面试官的分享和考察内容,把接下来的学习/复习内容prioritize下
  • .
  • 通过top等工具,对性能瓶颈的判断
  • k8s 主要操作的组件调用流程
  • 复习时顺带挑些笔记,翻译上传到博客。// 量太大挑体现技术深度的、遇到过的问题
    • 记得有个git cherry-pick在merge时出问题的,涉及git原理。
    • Java - Docker

原文地址:https://blog.csdn.net/mathemagics/article/details/137711243

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!