网易云音乐,“省”出事故?
长三角momo
周一下午3点,用户打不开网易云音乐了。宕机长达两小时,“网易云音乐崩了”登上热搜第一。
在一个需要精神抚慰的工作日下午大面积瘫痪,不管从舆论角度,还是内部组织角度,这对网易都是一场级别极高的事故。
官方账号很快回应是基础设施出了故障;晚上9点,网易云音乐又补充称,是因为“业务扩容”出现的技术事故。
无论是“基础设施”还是“业务扩容”,这些解释普通人几乎都很难看懂。
流言开始以大家能理解的方式口口相传,版本不一,但背后的叙事逻辑无外乎“裁员裁到大动脉”,程序员离职报复导致的问题——这是大家喜闻乐见的爽文模式。
网易很快辟谣,称“没有删库、没有跑路”。
截至发稿,网易集团没有对外释放更详细的解释公告;但根据目前两个公开解释,结合网易云音乐近期的技术动作,背后的原因也几乎浮现出来。
答案其实还是“省钱”。
但这个“省”并不一定直接指向裁员。而是指网易在技术基建、方案上的省钱;也指网易这家公司在创始人就是唯一决策人的文化基因下,一直贯彻的省钱禀赋。
01
一位大公司的技术人员告诉我们,所谓“业务扩容”,是公司为了应对更多用户或者更大规模的使用需求,在技术上增加或升级服务能力。这是一个相对常规的动作,是一家公司在正常运维过程中需要保障的东西。
简而言之,“业务扩容”对一家技术合格的公司几乎不可能会造成如此严重的问题。
网易集团是目前中国互联网市值前五的上市公司,云音乐也是一家年收入已经达到20亿的上市公司,这意味着,正常“业务扩容”不太可能、也不应该出现这样级别的事故。
网易此次的特殊性在于,它刚刚完成了从杭州到贵州数据中心的迁移。
7月11日,网易云音乐技术团队在程序员社区“稀土掘金”以及自己的公众号都发布了一篇名为云音乐贵州机房迁移总体方案回顾(后续简称迁移方案)的文章。
通过文章,我们可以看出云音乐整体迁移至贵州机房是一个巨大的系统工程,规模大、难点多、风险大。
上述大公司技术人员向我解释,像贵州机房这种规模的迁移即便完成也可能有很大潜在问题,因为它会让整体稳定性和保障性降低。在这样的设施基础上,一次简单的“业务扩容”就可能让问题大爆发。
换句话说,虽然网易云音乐宕机可能并不发生在迁移过程中,但因为换到了贵州机房,网易很多应用的稳定性至少在短时间内会变得更加脆弱。
既然一次大规模迁移可能带来多次不可预知的问题——不到半年前的3月,网易云音乐也出现过短暂宕机——那为什么一定要迁到贵州?
地理要素是其一,比如贵州一年四季气候凉爽宜人,其喀斯特地貌和洞穴可以为服务器更好降温;而且贵州远离地震带,是很安全的数据储存库。
但对企业来说,更重要的决策原因可能还要回到我们一开始就已经提到的答案:省钱。
根据China Daily的报道,与在东南部沿海地区建立同样的数据中心相比,在贵州可以节省大约58%的电费。1万个标准服务器机架,每年光电费就可以节省1.3亿元。更别提贵州作为大数据产业先行区,提供的政策支持和税收优惠了。
这与想降本增效的大公司一拍即合。
2021年到2022年,腾讯是对“降本增效”最明确的公司,它也是第一个在贵州建立数据中心的大公司。到2022年9月,网易贵安数据中心项目也正式签约,项目规划的标准机架就是1万架。
这意味着,这个项目落地后,网易未来在数据中心的花费上,仅电费就可以节省1.3亿元。
02
省钱换更好的地方无可指摘。但对网易来说,宕机事故的爆发,再往深追溯,其实是另一个问题——技术基建的薄弱。
大规模的数据迁移以及后续的保障是考验一家公司技术底子的时候。在迁移方案中,网易技术团队就列出了一系列技术债务;迁移完成后,也反思还存在应用元信息(即“信息标签”)建设不足、应用配置等多个问题。
保障性和稳定性也依然存在漏洞,网易技术团队自己总结:
“尽管在贵州机房迁移中,做了大量的稳定性保障措施,但依赖每个研发对各自负责领域的理解、运维能力。是否能在团队管理、设施管理、服务管理、稳定性管理、架构设计等多方面,探索出一套可持续的长效保障机制?并进行一定的稳定性系统化建设?从而避免点状问题随机发生。”
这个问题暂时无人可以回答,或许在这次事故出现后的复盘里,技术团队可以重提。
不过一家企业技术基建、技术团队管理的问题,归根究底也是它的文化和组织优先级的问题。
一位网易前员工告诉我们,网易并不是个追求技术先进的公司;技术架构可能一开始还行,但后来会因为工期问题,只能继续往上堆垃圾。
另一位从网易跳槽到阿里的员工,对比两家公司的技术基建,也觉得网易在技术投入上过于看重投入产出比,一旦看不到效果就收缩,难有动力长期投入。
网易对技术人才的重视度从招聘上也能看出。不仅平均薪资低于其他大厂,岗位也更少。
一位今年毕业的技术岗位应届生告诉我,在他们理想公司的排序里,字节是首选;阿里和腾讯是优选;快手对新技术很看重,面试体验不错;而京东和网易岗位不多,在校招生中存在感不强。
相比追求技术进步,网易是一家产品文化驱动的公司。这也跟创始人的志趣相关。
创业前两年,网易创始人丁磊还在担任网易的联席首席技术执行官;到2005年底,他仍是网易的首席架构师。此后,你能看到,他的兴趣就从技术转移到了产品,他在逐渐成为网易的“头号产品经理”。
对丁磊来说,产品经理的含义非常广阔。互联网应用、实体商品、游戏,他的好奇心强烈,新点子也源源不断;而这些新点子可以在网易这个王国里完全地被满足、被试验。
游戏赚钱、环境很好的时候,杭州研究院几乎就是丁磊个人兴趣的实验室。这里孵化了多个业务,云音乐、云课堂都是从这里出生,他们独立、壮大,有的甚至上市。
丁磊得到的正反馈越多,就越发肯定自己,他有时对产品经理们说,“我觉得自己的产品能力越来越强了。”
在网易,普通员工与丁磊打交道最多的一类也是产品经理。有员工看到,在丁磊的眼里,技术员工只会跟他说能不能实现,设计的作用是具象化,跟他们讨论都不过瘾,只有产品经理能接住他的理念。
和其他已经实现了更现代化治理的公司相比,网易仍是一家创始人介入深、说了算的公司。这意味着,对技术投入程度基本取决于老板的心态。
年景好的时候,网易也有资金投在数据中台、云服务的建设上,但这个钱不好挣,也没有创造一个产品来得开心和有成就感。年景不好的时候,这都是需要被收缩和优化的项目。
网易员工私下谈论起丁磊,形容他仍是个“宁波小老板”。
一位网易前员工看到,5000元的项目,管理层都得拿着单子亲自找丁磊签字,也得提前准备好答案以防丁老板问起细节。
这种生意人的特点,可以解释丁磊为什么从不投资网易的离职创业者。他在跟吴晓波的一次对谈中,说只相信自己的“商业模式”,只做自己懂、或者感兴趣的事情。
创始人的禀赋让网易在大环境开始变化时,提前就开始应对。2018年后,丁磊就已经陆续开始对“兴趣项目”进行盘点,2022年,整个互联网行业都在省钱,而网易赶在寒流到来之前就完成了大部分的“降本增效”。
回到技术基础设施建设的问题,一位员工抛出自己的观点:“你如果是一个‘乡镇企业家’,会重点投入在生产线升级换代上吗?”
本文 狮子狗个人网站 原创,转载保留链接!网址:https://9377news.com/post/444.html
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。