(二)
平心而论,这是一条很激进的路线。
这相当于要首次实现云、虚拟化和芯片的技术大融合。旭卿掰着手指头数,要想召唤神龙,至少需要四颗龙珠:
龙珠一、虚拟化软件开发;
龙珠二、软硬件衔接的中间层;
龙珠三、核心芯片设计;
龙珠四、硬件(板卡、服务器)设计。
虚拟化软件开发就是团队的原班人马,胜任这次技术改革不在话下。当时的虚拟化技术负责人叫子团,他是个玩赛车的技术宅,对新技术总是保持着赛车般激情,子团听后异常兴奋,主动请缨带着团队开干。
而硬件、芯片方面,阿里也做过一些技术积累,曾经自研了闪存 AliFlash、全闪存存储服务器泰山、光模块、以及大容量存储服务器貔貅、液冷服务器、自研数据中心等等。
只不过,现在还必须要有一支专门为这一项目服务的技术团队。
软硬件中间层,旭卿脑海里冒出一个人选,此人花名行宪,当时供职于某著名外国芯片公司北京分公司。
那天下午,旭卿电话突然响起,一个好朋友告诉他一个惊天秘密——行宪所在的部门要被那家外企整体裁撤。。。
旭卿两只眼睛喷出了火,就直接打车去机场。从首都机场再打车到西二旗时,已经夜里十点多了。旭卿给行宪打电话,明天早晨找你谈谈。
第二天早晨咖啡馆刚开门,行宪就到了。没想到旭卿更早,已经在门口蹲了半天。。。
行宪顺利加盟。
“当时我就知道,这事儿成了一半儿!”旭卿回忆。
行宪外向又暖男的性格,加上精湛的技术,使得他团队的兄弟们一直很信任他。结果,听说他加盟了阿里云,兄弟们纷纷给他打电话,想继续跟着他做研究。
确认过眼神,行宪张开怀抱,加上兄弟团队的人马,这部分研发阵容妥妥齐备。
现在龙珠只剩下最后一颗——芯片研发的负责人。说实话,中国好的芯片人才屈指可数,短时间要找到合适的人选堪比登天。。。
但眼看还有一个多月就要过春节了,旭卿下令,硬着头皮先开始干!行宪团队算是半个芯片团队,先兼职芯片设计,如果有些功能不会用芯片搞定,就只能“绕个路”,用软件替代。
团队第一次跑通验证程序,已经是来年早春三月了。
那天是个周六,大伙都堆在项目室,谁都不想休息,因为验证结果马上就要出来了。
然而,最终在屏幕上跑出的数据给大伙儿泼了一盆冷水——“延迟”指标远高于预期。
仔细分析之后,大家基本定位出了原因:有些坑绕是绕不过去的。这颗芯片是造也得造,不造也得造。
当务之急是找到一位芯片大牛。
那两天,行宪魂不守舍,第二天周日本来他要开车去燕郊参加同学聚会,结果满脑子都在想这事儿,连着开错了两个高速口。他怕出事故,只好把车停在路边让自己冷静一下。
就在这时,收到一条老友的信息,听说行宪在找芯片人才,给他推荐了一个厉害的人选,渐名。
旭卿得知自己苦苦寻找的芯片人才终于要有着落,像当年“追”行宪一样,又开始三顾茅庐对渐名发起爱的攻击,终于感动了渐名。
和行宪外向的性格形成鲜明反差,渐名是个技术宅,不看广告看疗效的那种。
多说一句,这里渐名做的芯片不是从头自研一款芯片,而是用的行业内比较成熟的“可编程芯片”,在现成的芯片上设计逻辑。由于时间和能力所限,这算是个最客观的妥协方案。(当然,这也成为了另一个故事的序章,我们后面还会说。)
行宪记得很清楚,渐名是带着行军床进办公室的。两个月时间,他就没回家几次。那天他找到行宪,淡淡地说了句:“芯片这边设计得差不多了,你再测测。”
大家围拢过来,看到各项测试结果都“超常发挥”。大伙儿轮番抱着显示器上的参数合影留念,看起来就像一群傻子。
此时旭卿手里已经基本集齐了龙珠,接下来只待召唤“神龙”。
大家开了个会,讨论新研制的这套服务器到底要叫个什么名字。有一位工程师说:“既然是召唤神龙,那我们就叫“神龙云服务器”如何!”
同学们一听,纷纷露出“哎呦不错哦”的表情,能飞天的不就是“神龙”嘛!
接下来的几个月里,产品经理霁荣在各研发团队奔走呼号,跟进团队内部和外部所有相关大牛们的研究进度,保证大家在承诺的时间里完成各自的技术准备。
(三)
就在行宪他们死去活来折腾核心技术的时候,旭卿一刻都没闲着。他心心念念惦记着做硬件设计的兄弟团队。
2017年初,旭卿和硬件团队的芳志一起去台湾出差。
大巴车里,旭卿往芳志旁边一坐,开始了唐僧般的念叨,从盘古开天地,到神龙服务器,说了个遍。
很多人还不知道,为什么阿里巴巴会有一个硬件设计团队,这里多聊几句八卦。
从2014年开始,阿里云就遇到一个重大的问题:买来的标准服务器,“七国八制”,总是出现各种“幺蛾子”,今天这里不稳定,明天那里不适配。每天芳志的团队都四处灭火,生无可恋。
从那时开始,阿里巴巴就走上了定制服务器的道路。功能规格、接口标准都由自己规定好,服务器厂商按照这个规格研发生产,问题就少多了。
到了2016年,阿里巴巴更进一步,已经开始完全自己设计服务器。CPU和内存选型、存储、主板设计、电源、甚至散热元件都在设计图里清晰地设计好,服务器厂商只管去生产交付就好了。
所以,有关服务器底层硬件设计,经过这么多年锤炼,服务器研发团队是门儿清的。
初一听到旭卿的构想,芳志的反应和其他同事差不多。“总感觉有点离经叛道,但又觉得值得试一试。。。”他后来回忆。
于是,芯片设计和软件架构基本确定下来后,服务器硬件团队马上开始和他们一起做关键器件选型。
渐名的芯片方案验证差不多后,接下来芳志团队就要开始设计搭载这块芯片的板卡了。大家给这块卡起了个名字,叫“MOC卡”。
大家想象了一下 “MOC卡”的样子,应该看上去有点像一个显卡。
但是真到具体设计的时候,童鞋们开始头大了。
“说实话,好歹我在这个行业里也摸爬滚打十五年了,这是我见过最复杂的板卡,没有之一。”芳志说。
由于复杂度太高,在写电路设计的时候,哪怕只有一根线路设计出现错误,都会导致板卡点不亮。这种情况一旦发生,只能推倒重来,返厂大吉。
返厂不仅会造成巨大的成本浪费,还会直接让2017年云栖大会发布神龙云服务器的梦想泡汤。
就在设计图交给工厂之前,团队的童鞋通宵一周,你给我检查,我给你检查,一个点一个点看,一个电路一个电路查。送走设计图的时候,就像老父亲目送进京赶考的儿子一般。。。
2017年夏天,第一版MOC卡实物终于从工厂运了过来。
硬件的同学们摩挲着自己的作品,沉甸甸地,像块砖头,爱不释手。他们忐忑地把板卡插进机箱。。。。“点亮啦!”屋子里一片沸腾。在如此高压高强度的工作状态下,如此复杂的电路设计没有出现一处错误,这群阿里人用事实证明了自己在硬件领域的专业性。
MOC卡的照片通过钉钉群传输到北京,所有人一片欢呼。
为了测试板卡工程结构上的可靠性,他们把MOC卡泡在装满红墨水的容器里,捞出来晾干,然后直接用钳子把芯片一个个拽下来,查看里面是否曾有液体渗入,结果非常满意,里面完全没有墨水痕迹,说明芯片引脚的焊接也是天衣无缝。
到8月中旬整个产品软硬件全部验证完成,但留给中国队的时间不多了。带有MOC卡的神龙云服务器火速放量生产,像蚂蚁搬家一样进入阿里云的“蛋糕底层”,成为无数台物理机的一部分。
2017年10月12日。云栖大会。
李津在没有任何高能预警的情况下,在台上突然发布“神龙云服务器”,并且宣布神龙是“现货”——从当天开始,客户就可以购买神龙云服务器做为硬件底层的阿里云计算资源。
业界爆燃。
当天下午,在只能容纳100人的神龙的技术论坛上,生生挤进去了300人。后来保安人肉堵住门口,才算作罢。
更神奇的事情发生了。
就在那次云栖大会之后的一个月,大洋彼岸的云计算全球老大亚马逊 AWS,在他们的“云栖大会” ——Reinvent 大会上同样发布了类似的硬件虚拟化技术。他们的虚拟化架构叫做 Nitro。
听到这个消息,旭卿全明白了,原来 AWS 也早就秘密开始研究和神龙一样的技术,不同的是 AWS 的芯片来自他们2015年初收购的以色列芯片初创公司 Annapurna Labs。两家公司出于最高级别的保密,相互一点风声都没走漏。
大洋两岸的两家公司通过这种方式隔空致意,英雄相惜。这像是云计算的一场“生物大进化”,云计算朝着“IT行业的水电煤”又迈进了一步。
“那一刻我终于知道,我们不再孤单了。”旭卿感慨。
旭卿的慨叹,其实每一个阿里云人都感同身受。
亚马逊是世界上第一家云计算巨头,用“开创了云计算时代”来形容它丝毫不过分。
那时候,阿里云虽然艰难,但前路终归有一盏灯。而开发神龙的时候,研发团队是两眼一抹黑的。所以,当他终于知道阿里云的创新和AWS居然是同一个方向,而这一次阿里云居然还领先AWS一个月时,心中的骄傲如火山喷涌。
神龙天降,马上投入战斗。
截止2019年10月,世界各大厂商自研软硬件一体架构的进度。