
Nubis的产品是1.6T光模块的硅光引擎XT1600,也是做短距离光互联。按Lightcounting的说法,Celestial AI 的核心技术基于光子中介层Interposer,与他们技术近似的公司是Ayar Labs, Lightmatter这些。同样做硅光短距离互联,价值会差这么多吗?
公众号“光芯”上有一篇关于他们在OCP2024上的演讲的介绍,Celestial技术主要包括热稳定硅光EA调制器,2.5D/3D先进封装,去DSP直驱,去Gearbox链路优化,而其整体的优势在于:
单芯片14.4Tbps的通信速率,比竞品高3.6倍
远程内存访问时延比现有方案降低5倍
功耗比现有方案降低8倍
成本($/GB)降低26倍
采用该公司Photonic Fabric组建算力集群,只需要16个GPU搭配Photonic Fabric Appliance,就可以提供跟原有铜缆方案56个GPU组网的相同性能,降低了71%的XPU成本和功耗,实现了更高的计算密度,内存资源的拓展与计算资源的解耦和12.5倍的深度学习推荐模型性能加速。
还有一篇文章说,Celestial AI 的 Photonic Fabric Module特点在于,并非简单地将光互连集成到芯片封装,尝试从架构层面解决 AI 和 HPC 系统中日益严重的带宽和能效瓶颈。不同于传统CPO方案,Celestial AI 的 Photonic Fabric Module将光 I/O 置于芯片的中心区域,称为“中心光 I/O”。这样做的显著优势是:
光模块移至中心,释放了封装边缘的空间,允许更大规模的 HBM 集成,提升内存带宽。
光 I/O 靠近计算核心,减少了数据传输的物理距离,从而降低延迟和功耗。
随着多芯片封装的尺寸增大,计算核心的扩展呈平方级增长,而边缘 I/O 仅能线性增加。中心光 I/O 能更好适应这种不对称增长。
综合这些介绍,可以说Celestial的短距离硅光互联技术从理念上可能比Nubis单纯的光引擎技术更进一步,这也能解释他们的价值之高,还有为什么Marvell明明已经有了CPO技术还要投资他们。但是接下来的问题是,Marvell的这笔投资胜算如何?
我可以理解,Marvell投资Celestial,是为了对标Broadcom, intel这些大公司,但是正因为其技术过于前沿,风险也很大。Lightcounting的文章说,Celestial AI 所提出的技术路线虽具备广阔的应用前景,但相较于台积电 CoWoS 等现有成熟中介层技术,该技术虽符合未来发展方向,但距离量产仍需数年时间。为填补这一技术落地空档,预计 Celestial AI 初期将推出可与传统 XPU 共封装的光引擎芯粒产品,这一思路与 Lightmatter 旗下通过 UCIe 接口实现与 XPU 或交换机互联的 Passage L200 光引擎类似。


