re:Invent 2024于12月3日至7日在拉斯维加斯隆重举行,以“让理想发生”为主题,汇聚了全球云计算领域的顶尖企业和专家。大会涵盖了生成式AI、云计算和运营、数字化转型等众多前沿话题,展示了亚马逊云科技及合作伙伴的最新产品、服务和技术创新。
在此次大会上,亚马逊云科技推出了多款自研芯片、数据库服务以。及自研大模型等重磅产品,引领行业迈向GenAI时代。此外,还展示了八大行业的创新解决方案,彰显了云计算技术在推动各行各业变革中的巨大潜力
2024亚马逊云科技re:Invent大幕开启。
伴随熟悉的音乐,亚马逊云科技高级副总裁Peter DeSantis登台, 带来每年拉开re:Invent大幕的传统环节《周一晚间秀》。
开场环节,Peter首先用“树根”这个比喻,阐述了亚马逊云科技创新的源动力。一棵参天大树,枝叶繁茂的背后,是深深扎进土壤的根系。Peter提到,亚马逊云科技的成功同样源自对细节的执着追求,得益于公司自身的文化基因,亚马逊云科技在扩展规模的同时,坚定地关注安全性、运营性能、成本和创新,为客户带来独一无二的云计算服务与客户体验。
在接下来的分享中,Peter首先邀请亚马逊云科技计算与网络副总裁David Brown登台,回顾亚马逊云科技通过投入芯片创新,在云计算运营性能、安全、成本等方面积累的独特能力。
一、Graviton系列芯片:如今50%亚马逊云科技的新增CPU容量,50%都运行在Graviton上。
亚马逊云科技于2018年推出第一代Graviton系列CPU芯片,提供了与x86相当的性能,Graviton2则在广泛的工作负载类型中提供优于x86的性能表现,Graviton3则为Nginx等工作负载提供了高达60%的性能提升。Graviton4代表了迄今最强大的Graviton芯片,相比Graviton3具有3倍的vCPU数量,适用于需求苛刻的企业工作负载。
二、Nitro系统:革新亚马逊云科技的服务器架构,引入硬件完整性的验证管控机制。
Nitro系统通过将大部分虚拟化功能卸载到专用硬件芯片上,极大简化了虚拟机监控程序,消除了传统虚拟化的性能开销。为了确保整个硬件供应链的安全性,从芯片制造阶段开始,Nitro就对每个硬件组件进行加密认证。为了从根本上防止硬件层面的攻击和篡改,Nitro芯片与Graviton处理器配合,可创建了一个相互锁定的信任网络,使CPU到CPU、CPU到Nitro芯片的所有连接都由硬件提供安全保护。
另外,存储驱动器嵌入Nitro卡,将每个驱动器视为一个安全的独立的网络存储节点,从而实现存储和计算的分离。这种存算分离架构使计算和存储资源可独立扩展,极大减少故障影响范围,加快恢复速度,并适应不断增长的扩容需求,从而最终提高了亚马逊云科技为客户提供的存储服务的敏捷性、可靠性和效率。
接下来,Peter将重点聚焦在构建人工智能基础设施的创新上。首先,Peter援引了一篇2020年发布的论文:人工智能中巨量的计算负载,并不能完全通过横向扩展(Scale out)资源来解决,也同样需要纵向扩展单个计算单元的能力(Scale up)。
Peter提出了构建人工智能基础设施的两个基本支柱:首先,构建更强大的服务器;第二,构建更大规模、更高效率的服务器集群。
接下来,Peter介绍了Trainium2芯片及基于其构建的Trainium加速器及服务器。Trainium2专门为人工智能工作负载而设计,采用了先进的封装技术,将计算芯片和高带宽内存(HBM)模块集成在一个紧凑的封装(package)内。每个Trainium2加速器(单卡)内封装中有两个Trainium2计算核心,而每个核心旁边都配备了两块HBM内存模块,从而实现了计算和内存的无缝集成。
这种先进的封装设计克服了芯片尺寸的工程极限,最大限度地缩小了计算和内存之间的距离,使用大量高带宽、低延迟的互连将它们连接在一起。这不仅降低了延迟,还能使用更高效的协议交换数据,提高了性能。此外,Trainium2还将电压调节器移至封装周围,靠近芯片本身,通过更短的导线为芯片供电,减少了电压下降,提高了能效。
基于Trainium2加速器,亚马逊云科技推出了全新的Trainium2服务器 (Trainium2 Server),每台Trainium服务器务器搭载16块Trainium加速器,并配备有专用的Nitro加速卡和机头。一台Trainium服务器可提供20万亿次每秒浮点运算能力,是亚马逊云科技当前最大AI服务器的1.25倍。同时,单节点拥有1.5TB HBM显存,是亚马逊云科技现有最大AI服务器的2.5倍,显存带宽达46TB/s。