首页 -> 新闻中心 -> 业界动态 -> 正文
GPU短缺将从多个方面支撑云计算
2023-08-18

至少在过去的两个季度里,通用基础设施服务器市场——运行数据库、应用服务器、各种web层、打印和文件服务工作负载的服务器——一直处于衰退之中。公司没有购买尽可能多的服务器,否则,在云计算上,IT商店一直在用放大镜和手术刀来查看他们每月的账单,以减少其规模。

就像整个服务器和存储市场的情况一样,我们认为如果没有人工智能训练和推理工作负载,公有云也会陷入衰退。幸运的是,对于服务器制造商和云构建者来说,人工智能工作负载——尤其是那些由大型语言模型和推荐引擎驱动的工作负载——需要大量的GPU计算和庞大的CPU主机来运行训练和推理。我们认为,这就是支撑云收入的原因,就像支撑全球企业数据中心的服务器和存储收入一样。

怎么可能不是这样呢?云是企业数据中心的反映。

因此,即使IT部门正在优化他们在云和数据中心上的能力,他们也在直接或间接地通过云投资人工智能系统,我们看到系统和云实例的收入增长,尽管人工智能以外的开支紧缩。

世界上最大的云服务商亚马逊网络服务(Amazon Web Services)就是一个很好的例子。事实上,这是一个很好的例子,在过去的六年里,尽管微软Azure和谷歌云在全球范围内的压力越来越大,而且无数的区域云供应商都在利用利基市场来发挥优势,但它仍然拥有大约三分之一的市场份额,并且有能力保持这一市场份额。

在截至6月的季度中,AWS的销售额为221.4亿美元,增长12.2%,但由于芯片项目、系统和应用软件开发工作的增加,AWS的营业收入下降了53.7亿美元。

当然,AWS的收入从一开始就一直在减速,但从去年第三季度开始,其放缓速度要快得多。这种放缓是自然的,也是内在的,随着时间的推移,AWS降低了计算、存储和网络的价格,以帮助提振需求,从而提高未来的收入。作为全球最大的零售商之一,亚马逊将其“以量补足”的态度注入了AWS。但这并不是说AWS不是一个高利润的IT供应商,因此能够支持亚马逊正在建立的零售和媒体帝国。

在与华尔街分析师的电话会议上,亚马逊首席执行官安迪·贾西(Andy Jassy)回顾了亚马逊2023年第二季度的业绩。贾西自2006年AWS部门成立以来一直负责该部门,直到亚马逊联合创始人杰夫·贝佐斯(Jeff Bezos)决定退休,并将整个公司的控制权交给贾西。他在电话中反复表示,让任何一家年运转率达到880亿美元的IT供应商以12.2%的速度增长都是一项成就。这是真的。

云研究机构Synergy research表示,微软Azure和谷歌云的增长速度略高于整个云基础设施市场18%的增长率,后者仅IaaS、PaaS和私有托管云服务的销售额就达到648亿美元。AWS和其他公司在这些云基础设施服务的基础上销售了大量的数据和应用服务,所以这有点像苹果和苹果酱的比较。但正如你所看到的,微软和谷歌都在缓慢地获得市场份额,考虑微软在未来某个时候赶上AWS的市场并不是不合理的。

如果目前的趋势持续下去,微软将在三年内在云基础设施收入份额方面赶上AWS;谷歌可能需要十几年的时间才能赶上AWS。这是假设AWS的增长速度略低于整个云基础设施市场的增长速度。如果你将AWS的收入数据与Synergy关于核心云基础设施的数据进行比较,就会发现它在2023年第二季度的原始基础设施方面绝对没有做到这一点。

不用担心,AWS在更高层次上赚了很多钱,而且它将在人工智能训练和推理实例上大赚特赚。

我们从一开始就说过,AWS将成为一个平台和应用程序提供商,让客户能够创建自己的软件,也可以使用AWS自己创建的数据库、数据存储和应用程序,供亚马逊内部使用,然后再转手出售。我们的模型显示,AWS近一半的收入已经来自这款软件:

多年来,人工智能一直在支撑AWS计算销售,并推动存储、网络和软件销售,但我们认为定价上有巨大的压力为存储和网络公司想要投资GPU-heavy实例不仅是因为他们想要开始弄清楚如何集成生成AI在他们的应用程序在云上,而是因为没有办法在地狱里他们可以建立人工智能培训系统——花费的10亿美元——甚至染指现代gpu支撑人工智能训练。他们将为租用这样的GPU实例支付非常非常高的溢价,正如AWS P5实例基于英伟达的“Hopper”GPU加速器的定价,这是一个恰当的说明。

如果您租用单个AWS p5.48xlarge实例,其中包含8个H100 GPU和一台主机,主机上有一对“Milan”Epyc 7003 CPU,主机上有2TB的主存,那么租用三年预留实例合同将花费113万美元。在三到四个月的时间里,你可能需要2000到3000个这样的节点来训练一个拥有数千亿参数和一万亿左右令牌的模型。而租用这样一个系统,即使是在预留的基础上,与购买相比仍然贵得离谱。

“大多数公司告诉我们,他们不想自己消耗这些资源,”贾西在与华尔街讨论AWS 2023年第二季度数据的电话会议上解释道。“相反,他们想要访问那些大型语言模型,他们想用自己的数据定制这些模型,而不会将他们的专有数据泄露到通用模型中——让AWS中的所有安全、隐私和平台功能与这个新的增强模型一起工作,然后将它们全部包装在一个托管服务中。”这就是我们的服务Bedrock所做的,它不仅为客户提供了一个大型语言模型,还为客户提供了来自多个领先的大型语言模型公司(如Anthropic、Stability AI、AI21 Labs、Cohere和亚马逊自己开发的大型语言模型Titan)的模型。”

你可以打赌,这肯定不便宜。但是,政府和企业还能做些什么来制定预算呢?他们将不得不采用云巨头创建的模型,并在他们的云上使用铁来进行调整,这是有代价的。他们将不得不忍痛忍受,或者要求他们的董事会拿出10亿美元或更多的钱来购买他们自己的机器,并支付技术费用,让它真正发挥作用。

再一次,你将为云巨头已经完成和未来将要做的研究和开发付费,免费为他们提供人工智能,并为他们带来巨大利益。

还有一件事:Jassy & Co乐观地认为,自去年以来,其云计算客户的成本优化正在减弱。我们认为,只要国民经济不恶化,这是正确的。到那时,IT部门将对项目进行优先排序,并大幅削减开支——就像他们过去购买物理服务器时所做的那样。在某些情况下,我们认为,当企业看到在一个较长的投资周期内购买和运营基础设施比从云上租用要便宜得多时,将会出现一波数据中心回流潮。特别是如果GPU计算能力仍然稀缺的话。

AWS的可取之处可能是其定制的Trainium人工智能训练和Inferentia人工智能推理处理器,与引力子(Graviton) cpu配合使用,可能会降低人工智能工作负载的成本。这些芯片现在已经是第二代了,我们将进行一些挖掘,看看它们与英伟达gpu在人工智能工作负载方面的比较。

新闻搜索

覆盖全国各省会城市及海外城市的网速测试
→选择要测试的地区
→选择目标测试点