云算力之外，一场始于AI的秘密斗争

发布时间：2023-05-30 15:35:40 所属栏目：外闻来源：

导读：今年3月，面对汹涌而来的AI潮，“硅谷刀王”一改往日本色，主动站到台前，宣布推出DGX云，把AI专用的GPU放到云上「出租」。

以往，出售算力这种事都是云计算公司在干。它们购买多种型号的显卡与人工智能

今年3月，面对汹涌而来的AI潮，“硅谷刀王”一改往日本色，主动站到台前，宣布推出DGX云，把AI专用的GPU放到云上「出租」。

以往，出售算力这种事都是云计算公司在干。它们购买多种型号的显卡与人工智能加速器，根据硬件性能或使用时间等来确定价格并向下游市场租赁。

这个过程中，英伟达将GPU要么卖给云计算平台，要么直接出售给AI公司，比如第一台NVIDIA DGX超级计算机就是2016年老黄亲自交付给OpenAI的，并没有直接出售算力，顶多算「卖人」。

而DGX上云这个事，虽然英伟达仍需要将其托管到云平台，但本质上已经是跨越边界了。

用于训练AI的GPU芯片价格疯涨，海外A100和H100的芯片价格分别涨到了1.5万美元和4万美元，国内一台配置8颗A100和80G存储空间的AI服务器，价格也从去年中旬的8万/台飙升至当前的165万/台。

DGX云就在这种情况下应运而生，关键价格看似还很便宜。配备8个H100 GPU模组的DGX云，每月套餐费只要3.7万美元，相当于单片H100的价格。

对于急需算力资金又捉襟见肘的AI公司来说，DGX云无疑是渴睡时天降的一个枕头；对于英伟达而言，对于华为出售自己的云算力既能赚钱又不用绑定自己的客户。

孙力平权

从产业特点看，今天基于云算力的AIGC和曾经的加密资产挖矿极其相似，但需要的资源远高于后者。

国盛证券曾在《Web3 视角下的AIGC算力进化论》中，比较了加密资产挖矿和AIGC产业的异同点:

1 AIGC产业耗电量大约会在1.6-7.5年间超过当前比特币挖矿产业耗电量，主要驱动因素是GPT类语言模型在模型参数、日活和模型数量上的高速增长；

2 和比特币挖矿类似，AIGC产业由算力驱动的内容处于高强度竞争中，参与者只有持续、快速生产出高质量内容，才能保证自己获取到的用户注意力不会下降。

其中，成本侧不止是耗电量，当然耗电量可以作为一个非常直观的证据。比如百度用于训练推理文心一言的阳泉超算中心，每小时耗电64000kW·h（度），按照0.45元/kW·h的商业用电标准，一年电费就达到2.5亿。

以ChatGPT为例，不考虑与日活高度相关推理过程所需的算力，仅考虑训练过程，根据测算，1750亿参数的GPT-3训练一次大约需要6000张英伟达A100显卡，如果考虑互联损失，大约需要上万张A100。

云算力能让AIGC模型厂商无需购买英伟达A100显卡等硬件，而直接按需租用云算力平台提供的算力，这使得初创企业或非头部模型厂商也能尝试进入AIGC领域。

甚至这种“化整为零”的方式，对产业链各方都有益处：

1）对上游算力生产商而言，在算力硬件进入淡季、库存趋增时，能通过售卖算力的方式，平滑收入的波动，并为旺季储备“有生”力量，及时满足回弹的市场需求；

2）对中游云服务厂商而言，则有助于增加客流；

3）对下游算力需求方而言，能最大化降低使用算力的门槛，驱动全民AIGC 时代降临。

如果AIGC大型厂商愿意让渡更多资源，还可以更深入地与云平台合作。这方面的典型案例是微软云与OpenAI的合作，两者的合作没有停留在算力租用上，而是深入到了股权与产品的融合。

另外，在大模型竞赛中，除了显性的硬件投入成本，还有一个隐形的时间成本。

一般而言，大模型对于算力的需求分为两个阶段，一是训练出类ChatGPT大模型的过程；二是将这个模型商业化的推理过程。

而且这个过程越持续大模型就越好。所以现在再来看英伟达DGX云，就不难搞懂老黄干了一件什么事。

用云的方式把用于AI训练的GPU价格打下来，用算力平权笼络中小公司，再基于大模型训练的持续性因素绑定客户，“硅谷刀王”一举两得。

本轮AI热潮中除OpenAI外，最出圈的AI公司非Midjourney和Authropic莫属了。前者是一款AI绘图应用，最近同QQ频道合作开启了国内业务，后者的创始人则是出自OpenAI，其对话机器人Claude直接对标ChatGPT。

这两家公司有一个相同点，就是都没有购买英伟达GPU搭建超算，而是使用Google的算力服务。

该服务由一个集成4096块TPU v4的超算系统提供，重点是Google自研。

另外一家自研芯片的巨头是本轮AI浪潮的引领者微软，传闻这款名叫Athena的芯片采用5nm先进制程，由台积电代工，研发团队人数已经接近300人。

很明显，这款芯片目标就是替代昂贵的A100/H100，给OpenAI提供算力引擎，并最终一定会通过微软的Azure云服务来抢夺英伟达的蛋糕。

除了云计算公司的背刺，英伟达的大客户特斯拉也要自己单干。

2021年8月，马斯克就向外界展示了用3000块自家D1芯片搭建的超算Dojo ExaPOD。其中D1芯片由台积电代工，采用7nm工艺，3000块D1芯片直接让Dojo成为全球第五大算力规模的计算机。

国产芯片可以做对信息颗粒度要求没有那么高的云端推理工作，但大多数目前无法处理超高算力需求的云端训练。

据此前曝光的信息，百度用于训练推理文心一言的阳泉超算中心，除了A100还用了一些国产化的产品，比如百度自研的昆仑芯和寒武纪的思元590，其中有消息显示2023年采购计划思元大概占10%-20%。这样一来，华为就可以用自己的麒麟芯片，在ai领域发挥更大的作用。当然，这只是猜测，具体情况还要等官方公布。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!