云算力之外,一场始于AI的秘密斗争
发布时间:2023-05-30 15:35:40 所属栏目:外闻 来源:
导读:今年3月,面对汹涌而来的AI潮,“硅谷刀王”一改往日本色,主动站到台前,宣布推出DGX云,把AI专用的GPU放到云上「出租」。
以往,出售算力这种事都是云计算公司在干。它们购买多种型号的显卡与人工智能
以往,出售算力这种事都是云计算公司在干。它们购买多种型号的显卡与人工智能
|
今年3月,面对汹涌而来的AI潮,“硅谷刀王”一改往日本色,主动站到台前,宣布推出DGX云,把AI专用的GPU放到云上「出租」。 以往,出售算力这种事都是云计算公司在干。它们购买多种型号的显卡与人工智能加速器,根据硬件性能或使用时间等来确定价格并向下游市场租赁。 这个过程中,英伟达将GPU要么卖给云计算平台,要么直接出售给AI公司,比如第一台NVIDIA DGX超级计算机就是2016年老黄亲自交付给OpenAI的,并没有直接出售算力,顶多算「卖人」。 而DGX上云这个事,虽然英伟达仍需要将其托管到云平台,但本质上已经是跨越边界了。 用于训练AI的GPU芯片价格疯涨,海外A100和H100的芯片价格分别涨到了1.5万美元和4万美元,国内一台配置8颗A100和80G存储空间的AI服务器,价格也从去年中旬的8万/台飙升至当前的165万/台。 DGX云就在这种情况下应运而生,关键价格看似还很便宜。配备8个H100 GPU模组的DGX云,每月套餐费只要3.7万美元,相当于单片H100的价格。 对于急需算力资金又捉襟见肘的AI公司来说,DGX云无疑是渴睡时天降的一个枕头;对于英伟达而言,对于华为出售自己的云算力既能赚钱又不用绑定自己的客户。 孙力平权 从产业特点看,今天基于云算力的AIGC和曾经的加密资产挖矿极其相似,但需要的资源远高于后者。 国盛证券曾在《Web3 视角下的AIGC算力进化论》中,比较了加密资产挖矿和AIGC产业的异同点: 1 AIGC产业耗电量大约会在1.6-7.5年间超过当前比特币挖矿产业耗电量,主要驱动因素是GPT类语言模型在模型参数、日活和模型数量上的高速增长; 2 和比特币挖矿类似,AIGC产业由算力驱动的内容处于高强度竞争中,参与者只有持续、快速生产出高质量内容,才能保证自己获取到的用户注意力不会下降。 其中,成本侧不止是耗电量,当然耗电量可以作为一个非常直观的证据。比如百度用于训练推理文心一言的阳泉超算中心,每小时耗电64000kW·h(度),按照0.45元/kW·h的商业用电标准,一年电费就达到2.5亿。 以ChatGPT为例,不考虑与日活高度相关推理过程所需的算力,仅考虑训练过程,根据测算,1750亿参数的GPT-3训练一次大约需要6000张英伟达A100显卡,如果考虑互联损失,大约需要上万张A100。 云算力能让AIGC模型厂商无需购买英伟达A100显卡等硬件,而直接按需租用云算力平台提供的算力,这使得初创企业或非头部模型厂商也能尝试进入AIGC领域。 甚至这种“化整为零”的方式,对产业链各方都有益处: 1)对上游算力生产商而言,在算力硬件进入淡季、库存趋增时,能通过售卖算力的方式,平滑收入的波动,并为旺季储备“有生”力量,及时满足回弹的市场需求; 2)对中游云服务厂商而言,则有助于增加客流; 3) 对下游算力需求方而言,能最大化降低使用算力的门槛,驱动全民AIGC 时代降临。 如果AIGC大型厂商愿意让渡更多资源,还可以更深入地与云平台合作。这方面的典型案例是微软云与OpenAI的合作,两者的合作没有停留在算力租用上,而是深入到了股权与产品的融合。 另外,在大模型竞赛中,除了显性的硬件投入成本,还有一个隐形的时间成本。 一般而言,大模型对于算力的需求分为两个阶段,一是训练出类ChatGPT大模型的过程;二是将这个模型商业化的推理过程。 而且这个过程越持续大模型就越好。所以现在再来看英伟达DGX云,就不难搞懂老黄干了一件什么事。 用云的方式把用于AI训练的GPU价格打下来,用算力平权笼络中小公司,再基于大模型训练的持续性因素绑定客户,“硅谷刀王”一举两得。 本轮AI热潮中除OpenAI外,最出圈的AI公司非Midjourney和Authropic莫属了。前者是一款AI绘图应用,最近同QQ频道合作开启了国内业务,后者的创始人则是出自OpenAI,其对话机器人Claude直接对标ChatGPT。 这两家公司有一个相同点,就是都没有购买英伟达GPU搭建超算,而是使用Google的算力服务。 该服务由一个集成4096块TPU v4的超算系统提供,重点是Google自研。 另外一家自研芯片的巨头是本轮AI浪潮的引领者微软,传闻这款名叫Athena的芯片采用5nm先进制程,由台积电代工,研发团队人数已经接近300人。 很明显,这款芯片目标就是替代昂贵的A100/H100,给OpenAI提供算力引擎,并最终一定会通过微软的Azure云服务来抢夺英伟达的蛋糕。 除了云计算公司的背刺,英伟达的大客户特斯拉也要自己单干。 2021年8月,马斯克就向外界展示了用3000块自家D1芯片搭建的超算Dojo ExaPOD。其中D1芯片由台积电代工,采用7nm工艺,3000块D1芯片直接让Dojo成为全球第五大算力规模的计算机。 国产芯片可以做对信息颗粒度要求没有那么高的云端推理工作,但大多数目前无法处理超高算力需求的云端训练。 据此前曝光的信息,百度用于训练推理文心一言的阳泉超算中心,除了A100还用了一些国产化的产品,比如百度自研的昆仑芯和寒武纪的思元590,其中有消息显示2023年采购计划思元大概占10%-20%。这样一来,华为就可以用自己的麒麟芯片,在ai领域发挥更大的作用。当然,这只是猜测,具体情况还要等官方公布。 (编辑:汽车网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
推荐文章
站长推荐
