稀疏计算引领AI 2.0算力“进化”——墨芯创始人兼CEO王维出席AIGC创新峰会
2023-03-24
大会以“AI新纪元 创造新世界”为主题,由智能产业权威媒体智东西等主办。活动嘉宾包括来自行业巨头、创业先锋企业与投资机构的20+位产学研专家,针对大模型与生成式AI的创新与商业前景、算力进化、创业与投资策略等主题发表前沿观点。
在演讲中,王维首先分析了深度学习在过去10年从AI 1.0进化到AI 2.0,GPT等大模型为代表的AI 2.0对算力提出全新需求,也带来巨大的挑战。他指出,稀疏计算已经成为学界与业界公认的AI 2.0时代最具潜力的算力方案,前沿研究与诸多产业实践都表明:稀疏计算为大模型的应用落地带来数量级的的加速,为AI带来更广大的发展空间。
AI 2.0有哪些新的算力需求?
稀疏计算为大模型加速带来怎样的效果?
墨芯的大模型算力实践,已经取得了哪些成果?
……
想了解这些问题,一起来看本次演讲的精华内容——
1
探索新的算力增长,要从了解算力发展进程与供需情况开始:人类过去近一个世纪的数字文明,都建立在硅基半导体集成电路的芯片之上。从供给来看,算力发展沿循着摩尔定律,每18-24个月算力翻番。
在需求侧,今天ChatGPT代表的生成式AI成为爆点,更深层的影响是:AI已经从1.0来到2.0时代,模型巨变对算力带来了根本性的挑战与变革。
AI 1.0 小模型时代
模型特点:用场景数据训练小模型,研发和部署周期短,基本以周和月为单位。
算力需求:主要是通用性和易用性。算力的成本和功耗,在大部分应用场景中只是“痒点”,还不是“痛点”。
AI 2.0 大模型时代
模型特点:“大力出奇迹”,大模型参数呈指数级增长。
算力需求:算力通用性的重要性减弱了,原因是大模型主要基于Transformer模型架构,算子层面逐渐固化。
AI 2.0算力面临全新挑战:
首先是算力供给跟不上模型的发展速度。大模型参数每两年增长275倍,算力需求每3.5个月翻一番,而摩尔定律下算力每2年只翻2倍,产生了巨大的算力缺口。
然后是推理速度的要求:生成式AI基本都是在线应用,需要系统对于用户的需求快速响应。
算力增长和推理速度已成为大模型发展的痛点。如何解决算力供需矛盾?单纯靠依循摩尔定律的硬件进步,难以满足大模型算力需求的指数级增长,必须依靠软硬融合的方式。
2
AI 2.0时代,大模型参数已突破万亿,还在持续增长。“暴力出奇迹”的稠密计算方式,难以支撑AI的长远发展。
我们真正需要的,是更聪明的计算方式,计算真正有用的元素,这就是稀疏计算的本质。
—— 墨芯创始人兼CEO 王维
在软硬协同的方向上,稀疏计算是整个学术界与产业界公认的最有发展潜力发展、能够应用落地的方向。
在学界,Transformer引发大模型浪潮后,稀疏计算相关研究活跃度显著提升。学界也意识到:在AI 1.0时代行得通的GPU,到了大模型时代优势不再明显,因此转向能更根本解决问题、更适合大模型的稀疏计算。
AI 2.0时代,稀疏计算相关研究活跃度显著提升
业界已有许多头部公司早早布局稀疏计算,并已用实践证明稀疏计算的优势:例如谷歌的MoE混合专家架构,采用稀疏计算思路,每次仅通过一些通道激活有必要的专家子模型。Google Pathway架构采用稀疏计算原理:执行任务时仅稀疏激活模型的特定部分。
Google Research和OpenAI的合作论文“Sparse is Enough in Scaling Transformers”, 展示了稀疏计算可以为模型带来37倍加速,也就是1~2个数量级的性能提升,这是一个利用模型本身的稀疏性进行加速的很好示例。
学界和业界的多种研究、实证都已经证明:稀疏计算对于大模型有重要的意义,意味着在有限的算力下,稀疏计算可以让大模型可以继续拓展,带来更大的发展空间。
墨芯做的,还远不止这些。
3
对于创业公司来说,做微创新意义不大,要做就做有数量级突破的创新。
墨芯成立之初,我们就看到了稀疏计算能够带来1~2个数量级的性能增长。因此我们也一直笃定,做一家稀疏计算公司。
—— 墨芯创始人兼CEO 王维
今天我们可以骄傲地说,墨芯是稀疏计算引领者。我们的双稀疏技术能够实现32倍稀疏率,英伟达A100支持两倍稀疏,墨芯整整领先16倍。
这并不是在理论上,我们已经实际成绩证明了稀疏计算的强大优势:
2022年初墨芯第一颗高稀疏率的稀疏计算芯片AntoumⓇ流片成功,在几秒之内迅速点亮,并且24小时之内跑通Resnert-50等模型。
去年,在国际最权威、影响力最大的AI基准测试性能MLPerf中,基于AntoumⓇ的墨芯AI计算卡系列首次亮相,就取得了一项冠军和一项亚军的好成绩。墨芯S30计算卡在数据中心主流模型Resnet-50上稀疏等效算力达95,784 FPS,以12nm制程的性能达到4nm制程GPU产品的1.2倍,功耗仅为其1/3——这就是稀疏计算的巨大能量。
针对AI 2.0大模型的算力需求,墨芯同样以实践证明了稀疏计算是大模型的最佳方案:
在MLPerf中,墨芯S30计算卡在Bert-large大模型上算力高达3837 SPS,性能达到7nm制程GPU产品的2倍,满足大模型的高算力需求。
同时,稀疏计算为大模型带来大幅推理加速:在我们的内测中,在与GPT-3参数相当的开源LLM——1760亿参数的BLOOM上,4张墨芯S30计算卡的内容生成速度达到25 tokens/s,超过8张A100。而且这是在仅采用中低倍稀疏率的情况下,如果采用高倍率稀疏将带来更大的加速。
活动现场墨芯展台吸引众多业界人士交流探讨
4
未来,AI模型将有更多的进化。
我们始终坚定:AI的发展只是手段,为人类服务才是我们的根本目标。
墨芯的使命,是科技向善,照顾弱小,利他利社会。
—— 墨芯创始人兼CEO 王维
作为一个科技工作者,对于生成式AI的到来和进化速度,我感到既兴奋,又惊恐。
把人类大脑和GPT-3.5对比:人脑有百万亿个神经突触连接(Synapse),GPT-3有1750亿参数,相差一千多倍。人类大脑的运作方式实际上正是稀疏计算:运行时仅激活相关的神经元和连接,因此大脑的日常功耗大约只有20W,远远低于数据中心的功耗。
AI模型还会持续进化,如果有一天它获得自我意识,我们该怎么做呢?这正是我担忧的地方。
我们不仅关心技术,更重要的是,作为科技工作者,我们应该在AI伦理、法制和道德层面承担起责任。这也是我在公司成立之初就想好的事:墨芯的使命和价值观,是科技向善,照顾弱小,利他利社会。
我们用稀疏计算去赋能和支撑AI的发展,但前提是让AI安全可控,用科技做善事,把技术用于善待人、照顾人,让每个人都能感受AI的关怀与帮助。这样我们的世界才能不因AI发展而作恶,未来才会更有温度、更美好。
这就是我们作为一家稀疏计算公司,始终坚持、为之奋斗的初心:科技向善。