专访墨芯严恩勖:独创“双稀疏化算法”定义AI芯片架构,通过软硬协同解决算力瓶颈

2024-09-18

AI 重塑千行万业,其训练和推理都高度依赖强大的算力支持。随着应用场景的不断拓展和技术的不断深挖,AI 对于算力的需求呈指数级增长。如何满足算力需求的激增已经成为当今亟待解决的一大挑战。

 

硬件层面,当前半导体制程工艺接近物理极限,进一步提升面临极大困难,业界正围绕新型计算架构(比如存内计算、光子计算等)开展研究;软件层面,通过改进算法设计或开发新的算法可有效提升现有硬件计算平台效率,有望突破当前硬件算力极限。

 

“面对 AI 算力提升面临的挑战,我们从软件和算法的创新来进行突破,聚焦稀疏化算法,通过软硬协同设计,可能将现有 AI 算力提高 1-2 个数量级。”墨芯人工智能科技(深圳)有限公司(下文简称“墨芯”)联合创始人兼首席科学家严恩勖博士告诉「问芯」。

 

严恩勖博士毕业于卡内基梅隆大学。“我从本科、硕士到博士阶段的研究方向都是围绕 AI 训练推理优化方面。在 AI 领域,早先 GPU 并没有现在这么热门,直到 2014 年 GPU 才成为主流的 AI 计算平台。在此之前,大部分的训练算法和推理算法是在 CPU 上实现的。”他介绍说。

 

“我们当时的研究主要针对软件优化,由于在 AI 计算方面 CPU 的算力比 GPU 的算力弱得多,因此需要靠软件来为 CPU 减少计算量,即通过减少算法的计算复杂度从而让训练推理更快。”他解释说。

 

“在我读博期间,深度学习爆发,GPU 也跟着开始热门起来。这基本上可以算是一个范式的转移,AI 计算更倾向于使用硬件来加速。”他说道,“一方面,算力更充足,进而可以计算更复杂的模型,开展更大规模的训练。但是,另一方面,主导整个 GPU 市场的英伟达打造的是闭源生态,不论是硬件架构还是软件系统都很难基于此进行自主创新。”

 

在严恩勖看来,“未来的 AI 训练推理需要‘软硬结合’。单纯基于软件算法的创新是行不通的,没有硬件支撑无法实现更大算力,而单纯基于现有的硬件却比较受限,难以实现创新。数据格式的创新必须要协同硬件一起去进行设计。”

 

2018 年,他遇到卡内基梅隆大学校友王维(墨芯人工智能创始人兼 CEO,硕士毕业于卡内基梅隆大学 ECE 专业,拥有 15 年硅谷数模混合电路和 CPU 高速链路架构经验,曾在美国高通和英特尔担任架构师,是英特尔 5-10 代 CPU 处理器的核心成员。),基于对稀疏化算法的认同,他们在美国硅谷创立了墨芯,而后将公司落地中国深圳,专注于通过稀疏算法和软硬协同开发具有更高算力、更低功耗的通用 AI 计算平台,提供云端和终端 AI 芯片加速方案。