• 发文
  • 评论
  • 微博
  • 空间
  • 微信

视海芯图创始人许达文博士:3D DRAM存算芯片助力GPT的发展

科闻社 2023-04-21 10:03 发文

(本篇文篇章共2067字,阅读时间约6分钟)

AI技术越来越成熟,应用越来越广泛。但是训练AI模型需要大量的算力,这对芯片提出了巨大的挑战,同时在芯片内部,不仅仅存在着性能提升的瓶颈,同时还存在内存访问的大瓶颈,这方面,全球半导体存储领域的各大公司在多年的技术研发过程中不断的进行着探索与研发。近日,视海芯图创始人许达文博士在一场行业活动中,以“DRAM存算芯片,引领AI大模型算力革命”介绍了存算芯片的技术演变以及行业产品研发等情况。

许达文博士强调,经过不断的探索,当前3D DRAM堆叠技术已经成熟,国内企业已经具备成熟的实现方案。最近的杀手级应用,譬如Transformer,图计算,图数据库的兴起对带宽延迟的刚性需求也在兴起,或许预示着3D Stacked DRAM与逻辑芯片的商业化时机已经到来。以下为其演讲主要内容的分享。

大模型对现有芯片的挑战

目前火爆的GPT4计算需要消耗的资源非常庞大。据了解,单个模型需要2600多个服务器,换算成经费大概是3.4亿美金,耗电量是每天大概41万度,OpenAI预计随着模型迭代,计算资源每三四个月要翻倍,也就是到2026年服务器费用每年需要1700亿美金,耗电量需要750亿度。在这巨大的消耗下,随着通用AI的普及,需要特别低的边际成本,越是基础模型,越是得有接近于0的边际成本,这样才能保证通用AI的大规模应用,这就要求硬件在保持高算力的同时,还要实现高能效和低成本。

GPT的特点是访存密集和数据搬运不规则的,数据复用不足,因此,GPT对硬件的内存带宽、片内存储容量,低延迟和运算并行性都有很高要求。而DRAM存算的技术可以把DRAM与逻辑进行3D集成,从而为计算单元与存储提供超大带宽和大容量,还可以降低数据搬运,降低功耗,是加速GPT的不错选择。

DRAM PIM和PNM历史简介

DRAM存算(存内计算和近存计算)的过往,相关技术包括:Processing-In-Memory存内计算,智能DIMM,HMC、HBM、3D-Stacked DRAM与逻辑。

Processing-In-Memory存内计算。有两种方式,一种是存储颗粒里面,采用DRAM器件在存储阵列旁边构建一个逻辑电路,早在1992年多伦多大学就提出了Computational RAM,加速了卷积和Data Mining等应用,后来一个工作DIVA,它更进一步,把PIM芯片串联在一起并行工作。另一种同样是在DRAM颗粒内部,但是它是修改存储阵列,让每个存储单元具备存储和计算的能力,提高了硬件并行性,减低了数据搬运。

智能DIMM。在内存条上面放置一个运算电路,三星提出了AxDIMM,采用来加速推荐系统的应用,facebook也有类似的工作来加速图神经网络。但是,这种方式存储的颗粒以及计算芯片是两个不同的芯片,被集成在一块PCB板上,以致通信之间的带宽还不够大,而且成本多增加了一个计算芯片,目前来说这个应用也不是特别广泛。

HMC技术。它把多个DRAM堆叠在一个逻辑芯片上面,构建HMC芯片,HMC可以把内存容量和带宽做的比较大。HMC中逻辑芯片也可以完成一定的运算。但问题是HMC颗粒与处理器是通过PCB板做互连,这种互联导致的延迟还是比较高的,HMC能完成逻辑功能比较简单,同时会增加一些成本,以致提出这一技术的镁光放弃了该技术。

三星的HBM。HBM也把DRAM堆叠在逻辑芯片上面,不过,HBM存储颗粒与处理器更进一步,做成了2.5D集成,这种方式极大的缩短了存储颗粒与处理器之间的距离。它的好处是容量比较大,带宽也会比较高,功耗比HMC好很多,缺点是成本比较高,互连有一些限制,通常来说,一个处理器只能连4个HBM颗粒。

2022年,达摩院与紫光国芯把25纳米DRAM堆叠在55纳米逻辑芯片上,构建了神经网络计算以及推荐系统里的匹配加速等。相比CPU版本,性能上,速度提升9倍,能效比超300倍。

GPT芯片设计和应用

正是经过业界不断的探索,当前3D堆叠技术已经成熟,而Transformer的应用,图计算,图数据库的兴起也对带宽延迟的刚性需求进一步增强,或许预示着3D Stacked DRAM与逻辑的商业化时机已经到来。

从技术上说,由于3D DRAM延迟和带宽逼近于末级缓存,业界的策略是移除面积占比较大的末级缓存,让3D Stacked DRAM保证高带宽和低延迟,芯片会有更多晶体管来构建更多算力。

通过3D堆叠技术可以把处理器与DRAM之间的距离做到微米级甚至亚微米级,这种情况下的走线非常短,延迟比较小。通过这种技术,单位平方毫米可以完成数千甚至几十万的互联联线,实现的带宽更高。省去PHY,更短的走线,将带来更低的功耗,更好的性价比。

视海芯图芯片和应用案例

视海芯图研发的SH9000 GPT算力芯片,主要特点针对算法优化,所以在跑GPT模型的时候,可以实现更好的性能,且在功耗也较低。

在游戏领域,GPT算力可以很好的帮助游戏里面的用户生成千人千面NPC的角色,同时还根据用户行为随机生成场景的调整,为用户做成开放世界。此外,可以根据提供的场景自动生成图片,节约游戏开发成本。

在智慧教育方面的应用,GPT算力同样可以带来巨大的帮助,包括人性化助教。系统可以根据实际情况来做业务解答,也可以实时生成训练题。

 在虚拟人、主播,GPT算力也可以发挥很好的作用。通过硬件加速的支持,可以让虚拟人的主播可更加人性化,,增强用户的参与感和互动体验,模拟真实情景。

在老年人服务机器人方面,GPT也能发挥很大的作用。GPT一方面作为知识学习系统,帮助老年人存储日常接触当中的记忆片断,还可以给老年人做情感分析,自动与老年人做交流,提升老年人生活品质。

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    已认证
    科闻社

    集成电路领域优质创作者...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码