由买买提看人间百态
登录
首页
论坛
未名存档
话题女王
小圈子
马甲追踪
版面排名
流量曲线
水枪排名
发帖量曲线
发帖版面饼图
发帖时间柱图
关于本站
帮助
boards
本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字
访问原贴
Military版
- 行胜于言,下一代国产GPU风华正茂
进入Military版参与讨论
1
(共1页)
f***y
发帖数: 4447
1
行胜于言,下一代国产GPU风华正茂
https://www.laoyaoba.com/n/800796
集微网消息,几年前,AMD、高通和英特尔相继进入了人工智能领域,面对人工智能芯
片领域已经被大公司固守的局面,“皮衣教主”黄仁勋对媒体说,如果这个市场跟产业
都已经发展得足够好了,那我们为什么还要浪费才能,在别人已经做得足够好的事情上?
几年后,当计算需求起飞、中美科技博弈,GPU国产化需求日益紧迫,众多来自英伟达
、AMD等巨头的资深华人专家回国纷纷创立国产GPU团队,并在短时间内就凭借PPT斩获
巨额融资。面对黄教主固守的GPU城池,谁又将是新的“英伟达”冲击者?最近,芯动
云计算总裁敖海也穿上一件皮衣,吹响了冲锋的号角。然而,首款国产高性能4K级显卡
GPU芯片“风华1号”发布的背后,是众多亟待解决的技术和产业链生态难题。
打造一颗GPU有多难?
数据显示,2020年全球GPU市场规模达254.1亿美元,预计2027年将达到1853.1亿美元,
年均复合增长率高达32.82%。全球GPU同样呈现寡头垄断的格局,在传统GPU市场,排名
前三的英伟达、AMD、英特尔的营收几乎垄断整个GPU行业的销售;在手机和平板等移动
GPU市场,联发科、海思麒麟和三星Exynos的GPU设计主要基于Arm Mali GPU或
Imagination PowerVR架构,而高通骁龙Adreno和苹果A系列则采用自研架构。
当游戏、数据中心、自动驾驶、矿机、VR/AR、AI等领域对算力的迫切需求与日俱增,
算力将成为大数据时代的核心,GPU不仅为个人电脑、服务器和移动设备进行各种图形
处理工作,还因人工智能的兴起,在科学计算、自动驾驶、智能分析、密码破解、图像
识别、大数据、金融交易等主流云计算领域广为应用,地位水涨船高。但国产GPU研发
已经进行了多年,何以至今未取得较大的突破?
芯动科技工程副总毛鸣明指出,GPU是用于加速计算机三维图形处理渲染过程的专门芯
片,需要同时处理多个图元上的多个像素点,GPU的架构具有多个计算核可以对同一个
指令用不同的数据并行计算,从而大大提高了GPU的性能。“虽然GPU中的指令集比起
CPU要简单,但是计算核的数量比CPU多很多倍,所以GPU执行可并行度高的计算时会大
幅度提高计算效率。一般GPU芯片中的逻辑门数量会比CPU多十倍以上,这是GPU系统复
杂的原因之一。”
并且,GPU不止是可以做数学运算的计算核,还要实现复杂的三维图形实时处理。“当
你在玩游戏时屏幕上每一个像素的颜色都是经过GPU上百次的计算产生的,其架构设计
也要不断改进更新来适应新的市场需求。这也是GPU系统复杂的原因之一。”
除了技术上的难点,GPU开发难的一个重要因素是人才稀缺,同时需要数年或更长时间
投入以及几亿到十亿以上的资金支持。全球GPU芯片领域从几何物理渲染到计算引擎领
域的知名专家、芯动首席算法科学家杨喜乐博士也在演讲中提到,渲染流程涉及大量图
形学、数学运算,需要有数学及逻辑分析能力,与CPU类似的ALU算术逻辑技术单元,则
需要计算机架构设计知识。人才缺乏是一大挑战,大部分GPU架构,渲染流程及硬件设
计在大学课程里没有讲授,资深GPU工程师资源有限,这不仅仅是在中国,全球的现状
均是如此。
因此,准确的说应该是GPU的系统设计更为复杂,系统庞大,技术涉及面广,需要一个
技术积累过程。这对于基础本就薄弱的国内芯片设计产业来说更是雪上加霜。
GPU的国产化具体面临着哪些困境?芯动科技SoC体系架构师何颖分别从技术和生态两方
面进行了分析。何颖指出,首先在体系架构方面,需要对GPU现代渲染架构完全掌握,
并拥有持续迭代的能力。需要具备最先进工艺节点的SoC设计的成熟经验,熟悉多核系
统设计、性能优化和工艺调优等;其次在IP方面,GPU的性能发挥离不开高带宽,因此
需要多种成熟可靠、可定制、可升级的高性能IP,比如PCIe4/5、GDDR6/GDDR6X、HBM2
、DDR5/LPDDR5、Chiplet、HDMI2.1、DP/eDP 1.4等等;在团队方面,需要具备多学科
领域的专业团队协作,包括但不限于图形学、算法、硬件架构、软件架构、系统架构、
硬件数字开发、验证、模拟开发、后端、版图、系统、软件、驱动、测试、机械结构、
生产等等众多领域的专家。
其次在生态方面,一方面构建软件生态需要强大的软件开发团队,以适配不断快速发展
的API和应用侧需求,包括Windows、Linux、Android,DirectX、Vulkan、OpenGL/
OpenGL ES/OpenCL/TensorFlow等;另一方面需要适为不同客户量身定制应不同行业、
不同应用场景的芯片,包括国产桌面/服务器、移动平台,显示设备、汽车/自动驾驶、
VR/AR、游戏娱乐等各种应用。
毛鸣明表示,“国产GPU发展到今天,可以集全国力量打造一个GPU软件团队,却很难组
建GPU硬件团队,一些核心的模块基本都没有在中国设计过,所以我们现在还不具备相
应的基础,但是可以在发展的过程中不断探索、学习。国产GPU在起步阶段先求生存,
兼容现有生态更容易发展;长期还是要摆脱兼容思路,站稳脚跟后发展自有的核心技术
。”
“风华1号”横空出世的背后
相比于国内一些高调曝光动态的GPU创业团队,芯动科技的“风华1号”要低调得多,11
月中旬爆出回片测试成功,月底就正式亮相了。临出发前,敖海特意翻出一件压箱底的
皮夹克穿上,可见他朝着“黄教主”的目标又近了一步。“GPU门槛这么高必然有它的
原因,但是我们今天如果不做,就会永远被垄断。”敖海表示,“做GPU,我们是认真
的。现在我们迈出了这一步,迟早有一天可以让大家很流畅地使用国产的GPU,可以发
微博说‘我用了国产GPU很爽,能够工作、能够娱乐、能够设计’。现在是‘风华1号’
面世,随着风华系列的迭代,相信芯动科技终将实现这个目标。”
芯动科技敢于啃GPU这块“硬骨头”的底气来自哪里?毛鸣明解释,GPU涉及到众多的核
心模块和I/O,在这方面芯动科技长期深耕核心技术,积累了200多次先进工艺流片经验
,与台积电、三星、格芯、中芯国际、联电、英特尔、上海华力等全球领先的晶圆代工
和封测厂商结成了良好的合作伙伴关系,在长期研发中积累了GPU所需要的全套高端IP
、图形芯片内核定制技术和先进工艺经验,包括GDDR6/6X、HBM2e/3、INNOLINK
Chiplet等全自主国产高端技术,因此走向GPU研发是多年技术积累厚积薄发的必然结果。
芯动科技决心研发GPU,并为此组建了强大的GPU研发团队:例如首席算法科学家杨喜乐
博士毕业之后,在英国Imagination公司作为顶级架构师,25年来一直从事GPU核心图形
引擎的建模和创新,是全球GPU芯片领域从几何物理渲染到计算引擎领域的知名专家,
持有GPU 3D计算机图形学核心领域顶级图形专利共计125项,目前Imagination、苹果等
公司最新的核心GPU产品的设计、优化和迭代都离不开她的专利和算法;此外还有DX团
队负责人章涛是前AMD的图形框架开发的领军人物等等。据毛鸣明透露,芯动科技深度
参与GPU研发的核心人员达到200多人,加上其他部门参与研发的则达到了400多人,整
个公司60~70%的研发资源都在支持GPU产品线。“国内近几年招募回来的GPU人才,有三
分之二在芯动科技。”
人才团队搭建完成后,最底层的GPU架构技术是一个问题。毛鸣明表示,GPU架构的复杂
度极高,如果架构从零开始设计周期太长,并且涉及众多专利,因此芯动科技选择“站
在巨人的肩膀上”。去年10月,芯动科技宣布与Imagination达成合作,将采用多晶粒
封装芯片(Chiplet)和GDDR6高速显存等SoC创新技术,基于Imagination全新顶配BXT
多核架构,开发“风华”系列GPU,并且在架构授权上进行自研演进,这是自主可控的。
据悉,芯动科技与Imagination的合作是与苹果一样的架构授权,而不仅仅是某一个IP
的授权。如何把这个架构做成最终的GPU,不是简单的堆砌核和各种IP就行了,如何把
他们有机地利用、调用起来,如何通讯都要付出大量努力。何颖强调,芯动在这个初始
架构上探索了很多自己的方案,包括自研的Cache一致性Innolink Chiplet技术,内置
国产物理不可克隆iUnique Security PUF信息安全加密技术,提升数据安全和算力抗攻
击性等等。“最主要解决的问题是打破算力的限制,把我们的硬件架构拓展到能够支持
更多的客户,或者更重的计算性能的场景上,并解决初始架构一些天然的限制或者不能
解决的问题,这样才能真正地完成迭代,把原生移动端的架构拓展到高性能计算、云计
算等场景。”
芯动科技之所以选择IMG B系列GPU架构,是因为它具有令人印象深刻的可扩展性,以及
能够提供高达6 TFLOPS(每秒万亿次浮点运算)的计算能力;同时,与前几代产品相比
,其功耗降低了多达30%,面积缩减了25%,并且还增加了Imagination全新的多核技术
。这在系统级芯片(SoC)和多芯片封装中,可更加灵活地控制每个独立内核的配置和
布局。该IP的多功能性意味着它可以在此基础上创建多个平台,从而可以从移动端扩展
到云端级解决方案。
“得益于Imagination BXT架构的多核可扩展性,芯动能够为我们的客户打造量身定制
、融合图形和智能计算的显卡芯片解决方案,以满足高端桌面和数据中心的需求。而且
该架构是基于安卓开发的原生架构,风华GPU在安卓云游戏上也会更具备优势,跟Arm、
X86服务器平台都能适配,对各种Linux、安卓和国产各种操作系统都能支持。”毛鸣明
表示,“当然,站在巨人的肩膀上能成功的前提也必须自身够硬。凭借芯动在GDDR6/6X
高速存储、缓存一致的Chiplet创新、以及高性能多媒体处理器优化等方面的坚实积累
,进而去开发独立的、支持PCI-E规格的GPU显卡芯片是水到渠成的事情。”
俗话说做GPU是三分硬件,七分软件。GPU硬件搭建出来后,就要进行各种适配各种框架
平台和API,芯动科技在Imagination BXT架构的基础上进行了算法等方面的深度开发,
比如OpenGL4.0,授权的时候OpenGL没有支持到4.0,就需要芯动科技自己开发,目前已
经基本支持所有标准API,DirectX到明年也可以完成开发。毛鸣明强调,GPU需要不断
更新,不论是硬件还是软件都需要不断迭代以支持更高版本的API接口。其次图像GPU领
域的趋势要关注,比如以前不用支持DirectX,渲染技术在不断更新等。最后还要拓展
新领域,比如光线追踪技术、做算力等等。“第一版芯片主要针对手机游戏上云,正在
与几大云服务提供商进行适配。目前芯片内部测试基本已经告一段落,接下来与客户一
起进行适配,顺利的话在明年春节后就可以开始订购。”
何颖补充说,获得授权的架构还将针对未来国产GPU生态建设和国内使用环境进一步深
度定制,加上自研的核心技术和大量创新,确保了国产GPU持续演进和自主可控。
据悉,在“风华1号”测试成功的消息传出后,已经有国外媒体闻风而动,联系芯动科
技希望获得更多信息。“国外用户也希望能有一个新的GPU竞争者来打破当前的垄断”
,毛鸣明透露,“我们目标是做中国的英伟达。”
面对未来GPU产品线盈利问题,毛鸣明认为,目前国内信创市场每年为几百万张卡的规
模,服务器显卡数十万张左右但是成长快,单卡的价格是信创产品的十倍甚至几十倍。
因此在信创市场上要盈利比较难,因为它本身就偏向于中低端市场,但是其实在服务器
端的盈利还是比较有希望的。“如果我们做得好的话,可能在一两年内就可以打平。”
在此之前,芯动科技则已经制定了风华系列清晰的演进路线。敖海表示,明年初就会推
出风华2号和3号,采用5nm工艺,后续保持每年推服务器和桌面系列芯片出各一款的更
新速度,性能不断大幅度提升。
资本堆砌不出来市场接受的国产GPU
现阶段芯动科技会专业聚焦于渲染GPU市场,并且瞄准国产信创桌面和服务器这两大细
分领域,其中服务器主要是指安卓云游戏领域。毛鸣明解释,一方面,信创市场做的是
国产替代,另一方面芯动科技选择做更商业化的产品,也就是云服务器和云游戏的市场
。“我们敢于拥抱商业化的竞争,做更商业化的产品。当然我们未来也有GPGPU的规划
。”
面对当前国内浮躁的GPU创业现象,毛鸣明指出,国内投资GPU的热潮既是商业化的需求
,也是国家战略替代的需求。GPU市场非常大,但相较于已有一定积累的CPU来说,我国
在GPU方面的发展进度还十分缓慢。目前桌面和移动端的GPU基本被英伟达、AMD、Arm垄
断,所以国产替代的空间和潜能也很大。“国产GPU和CPU一样,也是具有国家战略意义
的高端集成电路产品,可以说是一个巨大的蓝海市场。投资者青睐GPU领域其实也是看
好这个市场的巨大发展前景和机会。”
但是也不能忽视这股热潮背后的投机属性。“一方面,一些GPU新势力尚没有明确自己
的细分市场,没有想清楚未来长远的发展方向,还只是停留在PPT阶段,所以尽管热度
高涨,但真正能用产品说话的企业非常少,尤其是高性能商业化的渲染GPU产品凤毛麟
角。”他说,“另一方面,GPU技术门槛高,长期被英伟达和AMD等霸主垄断,新势力想
要生存必须掌握有核心技术,有多年的技术积累和人才资金供给。长远来看,GPU领域
在竞争中将会逐渐由多家公司收敛成屈指可数的几家公司。”
对于芯动而言,选择了难度更高的图形渲染GPU作为切入点,而不是GPGPU。“虽然
GPGPU的价值很高,增长也不错,但细分市场总的体量还是远不及图形渲染领域。芯动
选择的是一个起步很难但可以走得很远的赛道。”毛鸣明解释,目前大多数初创公司基
本上是做GPGPU,因为它主要实现的还是相对比较简单的一些AI运算,相对图形渲染GPU
是小容量的市场。而图形渲染GPU就比较难,因为流水线(pipeline)特别长,经过了十
几年的演化进程,实现会更加复杂,设计也要难得多,而且其中还有很多专利陷阱,也
就是常说的雷区(Minefield)。
“‘风华1号’的成功不是靠资本堆砌出来的。”他强调,芯动科技做GPU至今已经投入
了几个亿,但是都是自有资金,架构授权、流片都是自费的,没有为此融过资。“但是
GPU不一定是集全中国之力就一定能够完成的,特别是在硬件方面,还是需要全球化的
团队。因此我们慢慢会保持更开放的姿态,继续吸纳优秀的人才,也会接触投资人,以
便更有底气也有能力把GPU做好。”
毛鸣明也认可,长远来看,芯片技术需要经年累月的迭代和优化,巨大的研发费用和资
本开支是必需,但是下游产业链长期、持续的利润支撑才是芯片长久发展的强力驱动。
也就是说,芯片的成功和成熟需要大量的验证和出货,而找到可持续的落地场景才是长
期发展的关键驱动力。所以国产GPU生态要突围,还必须脚踏实地,从切切实实的好产
品开始。
用户真正需要的GPU,不仅能跑,还要跑的好,跑的快。我们也期待,国内能尽快出现
市场认可并接受的、好用的GPU,而不是仅仅停留在硬件和技术层面。(校对/萨米)
1
(共1页)
进入Military版参与讨论
未名新帖统计
// 7月16日
#
版面
帖数(主题数)
-
全站
4871 (796)
1
Military
3777 (569)
2
Stock
341 (51)
3
Joke
117 (17)
4
History
116 (3)
5
Automobile
100 (9)
6
USANews
55 (9)
7
Midlife
45 (1)
8
Headline
41 (41)
9
Dreamer
33 (13)
10
FleaMarket
32 (20)
11
Living
30 (7)
* 这里只显示发帖超过25的版面,努力灌水吧:-)
历史上的今天
faintcat妹妹看进来~~
发表于12年前.
NSC, PD 1/7/2007, EB2, ...
发表于11年前.
[FBA求购]MJVE2 758 MJVM2 ...
发表于6年前.
老生常谈,归与不归
发表于10年前.
【申请】Seattle西雅图 版版主——申请人...
发表于9年前.
宝宝出生,头骨骨折,求祝福
发表于9年前.
求推荐舒缓优美的古典音乐
发表于11年前.
百分之一的北京人上北大 中国网友愤怒(转载)
发表于10年前.
新人带狗狗Bailey来报道
发表于12年前.
全世界最有价值的运动队
发表于10年前.
请问大切诺基的质量如何
发表于6年前.
TNND,军版全是BKC
发表于15年前.
Inception
发表于12年前.
微软的有些家属可真恶心,为了卖保险脸都不要了
发表于10年前.
每周坐高铁的苦逼来说说感受吧!!
发表于9年前.