高带宽内存
高带宽内存(英语:High Bandwidth Memory,缩写HBM),是三星电子、超微半导体和SK海力士发起的一种基于3D堆栈工艺的高性能DRAM,适用于高存储器带宽需求的应用场合,与高性能图形处理器、网络交换及转发设备(如路由器、交换器)、高性能数据中心的AI特殊应用集成电路结合使用,在 CPU 中用作包内高速缓存,在即将推出的 CPU 和 FPGA 中用作包内 RAM,还用于某些超级计算机(如 NEC SX-Aurora TSUBASA 和富士通 A64FX)。[1][2]首款HBM内存芯片由SK海力士于2013年生产,[3]首款使用高带宽内存的设备是AMD Radeon Fury系列显示核心[4][5]。
2013年10月,高带宽内存正式被JEDEC采纳为业界标准。[6]第二代高带宽内存(HBM2)于2016年1月被JEDEC采纳。[7]NVIDIA在该年发表的新款旗舰型Tesla运算加速卡 —— Tesla P100、AMD的Radeon RX Vega系列、Intel的Knight Landing也采用了第二代高带宽内存。
技术细节
编辑相比较DDR4或GDDR5而言,高带宽内存以更小的体积、更少的功率达到更高的带宽。[8]通过堆叠多达八个DRAM芯片裸晶(即三维集成电路)和一个可选的基本芯片(包括缓冲电路和测试逻辑)来实现。[9]堆栈通常通过基板连接到 GPU 或 CPU 上的内存控制器。另外,存储器芯片也可以直接堆叠在CPU或GPU芯片上。[10][11]堆栈内,芯片通过硅穿孔(TSV)及微突起相连接的可选基底裸晶,附带内存控制器。高带宽内存技术原理上与美光科技开发的混合内存立方体接口类似,但不相兼容。[12][13]
高带宽内存内存总线与其他DRAM内存(如DDR4或GDDR5)相比更加宽阔。在拥有四块DRAM裸晶的高带宽内存堆(4-Hi)上,每个裸晶均有两条128比特的信道,四块加起来总共有八条。搭载四块4-Hi高带宽内存堆的图形卡(GPU)将拥有4096比特宽的内存总线。做个比较,GDDR内存给图形显卡的信道宽度为32比特,其内存接口则为512比特。[14]高带宽内存最高支持每个封装4GB的内存。
相比较DDR4或GDDR5而言,内存的最大连接数越多,高带宽内存就需要以更新的方法连接至图形处理器(或其他处理器)。[15]AMD和英伟达均使用为特定目的打造的硅片——中介层,来连接内存及图形处理器。中介层需要将内存与处理器放置在相邻的位置,以减短内存路径。但由于半导体器件制造的制造费用比印刷电路板的高出不少,客户也需花费更多金钱购买此类产品。
-
HBM DRAM芯片
-
HBM控制器芯片
-
AMD Radeon R9 Nano显卡GPU包上的HBM内存
接口
编辑高带宽内存DRAM需要将宿主计算裸晶与分为多个独立信道的分布式接口紧密结合起来。这些信道相互之间完全独立,且不一定同步。高带宽内存DRAM使用宽接口架构来执行高速、节能的计算操作。高带宽内存DRAM使用500 MHz的差分时钟 CK_t / CK_c(前缀“_t”表示“真”(True)、“正值”(Positvie)及差分对组件(Components of differential pair),“_c”则代表“互补”部分(Complementary))。指令在CK_t和CK_c的信号上升沿注册。每个信道以双数据速率(DDR)管理128比特的数据总线。高带宽内存支持每针1 GT/s(1比特)的传输速率,总体封装带宽则能达到128 GB/s。[16]
HBM2
编辑第二代高带宽内存(HBM2)指定了每堆8个裸晶及每帧传输速度上至2 GT/s的标准。为保持1024比特宽的访问,第二代高带宽内存得以在每个封装中达到256GB/s的内存带宽及上至8GB的内存。业界预测第二代HBM在极其需要性能的应用程序(如虚拟现实)中至关重要。[17]
2016年1月19日,三星集团宣布进入大量生产第二代高带宽内存的早期阶段,每堆拥有高达8GB的内存。[18][19]SK海力士同时宣布于2016年8月发布4GB版本的内存。[20]
-
HBM2 DRAM芯片
-
HBM2控制器芯片
-
Radeon RX Vega 64 GPU的HBM2中介层,已移除HBM芯片;GPU仍在原位
HBM2E
编辑2018年下半年,JEDEC宣布升级第二代HBM标准,提升带宽及其能力。[21]官方标准中明确每堆最高307GB/s(有效数据速率则为2.4Tbit/s),但就实际而言,市面上已早有以此速度运行的产品。除此之外,标准还添加了对12-Hi堆的支持,使每堆24GB的内存成为可能。
2019年3月20日,三星发布了Flashbolt HBM2E,每个堆栈有8个芯片,传输速率为3.2 GT/s,每个堆栈总共提供16 GB和410 GB/s。[22]8月12日,SK海力士宣布推出HBM2E,每个堆栈有8个芯片,传输速率为3.6 GT/s,每个堆栈总共提供16 GB和460 GB/s,[23][24]2020年7月2日,宣布开始量产。[25]
HBM3
编辑第三代高带宽内存(HBM3)于2016年正式发布,[26][27]此代标准扩大了内存容量、提升了内存带宽(512GB/s或更高)并降低了电压与价格。人们猜测高带宽内存的密度增加是因为裸晶数量及其密度的增加导致。业界尚未宣布正式发布日期。三星专家预测在2020年前进行第三代高带宽内存的量产。据韩国《中央日报》报导,SK 海力士 (000660-KR) 2021年10月20日宣布,该公司已研发出当前规格最高的高带宽内存“HBM3”,在2020年7月的时候,海力士也领先业界推出“HBM2”的扩张版本“HBM2E”。
HBM4
编辑为了打造能进行百亿亿次计算的高性能计算机,慧与科技预测OPGHC HBM3+及HBM4将在2022年至2024年间发布。更为强大的堆叠能力及更高的物理密度理论上应能让每块插槽的可寻址内存及运行速度更上一层楼。HBM3+的计划速度为4 TB/s,每块插槽的计划可寻址内存(做个类比,AMD的高端EPYC芯片在每个插槽上可以150GB/s的速度寻址)。[28]有了32 Gbit(4 GB)的DRAM裸晶,再加上HBM3+每堆上的16片裸晶,每个HBM3+组件理论上能提供64GB的容量。
历史
编辑早在2008年,AMD就开始着手研发高带宽内存来解决日益增长的能源使用及计算机内存的形状因数。其中,AMD高级研究员布赖恩·布莱克(Bryan Black)解决了裸晶堆叠问题。AMD还从内存行业(SK海力士)、插入器行业(联华电子)及封装行业(日月光半导体)的合作伙伴中获得了帮助,让高带宽内存从设想变成现实。[29]2015年,SK海力士在韩国利川市的工厂正式开始量产。
在2010年AMD与SK海力士共同发表提案后的2013年10月,高带宽内存被JEDEC设立为业界标准(JESD235)。[6]首款使用高带宽内存的设备是AMD Radeon Fury系列显示核心,其驱动了AMD Radeon R9 Fury X。[30][4][31]
第二代高带宽内存则于2016年1月被JEDEC认可为业界标准(JESD235a)。[7]首款使用第二代高带宽内存技术的图形处理器是于2016年4月发布的英伟达 Tesla P100。[32][33]
未来
编辑在2016年8月的热门芯片上,三星与海力士均宣布了下一代高带宽内存技术。[34][35]两家公司都预计下一代产品的裸晶密度、带宽得到提升,同时减少能源消耗。三星还宣布将发布低成本版本的高带宽内存,此类产品将移除缓存裸晶、减少硅穿孔,并将总带宽降至200GB/s。
另请参阅
编辑参考文献
编辑- ^ Shilov, Anton. Intel Confirms On-Package HBM Memory Support for Sapphire Rapids. Tom's Hardware. December 30, 2020 [January 1, 2021] (美国英语).
- ^ ISSCC 2014 Trends 互联网档案馆的存档,存档日期2015-02-06. page 118 "High-Bandwidth DRAM"
- ^ History: 2010s. SK Hynix. [7 March 2023].
- ^ 4.0 4.1 Smith, Ryan. The AMD Radeon R9 Fury X Review. Anandtech. 2015-07-02 [2016-08-01]. (原始内容存档于2016-07-22).
- ^ Morgan, Timothy Prickett. Future Nvidia ‘Pascal’ GPUs Pack 3D Memory, Homegrown Interconnect. EnterpriseTech. 2014-03-25 [2014-08-26]. (原始内容存档于2014-08-26).
Nvidia will be adopting the High Bandwidth Memory (HBM) variant of stacked DRAM that was developed by AMD and Hynix
- ^ 6.0 6.1 High Bandwidth Memory (HBM) DRAM (JESD235) (页面存档备份,存于互联网档案馆), JEDEC, October 2013
- ^ 7.0 7.1 JESD235a: High Bandwidth Memory 2. 2016-01-12 [2017-06-04]. (原始内容存档于2019-06-07).
- ^ HBM: Memory Solution for Bandwidth-Hungry Processors 互联网档案馆的存档,存档日期2015-04-24., Joonyoung Kim and Younsu Kim, SK Hynix // Hot Chips 26, August 2014
- ^ Sohn et.al. (Samsung). A 1.2 V 20 nm 307 GB/s HBM DRAM With At-Speed Wafer-Level IO Test Scheme and Adaptive Refresh Considering Temperature Distribution. IEEE Journal of Solid-State Circuits. January 2017, 52 (1): 250–260. Bibcode:2017IJSSC..52..250S. S2CID 207783774. doi:10.1109/JSSC.2016.2602221.
- ^ What's Next for High Bandwidth Memory. 17 December 2019.
- ^ Interposers.
- ^ Where Are DRAM Interfaces Headed? 互联网档案馆的存档,存档日期2018-06-15. // EETimes, 4/18/2014 "The Hybrid Memory Cube (HMC) and a competing technology called High-Bandwidth Memory (HBM) are aimed at computing and networking applications. These approaches stack multiple DRAM chips atop a logic chip."
- ^ Where Are DRAM Interfaces Headed? (页面存档备份,存于互联网档案馆) // EETimes, 4/18/2014 "The Hybrid Memory Cube (HMC) and a competing technology called High-Bandwidth Memory (HBM) are aimed at computing and networking applications. These approaches stack multiple DRAM chips atop a logic chip."
- ^ Highlights of the HighBandwidth Memory (HBM) Standard (页面存档备份,存于互联网档案馆). Mike O’Connor, Sr. Research Scientist, NVidia // The Memory Forum – June 14, 2014
- ^ Smith, Ryan. AMD Dives Deep On High Bandwidth Memory – What Will HBM Bring to AMD?. Anandtech. 2015-05-19 [2017-05-12]. (原始内容存档于2017-05-05).
- ^ High-Bandwidth Memory (HBM) (PDF). AMD. 2015-01-01 [2016-08-10]. (原始内容存档 (PDF)于2019-03-18).
- ^ Valich, Theo. NVIDIA Unveils Pascal GPU: 16GB of memory, 1TB/s Bandwidth. VR World. [2016-01-24]. (原始内容存档于2019-07-14).
- ^ Samsung Begins Mass Producing World’s Fastest DRAM – Based on Newest High Bandwidth Memory (HBM) Interface. news.samsung.com. [2019-07-08]. (原始内容存档于2019-06-21).
- ^ Samsung announces mass production of next-generation HBM2 memory – ExtremeTech. 2016-01-19 [2019-07-08]. (原始内容存档于2019-07-14).
- ^ Shilov, Anton. SK Hynix Adds HBM2 to Catalog. Anandtech. 2016-08-01 [2016-08-01]. (原始内容存档于2016-08-02).
- ^ JEDEC Updates Groundbreaking High Bandwidth Memory (HBM) Standard (新闻稿). JEDEC. 2018-12-17 [2018-12-18]. (原始内容存档于2018-12-18).
- ^ Samsung Electronics Introduces New High Bandwidth Memory Technology Tailored to Data Centers, Graphic Applications, and AI | Samsung Semiconductor Global Website. www.samsung.com. [2019-08-22] (英语).
- ^ SK Hynix Develops World's Fastest High Bandwidth Memory, HBM2E. www.skhynix.com. August 12, 2019 [2019-08-22].
- ^ SK Hynix Announces its HBM2E Memory Products, 460 GB/S and 16GB per Stack.
- ^ SK hynix Starts Mass-Production of High-Speed DRAM, "HBM2E". 2 July 2020.
- ^ Walton, Mark. HBM3: Cheaper, up to 64GB on-package, and terabytes-per-second bandwidth. Ars Technica. 2016-08-23 [2017-02-03]. (原始内容存档于2017-02-02).
- ^ Ferriera, Bruno. HBM3 and GDDR6 emerge fresh from the oven of Hot Chips. Tech Report. 2016-08-23 [2017-02-03]. (原始内容存档于2017-02-04).
- ^ 存档副本. [2019-07-08]. (原始内容存档于2019-04-01).
- ^ [1] (页面存档备份,存于互联网档案馆) High-Bandwidth Memory (HBM) from AMD: Making Beautiful Memory
- ^ Smith, Ryan. AMD HBM Deep Dive. Anandtech. 2015-05-19 [2016-08-01]. (原始内容存档于2016-08-11).
- ^ [2] (页面存档备份,存于互联网档案馆) AMD Ushers in a New Era of PC Gaming including World’s First Graphics Family with Revolutionary HBM Technology
- ^ Smith, Ryan. Nvidia announces Tesla P100 Accelerator. Anandtech. 2016-04-05 [2016-08-01]. (原始内容存档于2016-07-30).
- ^ NVIDIA Tesla P100: The Most Advanced Data Center GPU Ever Built. www.nvidia.com. [2019-07-08]. (原始内容存档于2018-05-13).
- ^ Smith, Ryan. Hot Chips 2016: Memory Vendors Discuss Ideas for Future Memory Tech – DDR5, Cheap HBM & More. Anandtech. 2016-08-23 [2016-08-23]. (原始内容存档于2016-08-24).
- ^ Walton, Mark. HBM3: Cheaper, up to 64GB on-package, and terabytes-per-second bandwidth. Ars Technica. 2016-08-23 [2016-08-23]. (原始内容存档于2016-08-23).
外部链接
编辑- High Bandwidth Memory (HBM) DRAM (JESD235) (页面存档备份,存于互联网档案馆), JEDEC, October 2013
- Lee, Dong Uk; Kim, Kyung Whan; Kim, Kwan Weon; Kim, Hongjung; Kim, Ju Young; et al. A 1.2V 8Gb 8‑channel 128GB/s high-bandwidth memory (HBM) stacked DRAM with effective microbump I/O test methods using 29nm process and TSV. 2014 IEEE International Solid-State Circuits Conference – Digest of Technical Papers (IEEE). 9–13 Feb 2014: 432–433 (6 March 2014) [2019-04-13]. doi:10.1109/ISSCC.2014.6757501.
- HBM vs HBM2 vs GDDR5 vs GDDR5X Memory Comparison (页面存档备份,存于互联网档案馆)