电子:端侧大模型近存计算,定制化存储研究框架
投资要点
大模型赋能端侧AI。 在人工智能的飞速发展中, 大型语言模型(LLMs) 以其在自然语言处理(NLP) 领域的革命性突破,引领着技术进步的新浪潮。 自2017年Transformer架构的诞生以来, OpenAI的GPT系列到Meta的LLaMA系列等一系列模型崛起。 这些模型传统上主要部署在云端服务器上, 这种做法虽然保证了强大的计算力支持, 却也带来了一系列挑战:网络延迟、 数据安全、 持续的联网要求等。 这些问题在一定程度上限制了LLMs的广泛应用和用户的即时体验。 正因如此, 将LLMs部署在端侧设备上的探索应运而生, 不仅能够提供更快的响应速度, 还能在保护用户隐私的同时, 实现个性化的用户体验。 端侧AI市场的全球规模正以惊人的速度增长, 预计从2022年的152亿美元增长到2032年的1436亿美元, 这一近十倍的增长不仅反映了市场对边缘AI解决方案的迫切需求, 也预示着在制造、 汽车、 消费品等多个行业中, 端侧AI技术将发挥越来越重要的作用。
存算一体技术的成熟为端侧AI大模型的商业化落地提供了技术基础。 作为一种新的计算架构, 存算一体的核心是将存储与计算完全融合, 存储器中叠加计算能力, 以新的高效运算架构进行二维和三维矩阵计算, 结合后摩尔时代先进封装、 新型存储器件等技术, 能有效克服冯·诺依曼架构瓶颈, 实现计算能效的数量级提升。 存算一体可分为近存计算(PNM)、 存内处理(PIM)以及存内计算(CIM)。 1) 近存计算通过将计算单元靠近内存单元, 减少数据传输路径, 提升访存带宽和效率, 适合需要大规模并行处理和优化内存带宽的应用; 2) 存内处理将计算单元嵌入存储芯片中, 使存储器本身具备一定的计算能力,适合数据密集型任务, 能够显著提升数据处理效率和能效比; 3) 存内计算将存储单元和计算单元深度融合, 使存储单元直接参与数据处理, 适合高并行性计算和定制化硬件优化, 能够消除数据访存延迟;在端侧AI大模型的商业化落地中, 选择哪种技术取决于具体的应用需求和性能优化目标。
NPU赋能端侧大模型。 智能手机SoC自多年前就开始利用NPU(神经网络处理器)改善日常用户体验, 赋能出色影像和音频,以及增强的连接和安全。 不同之处在于, 生成式AI用例需求在有着多样化要求和计算需求的垂直领域不断增加, 这些AI用例面临两大共同的关键挑战: 1) 在功耗和散热受限的终端上使用通用CPU和GPU服务平台的不同需求, 难以满足这些AI用例严苛且多样化的计算需求; 2) 这些AI用例在不断演进, 在功能完全固定的硬件上部署这些用例不切实际。 因此, 支持处理多样性的异构计算架构能够发挥每个处理器的优势, 例如以AI为中心定制设计的NPU, 以及CPU和GPU。 CPU擅长顺序控制和即时性, GPU适合并行数据流处理, NPU擅长标量、 向量和张量数学运算, 可用于核心AI工作负载。 NPU降低部分易编程性以实现更高的峰值性能、 能效和面积效率, 从而运行机器学习所需的大量乘法、 加法和其他运算。 通过使用合适的处理器, 异构计算能够实现最佳应用性能、 能效和电池续航, 赋能全新增强的生成式 AI 体验。
异构计算架构的实现需要先进封装技术的支持。 异构计算架构通过将不同功能的芯片(如CPU、 GPU、 FPGA、 DSP等) 或不同制程工艺的芯片集成在一起, 实现高性能、 高能效和多功能的计算系统, 这种架构的实现需要先进的封装技术来支持。先进封装技术旨在通过创新的封装架构和工艺, 提升芯片性能、 降低功耗、 减小尺寸, 并优化成本。 后文参考SiP与先进封装技术, 将先进封装分为两大类梳理: ①基于XY平面延伸的先进封装技术, 主要通过RDL进行信号的延伸和互连; ②基于Z轴延伸的先进封装技术, 主要是通过TSV进行信号延伸和互连。
CUBE技术助力变革边缘AI计算。华邦电子开发的创新型CUBE(CustomizedUltraBandwidthElement,定制化超高带宽元件)技术,作为客制化的高宽带存储芯片3DTSVDRAM,专门为边缘AI运算装置所设计的存储架构,利用3D堆叠技术并结合异质键合技术以提供高带宽、低功耗、单颗256Mb至8Gb的存储芯片,并且可供模组制造商和SoC厂商直接部署。
CUBE架构:CUBE是将SoC die置上(散热较好),DRAM die置下,可以省去SoC中的TSV工艺,进而降低了SoC die的尺寸与成本。同时,3DDRAMTSV工艺可以将SoC信号引至外部,使它们成为同一颗芯片,进一步缩减了封装尺寸。
CUBE制造:由联电推动,联电负责CMOS晶圆制造和晶圆对晶圆混合封装技术,华邦电导入客制化CUBE架构,智原提供全面的3D先进封装一站式服务,以及存储IP和ASIC小芯片设计服务,日月光则提供晶圆切割、封装和测试服务,另外还有Cadence负责晶圆对晶圆设计流程,提取TSV特性和签核认证。
CUBE容量及主要特性:
1)基于D20工艺(20nm)的CUBE可以设计为1-8Gb/die容量,基于D16工艺的为16Gb/die容量。非TSV和TSV堆叠均可用,这为各种应用提供了优化内存带宽的灵活性。
2)CUBE具有出色的能效,在D20工艺中功耗低于1pJ/bit。
3)CUBE的IO速度于1KI/O可高达2Gbps,提供从16GB/s至256GB/s的总带宽。通过这种方式,CUBE能够确保带来高于行业标准的性能提升,并通过uBump或混合键合增强电源和信号完整性。
4)基于D20标准的1-8Gb/die产品,以及灵活的设计和3D堆叠选择,使得CUBE能够适应更小的外形尺寸。TSV的引入也进一步提高了性能,改善了信号完整性、电源完整性和散热性能。TSV技术以及uBump/混合键合可降低功耗并节省SoC设计面积,从而实现高效且极具成本效益的解决方案。利用TSV实现高效的3D堆叠,简化了与先进封装技术的集成难度。通过减小芯片尺寸,CUBE能以更短的电源路径以及更紧凑、更轻巧的设计来降低器件成本、提高能效。
建议关注:
存储:兆易创新
数字:瑞芯微,寒武纪,国科微,北京君正,全志科技,炬芯科技
IP:芯原股份
封装:长电科技,通富微电,华天科技,甬矽电子,晶方科技
风险提示:AI端侧发展不及预期风险。
本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。