软件工程视角下的 GenAI
约 2127 字大约 7 分钟
2025-06-07
自革命性的 ChatGPT 诞生以来,大模型(Large Language Model,LLM)以前所未有的速度飞速发展。各大厂纷纷下场布局,小厂也频有惊艳出品。最典型的是幻方量化出品的 DeepSeek,2024 年 12 月 26 日 DeepSeek-V3 开源发布[2],正式拉开了顶级模型开源的序幕,也向世界证明了中国的创新之力。
各厂商如同军备竞赛一般,每隔数月,就会有新的模型发布,每次发布必定瞄准榜单第一。在各厂商的“互卷”之下,模型的性能愈发强悍,而使用成本却越来越低,最大受益者成为广泛的 GenAI 用户。
近年来,GenAI 应用海量涌现[3],以 ChatGPT 为代表的通用 AI 助手能够轻松应对各类内容生成任务;以 Perplexity 为代表的 AI 搜索引擎能够让搜索效率提升数倍;以 Cursor 为代表的 AI 辅助编程应用能够让不懂写代码的人也能开发应用,等等。
这些革命性的 GenAI 应用的背后不只有 LLM,而是底层硬件到上层应用的一整个 GenAI 技术栈。如今,GenAI 与云计算结合已经是一种必然的趋势,本文档所介绍的 GenAI 技术栈将会以云原生技术栈为基础,整体如下图 1. GenAI Stack 所示:
硬件层
硬件是一切的基础,图 1 中列举了与 AI 计算强相关的几类主流芯片。
CPU(Central Processing Unit)是面向通用场景的计算芯片,是冯·诺依曼计算机架构下的核心单元,能够处理复杂负载,可以轻松应对“小量复杂任务”。然而,LLM 的训练和推理主要涉及大量的矩阵运算,属于“大量简单任务”的负载特征,这使得 CPU 在模型训推上显得很吃力。所以,CPU 通常会协同其他 AI 加速芯片一起为训推业务提供算力,CPU 在其中主要用作任务调度或执行一些计算强度较低的算子。随着 CPU 算力的提升,以及 Intel AMX[4] 此类面向矩阵运算的高级指令集出现,CPU 也慢慢被用于中小参数模型的推理[5]。相比其他 AI 加速芯片,CPU 在 LLM 推理场景具备大内存容量、低起建成本优势,对中小型企业非常友好。
GPU(Graphics Processing Unit)是如今最火的 AI 加速芯片,最初由英伟达(NVIDIA)推出。NVIDIA GPU 凭借其强悍的计算性能和完善的 CUDA 生态,在 AI 加速芯片市场上占据高达 89% 的份额[6]。从 GPU 的全称图形处理单元可看出,它最初被专门用于计算机图像渲染,后因其强大的并行计算能力天然适配 AI 负载的“大量简单任务”的负载特征,被广泛应用于深度学习训练,在大模型时代更是供不应求。与 CPU 相比,GPU 等 AI 加速芯片具备更强的算力和更大的显存(类比 CPU 中的内存)带宽,但显存容量却少了很多,导致大参数规模的模型必须由多卡协同部署,这又带来了新的通信消耗。如何把每张卡充分利用起来成为提升系统性能的关键。
NPU(Neural Processing Unit)是为专门为神经网络计算负载设计的一类场景定制化芯片,对矩阵乘法、卷积等神经网络常见的操作做了深度优化,在 LLM 的训推业务上有显著的加速效果。NPU 通常可以分成两类,一类是专门为云端负载设计,追求更高的性能,比如 Google 的 TPU[7]、华为的昇腾 NPU[8];一类是专门为终端负载设计,追求更低的功耗,比如高通 NPU[9]、集成在苹果 M 系列芯片里的 Neural Engine[10]。NPU 在并行计算灵活性上不如 GPU,但能效比更高,在大规模包括 LLM 在内的机器学习任务上具有一定的成本优势。
IaaS 层
IaaS(Infrastructure as a Service)是云计算的基础设施层,提供计算、存储、网络资源的虚拟化能力。GenAI 的快速发展,涌现了大量的模型训练、实时推理、多模态数据处理等业务,为 IaaS 层带来了显著的变革。
最明显的是,过去以 CPU 为中心的计算架构,演变为 CPU 与 GPU/NPU 协同、以 GPU/NPU 为中心的架构。这意味着数据不再需要经过 CPU 即可流转至 GPU/NPU,从而提升了 GPU/NPU 的计算效率。另外,云厂商也纷纷推出 GPU/NPU 云服务器[11][12]、大模型推理一体机[13][14],为 AI 业务负载提供更强的算力底座。
传统的 TCP/IP 网络受数据拷贝开销大、协议栈处理繁琐等限制,已无法满足 AI 训推业务的高带宽、低时延的通信诉求。以 RDMA 为代表的新一代网络技术正成为 AI 时代网络的标配,它们通过零拷贝、内核旁路等技术,显著提升通信性能。但优化远不止如此,以 NVIDA 为例,NVIDIA 推出了 GPUDirect RDMA[15] 允许 GPU 跨节点直连的。针对 RMDA 底层硬件协议 PCIe 带宽不足的问题,推出带宽是 PCIe 14倍的 NVLink[16] 协议。各类厂商对网络的优化,为的就是不断减少 AI 负载的通信消耗,进一步榨干芯片的性能。
GenAI 也促使了存储的变革。SSD 替代传统 HDD 正成为主流,提供更高的读写带宽。海量的数据使大模型变得智能,如何高效、低成本地管理它们变得愈发关键,冷温热数据分层存储、数据智能下沉/预取逐渐成为存储解决方案的必备能力[17][18]。随着多模态大模型的迅速发展,大量非结构化多模态数据(PDF、图片、音频、视频等)的价值被重新挖掘,对象存储凭借其高扩展性、低成本、高效的非结构化数据管理能力,成为 AI 时代必不可少的数据底座。一些专门针对 AI 负载优化的存储技术也更多地被推出,比如 DeepSeek 的 3FS 文件系统[19]针对模型训练大量随机读的特点做了无缓存的架构设计;NVIDIA 的 GPUDirect Storage[20]通过 DMA 技术允许 GPU 直接从远端存储加载到显存,避免了 CPU 和 GPU 之间的数据拷贝。
PaaS 层
PaaS(Platform as a Service)是云计算的平台层,提供灵活可伸缩的云平台来开发、部署、运行和管理应用。GenAI 的出现,一方面促使 PaaS 层往更加适配 AI 负载的方向演进,另一方面 PaaS 因与 AI 深度结合而变得更加智能和好用。
AI 辅助编程
Serverless
K8S 调度
数据库
大数据
参考
[1] Trends – Artificial Intelligence, Mary Meeker
[2] DeepSeek-V3 正式发布, DeepSeek
[3] The Top 100 Gen AI Consumer Apps - 4th Edition, a16z
[4] Intel® Advanced Matrix Extensions (Intel® AMX), Intel
[5] 阿里云弹性计算新升级:CPU上跑推理,模型起建成本降低50%, 36Kr
[6] 2025年AI芯片行业市场规模及主要企业市占率分析报告, 智研咨询
[7] TPU 架构, Google Cloud
[8] 昇腾计算, 华为 Ascend
[9] NPU是什么?为何它是开启终端侧生成式AI的关键?, 高通
[10] Apple 发布 M4 Pro 和 M4 Max 芯片, Apple
[11] 火山引擎 GPU 云服务器, 火山引擎
[12] GPU云服务器, 阿里云
[13] 火山引擎AI一体机, 火山引擎
[14] 阿里云百炼专属版 AI Stack 一体机, 阿里云
[15] NVIDIA GPUDirect, NVIDIA
[16] NVIDIA NVLink 和 NVLink 交换机, NVIDIA
[17] 火山引擎对象存储, 火山引擎
[18] 对象存储 OSS, 阿里云
[19] 3FS Github, DeepSeek
[20] GPUDirect Storage, NVIDIA