在 CPU 上运行 AI 的案例还没有结束 GPU 可能占主导地位，但 CPU 可能非常适合较小的 AI 模型

LLM 压缩的进步极大地提高了它们在 x86 处理器上的性能。英特尔

是时候让不起眼的 CPU 再次攻克 AI 了。这是一小群 AI 研究人员得出的结论，但他们的声音越来越大。人工智能公司Hugging Face的首席布道者Julien Simon最近通过英特尔的Q8-GPT展示了CPU 尚未开发的潜力，这是一种大型语言模型 (LLM)，能够在具有 32 个内核的单个英特尔至强处理器上运行。该演示提供了一个类似于OpenAI 的 GPT的聊天界面，并以惊人的速度响应查询（根据个人经验）让GPT吃尽苦头。

AI 开发中 GPU 的使用如此普遍，以至于很难想象另一种结果，但这并非不可避免。几个特定事件帮助 GPU 硬件战胜了 CPU，并且在许多情况下战胜了专用 AI 加速器。

“解锁 GPU 的大规模并行架构来训练深度神经网络是使深度学习成为可能的关键因素之一，”西蒙说。“然后 GPU 迅速集成到TensorFlow和PyTorch等开源框架中，使它们易于使用，而无需编写复杂的低级 CUDA 代码。”

计算统一设备架构(CUDA) 是 Nvidia 在 2007 年推出的应用程序编程接口 (API)，作为其挑战 CPU 主导地位计划的一部分。它在 2010 年代中期建立，为 TensorFlow 和 PyTorch 提供了一条清晰的途径来利用Nvidia硬件的力量。Hugging Face 作为 AI 社区的中心枢纽（除其他外）提供与 TensorFlow 和 PyTorch 兼容的开源 Transformers 库，也在 CUDA 的发展中发挥了作用。

Nvidia 的 A100 是 AI 的强大工具，但高需求使得硬件难以获得。英伟达

然而，西蒙认为“垄断从来都不是一件好事”。GPU 的主导地位可能会加剧供应链问题并导致成本上升，英伟达2023 年第一季度财务业绩的井喷凸显了这种可能性，在人工智能需求的推动下，收益增长了 28%。“在 AWS 或 Azure 上获得 [Nvidia] A100 几乎是不可能的。那么，然后呢?西蒙问。“出于所有这些原因，我们需要一个替代方案，如果您愿意做功课并使用适当的工具，英特尔CPU 在许多推理场景中都能很好地工作。”

CPU 的无处不在为 GPU 的主导地位提供了一个变通办法。PC 组件市场研究公司Mercury Research最近的一份报告发现，仅 2022 年一年，x86 处理器的出货量就达到了 3.74 亿个。ARM 处理器更为常见，到 2022 年第三季度，芯片出货量超过 2500 亿颗。

AI 开发人员在很大程度上忽略了这一未开发潜力池，他们认为 CPU 相对缺乏并行处理能力将不适合深度学习，因为深度学习通常依赖于并行执行的大量矩阵乘法。在 OpenAI 的GPT-3（1750 亿个参数）和 DeepMind 的Chinchilla（700 亿个参数）等模型的成功推动下，AI 模型规模的快速增长加剧了这个问题。

ThirdAI的首席执行官兼创始人Shrivastava Anshumali说:“对于模型和数据集的大小，即使有共同进化的软件和硬件生态系统，我们正处于基本的密集矩阵乘法变得令人望而却步的地步。”

AI 开发中 GPU 的使用如此普遍，以至于很难想象另一种结果，但这并非不可避免。

它不一定是那样的。ThirdAI 的研究发现，现有 LLM 中“超过 99%”的操作返回零。ThirdAI 部署了一种哈希技术来减少这些不必要的操作。“基于散列的算法消除了在无关紧要的零上浪费任何周期和能量的需要，”Anshumali 说。

他的公司最近通过 Pocket-LLM 展示了其技术的潜力， Pocket-LLM 是一款适用于 Windows 和 Mac 的人工智能辅助文档管理应用程序，可以在大多数现代笔记本电脑的 CPU 上轻松运行。ThirdAI 还提供Bolt Engine，这是一种用于在消费级 CPU 上训练深度学习模型的 Python API。

Hugging Face 的 Q8-Chat 采取了不同的策略，通过一种称为量化的模型压缩技术实现了其结果，该技术将 16 位浮点参数替换为 8 位整数。这些不太精确但更容易执行并且需要更少的内存。英特尔使用了一种特定的量化技术SmoothQuant，将 Meta 的LLaMA和 OPT等几种常见 LLM 的大小减少了一半。公开的 Q8-GPT演示基于MPT-7B，这是来自 MosaicML 的开源 LLM，具有 70 亿个参数。

英特尔继续为其即将推出的Sapphire Rapids 处理器开发 AI 优化，这些处理器用于 Q8-Chat 演示。该公司最近为 Sapphire Rapids 提交的 MLPerf 3.0 结果显示，该处理器在离线场景下的推理性能提升是上一代 Ice Lake 的五倍以上。同样，服务器场景的性能提升也是Ice Lake的十倍。与之前提交的 Sapphire Rapids 相比，英特尔还展示了高达 40% 的改进，这是通过软件和“特定于工作负载的优化”实现的提升。

这并不是说 CPU 现在将在所有 AI 任务中取代 GPU。Simon 认为“总的来说，较小的 LLM 总是更可取”，但他承认“没有一种瑞士军刀模型适用于所有用例和所有行业。” 尽管如此，该阶段看起来仍会增加 CPU 相关性。Anshumali 特别看好这种潜在的转机，认为需要经过调整以处理特定任务的小型“领域专业 LLM”。Simon 和 Anshumali 都表示，这些较小的 LLM 不仅效率高，而且在隐私、信任和安全方面也有好处，因为它们消除了依赖第三方控制的大型通用模型的需要。

Anshumali 说:“我们正在构建能力，将 CPU 的每个核心都发挥出来，为大众提供更好的 AI。” “我们可以用 CPU 使人工智能民主化。”