为了从人工智能热潮中获利,云服务提供商 Cloudflare 正在推出一系列新的产品和应用程序,旨在帮助客户在网络边缘构建、部署和运行人工智能模型。
Workers AI 是新产品之一,它允许客户访问由 Cloudflare 合作伙伴托管的物理上附近的 GPU,以按使用量付费的方式运行 AI 模型。另一个是 Vectorize,它提供了一个矢量数据库来存储由 Workers AI 模型生成的矢量嵌入(数据的数学表示)。第三个是人工智能网关,旨在提供指标,使客户能够更好地管理运行人工智能应用程序的成本。
Cloudflare 首席执行官 Matthew Prince 表示,推出新的以 AI 为中心的产品套件的动机是 Cloudflare 客户对更简单、更易于使用的 AI 管理解决方案的强烈渴望,该解决方案注重节省成本。
Prince 在接受 TechCrunch 电子邮件采访时表示:“市场上已有的产品仍然非常复杂——它们需要整合大量新供应商,而且价格很快就会变得昂贵。” “目前关于如何在人工智能上花钱的见解也很少;随着人工智能支出的飙升,可观察性是一个巨大的挑战。我们可以帮助开发人员简化所有这些方面。”
为此,Workers AI 试图确保人工智能推理始终发生在靠近用户(从地理角度来看)的 GPU 上,以提供低延迟、人工智能驱动的最终用户体验。利用 ONNX(微软支持的中间机器学习工具包,用于在不同人工智能框架之间进行转换),Workers AI 允许人工智能模型在带宽、延迟、连接、处理和本地化限制方面最有意义的处理过程中运行。
Workers AI 用户可以从目录中选择模型来开始使用,包括 Meta 的Llama 2等大型语言模型 (LLM) 、自动语音识别模型、图像分类器和情感分析模型。借助 Workers AI,数据将保留在其最初所在的服务器区域中。任何用于推理的数据(例如提供给法学硕士或图像生成模型的提示)都不会用于训练当前或未来的人工智能模型。
“理想情况下,推理应该在用户附近进行,以获得低延迟的用户体验。然而,设备并不总是具备执行法学硕士等大型模型所需的计算能力或电池电量,”Prince 说。与此同时,传统的集中式云在地理位置上往往距离最终用户太远。这些集中式云也大多位于美国,这使得世界各地不愿(或在法律上不能)将数据发送出本国的企业变得复杂。Cloudflare 提供了解决这两个问题的最佳场所。”
Workers AI 已经有了一个主要的供应商合作伙伴:人工智能初创公司 Hugging Face。Cloudflare 表示,Hugging Face 将优化生成式 AI 模型以在 Workers AI 上运行,而 Cloudflare 将成为第一个部署 Hugging Face 模型的无服务器 GPU 合作伙伴。
Databricks 是另一个。Databricks 表示,它将致力于通过 MLflow(用于管理机器学习工作流程的开源平台)和 Databricks 的软件市场将人工智能推理引入 Workers AI。Cloudflare 将作为积极贡献者加入 MLflow 项目,Databricks 将向积极在 Workers AI 平台上构建的开发人员推出 MLflow 功能。
Vectorize 针对的是不同的客户群:那些需要在数据库中存储 AI 模型的矢量嵌入的客户。向量嵌入是从搜索到人工智能助手等应用程序使用的机器学习算法的构建块,是更紧凑的训练数据的表示,同时保留了数据的有意义的内容。
Workers AI 中的模型可用于生成嵌入,然后将其存储在 Vectorize 中。或者,客户可以保留 OpenAI 和 Cohere 等供应商的第三方模型生成的嵌入。
现在,矢量数据库已经不是什么新鲜事了。像Pinecone这样的初创公司以及 AWS、Azure 和 Google Cloud 等公共云老牌企业也是如此。但 Prince 断言,Vectorize 受益于 Cloudflare 的全球网络,允许数据库查询发生在更靠近用户的地方,从而减少延迟和推理时间。
“作为一名开发人员,今天开始使用人工智能需要访问和管理大多数人无法访问的基础设施,”普林斯说。“我们可以帮助从一开始就提供更简单的体验......我们能够将这项技术添加到我们现有的网络中,使我们能够利用现有的基础设施并传递更好的性能和更好的成本。”
AI 套件的最后一个组件 AI Gateway 提供可观察性功能,以协助跟踪 AI 流量。例如,AI Gateway 密切关注模型推理请求的数量以及这些请求的持续时间、使用模型的用户数量以及运行 AI 应用程序的总体成本。
此外,AI Gateway 还提供了降低成本的功能,包括缓存和速率限制。通过缓存,客户可以缓存法学硕士对常见问题的响应,从而最大限度地减少(但可能不会完全消除)法学硕士生成新响应的需要。速率限制可以通过减少恶意行为者和大流量来更好地控制应用程序的扩展方式。
Prince 声称,凭借 AI Gateway,Cloudflare 是同等规模的少数几家让开发人员和公司只需为他们使用的计算付费的提供商之一。这并不完全正确——GPTCache 等第三方工具可以在其他提供商上复制 AI Gateway 的缓存功能,而包括 Vercel 在内的提供商将速率限制作为服务提供——但他也认为 Cloudflare 的方法比竞争对手的方法更加简化。
我们得看看情况是否如此。
Prince 表示:“目前,客户正在为大量未使用的虚拟机和 GPU 形式的闲置计算付费。” “我们看到了一个机会,可以抽象出当今与机器学习操作相关的大量繁琐工作和复杂性,并通过整体解决方案为开发人员的机器学习工作流程提供服务。”