Web LLM:使用WebGPU将语言模型聊天带到 Web 浏览器

Web LLM:使用WebGPU将语言模型聊天带到 Web 浏览器

WebGPU:在 Web 浏览器上启用高性能 AI 模型

Chrome 团队最近宣布在 Chrome 113 中提供 WebGPU 的可用性,这标志着将Web作为高性能图形和数据并行计算平台的发展迈出了重要的一步。WebGPU是一种新的Web图形API,它公开了现代硬件的功能,允许在GPU上进行渲染和计算操作,类似于Direct3D 12、Metal和Vulkan。

在一个大型语言模型正席卷互联网的时代,一项开创性的项目—— Web LLM 出现了,将彻底改变我们与 AI 助手互动的方式。通过将大型语言模型聊天直接带到 Web 浏览器中,Web LLM 使用户不再依赖服务器支持,提供了一种无与伦比的体验,同时保护隐私,并利用 GPU 加速的强大性能。

Web LLM利用开源生态系统,借鉴TVM Unity项目的经验,该项目使得机器学习编译(MLC)能够在Python中进行。它将语言模型的IRModule在TVM中编译,并支持本地动态形状,避免了对最大长度进行填充的需要,从而减少了计算量和内存使用。

Web LLM利用WebGPU可以利用现代硬件的能力,直接在Web浏览器中实现高性能AI模型。Web LLM使用TensorIR生成优化程序、启发式优化轻量级操作符和int4量化技术来压缩模型权重,所有这些都有助于有效地利用硬件资源。

WebGPU已经获得了许多广泛使用的WebGL库的支持,例如 Babylon.jsPlayCanvasTensorFlow.jsThree.js,其他库也正在实现对WebGPU的支持。这意味着只需要在代码中进行一行更改即可使用WebGPU。

Web LLM是一个令人兴奋的新项目,将语言模型聊天直接带到Web浏览器中,为每个人提供AI助手,并在享受GPU加速的同时保护隐私。该项目利用WebGPU在浏览器内加速所有内容,使得可以轻松地构建个人使用的AI助手,无需服务器。

WEB LLM 演示网页

这个项目建立在开源生态系统的基础上,包括 Hugging Face、LLaMA 和 Vicuna 的模型变体、wasm 和 WebGPU。主要流程建立在 Apache TVM Unity 上,这是 Apache TVM 社区正在进行的开发,可以在 TVM 中使用 IRModule 原生支持动态形状。

Web LLM 是一个令人兴奋的项目,可以将语言模型聊天直接带到 Web 浏览器上,提供隐私和性能优势。它建立在开放源代码生态系统之上,大量使用了 TVM Unity,利用 WebGPU 在浏览器内加速所有操作。开发人员可以尝试使用演示网页来探索这项新技术,并构建用于个人使用的 AI 助手。