Web LLM：使用WebGPU将语言模型聊天带到 Web 浏览器|WebGPU：在 Web 浏览器上启用高性能 AI 模型

Web LLM：使用WebGPU将语言模型聊天带到 Web 浏览器

2023-04-27 探索未来

Web LLM：使用WebGPU将语言模型聊天带到 Web 浏览器

WebGPU：在 Web 浏览器上启用高性能 AI 模型

Chrome 团队最近宣布在 Chrome 113 中提供 WebGPU 的可用性，这标志着将Web作为高性能图形和数据并行计算平台的发展迈出了重要的一步。WebGPU是一种新的Web图形API，它公开了现代硬件的功能，允许在GPU上进行渲染和计算操作，类似于Direct3D 12、Metal和Vulkan。

在一个大型语言模型正席卷互联网的时代，一项开创性的项目—— Web LLM 出现了，将彻底改变我们与 AI 助手互动的方式。通过将大型语言模型聊天直接带到 Web 浏览器中，Web LLM 使用户不再依赖服务器支持，提供了一种无与伦比的体验，同时保护隐私，并利用 GPU 加速的强大性能。

Web LLM利用开源生态系统，借鉴TVM Unity项目的经验，该项目使得机器学习编译（MLC）能够在Python中进行。它将语言模型的IRModule在TVM中编译，并支持本地动态形状，避免了对最大长度进行填充的需要，从而减少了计算量和内存使用。

Web LLM利用WebGPU可以利用现代硬件的能力，直接在Web浏览器中实现高性能AI模型。Web LLM使用TensorIR生成优化程序、启发式优化轻量级操作符和int4量化技术来压缩模型权重，所有这些都有助于有效地利用硬件资源。

WebGPU已经获得了许多广泛使用的WebGL库的支持，例如 Babylon.js、PlayCanvas、TensorFlow.js 和 Three.js，其他库也正在实现对WebGPU的支持。这意味着只需要在代码中进行一行更改即可使用WebGPU。

Web LLM是一个令人兴奋的新项目，将语言模型聊天直接带到Web浏览器中，为每个人提供AI助手，并在享受GPU加速的同时保护隐私。该项目利用WebGPU在浏览器内加速所有内容，使得可以轻松地构建个人使用的AI助手，无需服务器。

WEB LLM 演示网页

这个项目建立在开源生态系统的基础上，包括 Hugging Face、LLaMA 和 Vicuna 的模型变体、wasm 和 WebGPU。主要流程建立在 Apache TVM Unity 上，这是 Apache TVM 社区正在进行的开发，可以在 TVM 中使用 IRModule 原生支持动态形状。

Web LLM 是一个令人兴奋的项目，可以将语言模型聊天直接带到 Web 浏览器上，提供隐私和性能优势。它建立在开放源代码生态系统之上，大量使用了 TVM Unity，利用 WebGPU 在浏览器内加速所有操作。开发人员可以尝试使用演示网页来探索这项新技术，并构建用于个人使用的 AI 助手。