微软在Windows 11集成中国开源大模型架构RWKV、装机量近5亿

OSC开源社区

2024-09-06

Editor's Note

RWKV 是一种具有 GPT 级大型语言模型（LLM）性能的 RNN，也可以像 GPT Transformer 一样直接训练（可并行化）。

RWKV 作为中国团队开源的首个非 Transformer 架构的大语言模型，目前已经迭代到第六代 RWKV-6。

The following article is from RWKV元始智能 Author Rocky Luo

2024 年 9 月，RWKV 社区成员发现：Office 系统在自动更新后（版本 2407 及以后）已自带 RWKV 运行库。

在 Windows 系统的 C:\Program Files\Microsoft Office\root\vfs\ProgramFilesCommonX64\Microsoft Shared\OFFICE16 目录，可以找到一系列 rwkv dll（动态链接库）文件。

RWKV dll in Windows

💡Tips
由于正版 Windows 大多预装了 Office 365，因此，全球大多数 Windows 10 和 11 机器现已搭载 RWKV，包括线下商店中售卖的 Windows 机器。这意味着 RWKV 的装机量可达几亿台。
RWKV 是真正的开源架构（目前在 Linux Foundation 旗下^[1]），遵循 Apache 2.0 协议，可用于商业，欢迎大家在各个项目使用。
RWKV 的最新架构为 RWKV-6，且 RWKV-7 即将公布。

从 dll 的文件属性，可以明确这是 RWKV 模型的加载器：

dll 文件属性

此外，微软提供的协议中也明确出现了 rwkv.cpp 的仓库地址：

带 rwkv.cpp 的许可证

随后，社区开发者对 dll 文件进行解析，发现 dll 中的函数确实是来自 rwkv.cpp 库^[2]中的 RWKV 模型相关函数：

dll 文件中的函数

该发现在多方社交媒体上引起了激烈的讨论：

<<< 左右滑动查看更多>>>

知乎上的讨论：https://www.zhihu.com/question/666097016^[3]

RWKV 在 Windows 系统中的角色

目前，微软方面未公布 RWKV 模型会用于 Windows 系统中的哪些功能。

尽管 RWKV 系列 dll 文件存放在 Microsoft Office 目录中，但它们其实是操作系统的一部分，而不仅限于 Microsoft Office 。

出于 RWKV 恒定的显存/内存占用、支持全球 100 多种语言、“能耗最低的模型”等特性，我们推测 RWKV 可能会用于以下 Windows 系统功能：

本地 copilot
作为 Windows 系统的本地记忆回调器

💡Tips
Local memory recall 是让操作系统记住你过去的操作或输入信息，在需要时再次使用这些记忆。

RWKV 的 llama.cpp 用法

随着 RWKV 社区成员 @MollySophia^[4] 的工作，llama.cpp 现已适配 RWKV-6 模型。

接下来，我们一起看看如何在 llama.cpp 中使用 RWKV-6 模型进行推理：

第一步：获取 gguf 格式模型

llama.cpp 支持 .gguf 格式的模型，但 RWKV 官方仅发布了 .pth 格式模型。因此，我们需要使用以下两种方法获取 gguf 格式的 RWKV 模型。

方法 1：从 HF 下载现成 gguf 模型（推荐）

可以从 https://huggingface.co/latestissue^[5] 下载已量化并转化成 gguf 格式的 RWKV 模型。

方法 2：从 HF 格式转换成 `.gguf` 格式

首先，从 RWKV 官方 HF 仓库^[6]下载一个 Hugging Face 格式的 RWKV 模型，如 RWKV/v6-Finch-1B6-HF

然后在 llama.cpp 目录运行此命令，将 Hugging Face 模型转成 gguf 格式：

python llama.cpp/convert_hf_to_gguf.py ./v6-Finch-1B6-HF

量化方法：（可选）

运行以下命令，对 .gguf 模型进行量化：

./build-cuda-rel/bin/llama-quantize v6-Finch-1B6-HF/v6-Finch-1.6B-HF-F16.gguf（量化前的 gguf 模型路径） ./v6-Finch-1B6-HF/v6-Finch-1.6B-HF-Q5_1.gguf（量化后的 gguf 模型路径） Q5_1（量化精度）

所有可选的量化精度：

可选的量化精度

建议使用以下两种量化精度： Q5_1、 Q8_0。

第二步：本地构建 llama.cpp

可以选择从 llama.cpp 的 release 页面^[7]下载已编译的 llama.cpp 程序。

也可以参照 llama.cpp 官方构建文档^[8]，选择适合的方法本地编译构建。

第三步：运行 RWKV 模型推理

在 llama.cpp 目录运行以下命令，可驱动 RWKV 模型基于 prompt 生成文本：

./build/bin/llama-cli -m ./v6-Finch-1B6-HF/v6-Finch-1.6B-HF-F16.gguf --no-warmup -p "User: Write me a poem\n\nAssistant:" -t 8 -ngl 25 -n 500

这条命令通过 llama-cli 运行 RWKV 模型，使用 8 个线程、跳过预热、并根据给定的 prompt 生成最多 500 个 token。

RWKV 模型推理

参数解释：

./build/bin/llama-cli：编译好的 llama-cli 程序，打开命令化界面
-m ./v6-Finch-1B6-HF/v6-Finch-1.6B-HF-F16.gguf：模型的路径参数
--no-warmup：跳过“预热”阶段，直接开始生成文本（以少量性能换取速度）
-p "User: Write me a poem\n\nAssistant:"：prompt 参数，模型根据该提示词生成文本。"User: Write me a poem\n\nAssistant:" 是符合 RWKV 模型格式的 prompt，更多 RWKV prompt 格式请在RWKV文档-提示词指南^[9]中查看。
-t 8：-t 指定线程数，建议根据可用的物理 CPU 核心数调整
- ngl：指定模型使用的 n-gpu-layers ，25 是在 GPU 上运行 25 层（1.6B 的 24层 + head 算一层）。可以无脑设定 -ngl 99，使 llama.cpp 加载 RWKV 模型所有层
-n 500：-n 参数表示生成的最大 token 数

💡Tips
完整的参数列表可以在 llama.cpp 参数文档^[10]中查看。

批量推理生成

使用以下命令，以进行批量推理：

💡Tips
使用 \n 隔开不同的 prompt

./build/bin/llama-parallel -ns 4 -np 4 -m v6-Finch-1B6-HF/v6-Finch-1.6B-HF-F16.gguf --no-warmup -ngl 25 -n 500 -p "Who are you?\nWhat do we have for dinner?\nWhat's the meaning of life\nHello\nWhat is the end of the universe?"

批量推理生成

参数解释：

-ns 4: n_sequence，推理序列的数量
-np 4: n_parallel，并行推理的数量

启动 Web 服务

使用以下命令，以启动 llama.cpp 的 Web 服务：

./build/bin/llama-server -m v6-Finch-1B6-HF/v6-Finch-1.6B-HF-F16.gguf --no-warmup -ngl 25

llama.cpp 的 Web 服务

启动后，可以访问 http://127.0.0.1:8080 以检查 Web 页面：

WebUI

chatUI

点击右上方的 New Ul按钮，或者直接访问 http://127.0.0.1:8080/index-new.html ，可以打开新版本的 WebUI：

新版本的 WebUI

新版本的 chatUI

加入 RWKV 社区

RWKV 中文文档：https://www.rwkv.cn
QQ 频道：https://pd.qq.com/s/9n21eravc
QQ 交流群：224287095

刚刚，我国DUV光刻机实现里程碑式突破！

微博遗存之六

性高潮到底什么感觉？真实记录多位女性的自述

贺雪峰：精准扶贫为何陷入形式主义？！

什么情况？这家券商被中证协"拉黑"

微软在Windows 11集成中国开源大模型架构RWKV、装机量近5亿

RWKV 在 Windows 系统中的角色

RWKV 的 llama.cpp 用法

第一步：获取 gguf 格式模型

方法 1：从 HF 下载现成 gguf 模型（推荐）

方法 2：从 HF 格式转换成 `.gguf` 格式

量化方法：（可选）

第二步：本地构建 llama.cpp

第三步：运行 RWKV 模型推理

批量推理生成

启动 Web 服务

加入 RWKV 社区

您可能也对以下帖子感兴趣

刚刚，我国DUV光刻机实现里程碑式突破！

微博遗存之六

性高潮到底什么感觉？真实记录多位女性的自述

贺雪峰：精准扶贫为何陷入形式主义？！

什么情况？这家券商被中证协"拉黑"

生成图片，分享到微信朋友圈

微软在Windows 11集成中国开源大模型架构RWKV、装机量近5亿

RWKV 在 Windows 系统中的角色

RWKV 的 llama.cpp 用法

第一步：获取 gguf 格式模型

方法 1：从 HF 下载现成 gguf 模型（推荐）

方法 2：从 HF 格式转换成 .gguf 格式

量化方法：（可选）

第二步：本地构建 llama.cpp

第三步：运行 RWKV 模型推理

批量推理生成

启动 Web 服务

加入 RWKV 社区

您可能也对以下帖子感兴趣

方法 2：从 HF 格式转换成 `.gguf` 格式