CapsWriter 的离线版保姆级本地部署教程

CapsWriter离线版是一个很好用的 PC 端语音转文字工具，完全可以实现公司内部保密会议，通话转写需求。实测普通话实时转写非常精准。音视频效果也很好，即使是视频中含有嘈杂的背景音乐也能精准识别（参照测试视频）。

软件主要有两个功能：

按下键盘上的 大写锁定键，录音开始，当松开 大写锁定键 时，就会识别你的录音，并将识别结果立刻输入
将音视频文件拖动到客户端打开，即可转录生成 srt 字幕

使用前提：

电脑拥有大于等于4G的内存(小了想都别想)
电脑安装了解压缩软件，VScode，Markdown阅读器
电脑接入了电源（笔记本不插电会卡……）
可能需要霍格沃兹环境。
使用开源软件请遵守开源协议。

附件表

点击即可直接下载，GitHub请使用GitHub国内加速

文件名	网站类型	霍格沃兹	文件大小	适用客户端
Bandzip	官网	不需要	10.86MB	Windows
VScode	官网	不需要	98.61MB	Windows
Markdown阅读器(中文汉化版)	Github	需要	124.23MB	Windows
CapsWriter-Offline-Windows-32bit-Client	Github	需要	43.5MB	Windows
CapsWriter-Offline-Windows-64bit	Github	需要	73.4MB	Windows
models	Github	需要	1.1GB	Windows
Microsoft Visual C++ Redistributable 运行库	官网	不需要	24.4MB	Windows

1. 下载软件

打开作者的Github发布页，或者从附件表下载
找到如下图三个文件
选择你电脑合适的软件包，我们分两种情况来说（长话短说，Windows7下载第一个，Windows10选第二个，第三个都要下载）
- Windows7或者32位系统，不能使用服务端，需要配合局域网内的服务端使用（后面讲）。
- Windows10或64位以上系统可以同时运行服务端和客户端，可以给局域网内的设备接入服务端。

2. 解压文件

1. 解压软件本体

这是我下载下来的两个文件

2024-12-02T12:20:44.png

鼠标放在文件名称CapsWriter-Offline-Windows-64bit.zip上(Windows7同理)，右键选择你要解压到哪里

2024-12-02T12:25:41.png

这里我以解压到桌面为例

2024-12-02T12:27:21.png

等待解压完成

2024-12-02T12:28:02.png

在桌面找到刚才解压的文件夹

2024-12-02T12:32:29.png

打开以后会看到这样的文件夹（取决于你的解压软件），如果只有有个文件夹，请打开它

2024-12-02T12:33:53.png

进去以后看到这样的文件就可以了

2024-12-02T12:34:46.png

注意：windows7或者32位软件包只有客户端，文件会少一点，你不要担心。

2. 解压语音转文字大模型

只有Windows10用户需要考虑

找到刚才下载的两个压缩包，在文件名称models.zip上右键，选择解压到其他文件夹（其他压缩软件意思相近即可）
选择桌面文件夹下的CapsWriter-Offline-Windows-64bit，然后选中CapsWriter-Offline-Windows-64bit文件夹，单击确定

注意：一定要选中上图蓝色框里面的文件夹再确定

3. 配置模型

在桌面的文件夹CapsWriter-Offline-Windows-64bit里面找到models文件夹，打开以后你~~（可能）~~会看到这样的文件
把models文件夹删了，然后把models（2）改为models
打开models文件夹检查模型是否完整，如下图就可以了

4. 安装运行依赖（已经安装直接看第5步）

打开https://learn.microsoft.com/zh-cn/cpp/windows/latest-supported-vc-redist?view=msvc-170
下拉页面找到运行依赖软件包，单击选择合适你电脑的包（会自动下载）
下载完毕，找到它，双击打开，同意协议，单击安装

2024-12-02T13:19:39.png

5. 运行程序

1. Windows10或64位（以上）系统

在桌面找到文件夹CapsWriter-Offline-Windows-64bit并打开，如图
分别打开双击客户端start_client.exe和服务端start_server.exe
我们会得到两个黑窗口
- 客户端（字多那个）会提示使用默认音频设备：阵列麦克风 (AMD Audio Device)，声道数：2
- 服务端（字少那个）会提示模型加载中
等待程序就绪就可以开始玩耍啦！
两个窗口都不要关！！！客户端提示连接成功就可以了。

2024-12-02T13:29:01.png

转写测试
- 输入语音实时转文字请按下大写锁定键开始录音并实时转写，松开停止
识别结果记录在软件根目录 年份/月份/日期.md ，录音文件保存在 年份/月份/assets
- 音频和视频转文字直接把文件拖动到客户端（start_client.exe）上
- 测试视频【抽象带篮子】全网最高学历保安！都给我拷起来？_哔哩哔哩_bilibili.mp4
- 转换后，在原文件目录会得到到字幕文件，音频和视频都可以得到逐行或者一行转换的文本文档，逐行是大模型自己推断，一句话一行。

2. Windows7或32位系统

找到config.py,右键选择打开方式，找到记事本
修改客户端配置后面addr后面的127.0.0.1为局域网内的服务端IP地址，保存，然后重启客户端就可以了

QA：

什么是局域网？
- 主要是指在某一区域的计算机互联网络。“某一区域”指的是同一办公室、同一建筑物、同一公司和同一学校等，一般是方圆几千米以内。

为什么我配置了局域网IP也没有用？
- 检查你局域网内的防火墙是否是开启状态，请关闭你的防火墙或打开6016端口再试
- 你的网络管理员可能没有开放路由器的防火墙，可以联系你的管理员打开防火墙或者将电脑连接至通一WLAN
为什么下载不了？
- Github是Microsoft（微软）旗下的开放源代码共享平台，也是全球最大的开放源代码共享平台，服务器在国外。有条件的话，请使用霍格沃兹环境下载。
什么是霍格沃兹？
- 明知故问，叉出去！！！
Linux怎么用？
- 下载（克隆）源码，把模型文件放在models文件夹，回到根目录使用管理员（或者sudo）运行run.sh
MAC OS怎么用？
- 和第5个问题一样，实在不行……你给我买，我舅教你😅
为什么转换效果很差？
- 只能说明你的设备性能不适合运行这个软件，这个软件是依赖本地大模型运行的，很吃配置，考虑换台电脑吧。
- 为了证实这一点，我开了一台4G4核4线程的Windows10 64位虚拟机，CPU是R7-5800，显卡是RTX3060 LapTop，12分钟的4K视频一共用时398秒，期间完全卡死，系统设置都打不开。我本机是16G8核16线程的Windows10 64位主机，CPU是R7-5800，显卡是RTX3060 LapTop，12分钟的4K视频一共耗时21秒，CPU主频跑到3.9Ghz，CPU占用约增加60%，内存占用约增加30%。所以，对CPU和内存要求可能比较高，轻薄本或者内存比较小的能跑，也只是能跑。时间相差18倍，这不是开玩笑的。