CapsWriter 的离线版保姆级本地部署教程

CapsWriter离线版是一个很好用的 PC 端语音转文字工具,完全可以实现公司内部保密会议,通话转写需求。实测普通话实时转写非常精准。音视频效果也很好,即使是视频中含有嘈杂的背景音乐也能精准识别(参照测试视频)。

软件主要有两个功能:

  1. 按下键盘上的 大写锁定键,录音开始,当松开 大写锁定键 时,就会识别你的录音,并将识别结果立刻输入
  2. 将音视频文件拖动到客户端打开,即可转录生成 srt 字幕

使用前提:

  1. 电脑拥有大于等于4G的内存(小了想都别想)
  2. 电脑安装了解压缩软件VScodeMarkdown阅读器
  3. 电脑接入了电源(笔记本不插电会卡……)
  4. 可能需要霍格沃兹环境。
  5. 使用开源软件请遵守开源协议。

附件表

点击即可直接下载,GitHub请使用GitHub国内加速

文件名网站类型霍格沃兹文件大小适用客户端
Bandzip官网不需要10.86MBWindows
VScode官网不需要98.61MBWindows
Markdown阅读器(中文汉化版)Github需要124.23MBWindows
CapsWriter-Offline-Windows-32bit-ClientGithub需要43.5MBWindows
CapsWriter-Offline-Windows-64bitGithub需要73.4MBWindows
modelsGithub需要1.1GBWindows
Microsoft Visual C++ Redistributable 运行库官网不需要24.4MBWindows

1. 下载软件

  1. 打开作者的Github发布页,或者从附件表下载
  2. 找到如下图三个文件
    2024-12-02T12:04:41.png
  3. 选择你电脑合适的软件包,我们分两种情况来说(长话短说,Windows7下载第一个Windows10选第二个,第三个都要下载)

    • Windows7或者32位系统,不能使用服务端,需要配合局域网内的服务端使用(后面讲)。
    • Windows10或64位以上系统可以同时运行服务端和客户端,可以给局域网内的设备接入服务端。

2. 解压文件

1. 解压软件本体

  1. 这是我下载下来的两个文件

2024-12-02T12:20:44.png

  1. 鼠标放在文件名称CapsWriter-Offline-Windows-64bit.zip上(Windows7同理),右键选择你要解压到哪里

2024-12-02T12:25:41.png

  1. 这里我以解压到桌面为例

2024-12-02T12:27:21.png

  1. 等待解压完成

2024-12-02T12:28:02.png

  1. 在桌面找到刚才解压的文件夹

2024-12-02T12:32:29.png

  1. 打开以后会看到这样的文件夹(取决于你的解压软件),如果只有有个文件夹,请打开它

2024-12-02T12:33:53.png

  1. 进去以后看到这样的文件就可以了

2024-12-02T12:34:46.png

注意:windows7或者32位软件包只有客户端,文件会少一点,你不要担心。

2. 解压语音转文字大模型

只有Windows10用户需要考虑

  1. 找到刚才下载的两个压缩包,在文件名称models.zip上右键,选择解压到其他文件夹(其他压缩软件意思相近即可)
    2024-12-02T12:45:04.png
  2. 选择桌面文件夹下的CapsWriter-Offline-Windows-64bit,然后选中CapsWriter-Offline-Windows-64bit文件夹,单击确定
    2024-12-02T13:02:51.png

注意:一定要选中上图蓝色框里面的文件夹再确定

3. 配置模型

  1. 在桌面的文件夹CapsWriter-Offline-Windows-64bit里面找到models文件夹,打开以后你(可能)会看到这样的文件
    2024-12-02T13:06:48.png
  2. models文件夹删了,然后把models(2)改为models
    2024-12-02T13:09:13.png
  3. 打开models文件夹检查模型是否完整,如下图就可以了
    2024-12-02T13:10:35.png

4. 安装运行依赖(已经安装直接看第5步)

  1. 打开https://learn.microsoft.com/zh-cn/cpp/windows/latest-supported-vc-redist?view=msvc-170
  2. 下拉页面找到运行依赖软件包,单击选择合适你电脑的包(会自动下载)
    2024-12-02T13:16:41.png
  3. 下载完毕,找到它,双击打开,同意协议,单击安装

2024-12-02T13:19:39.png

5. 运行程序

1. Windows10或64位(以上)系统

  1. 在桌面找到文件夹CapsWriter-Offline-Windows-64bit并打开,如图
    2024-12-02T13:22:14.png
  2. 分别打开双击客户端start_client.exe和服务端start_server.exe
    2024-12-02T13:24:10.png
  3. 我们会得到两个黑窗口

    • 客户端(字多那个)会提示使用默认音频设备:阵列麦克风 (AMD Audio Device),声道数:2

    2024-12-02T13:25:02.png

    • 服务端(字少那个)会提示模型加载中

    2024-12-02T13:27:24.png

  4. 等待程序就绪就可以开始玩耍啦!
    两个窗口都不要关!!!客户端提示连接成功就可以了。

2024-12-02T13:29:01.png

  1. 转写测试

    • 输入语音实时转文字请按下大写锁定键开始录音并实时转写,松开停止

    2024-12-02T13:31:59.png

  2. 识别结果记录在软件根目录 年份/月份/日期.md ,录音文件保存在 年份/月份/assets

    • 音频和视频转文字直接把文件拖动到客户端(start_client.exe)上

    2024-12-02T13:34:53.png
    2024-12-02T13:35:32.png

2. Windows7或32位系统

  1. 找到config.py,右键选择打开方式,找到记事本
    2024-12-02T14:20:23.png
  2. 修改客户端配置后面addr后面的127.0.0.1为局域网内的服务端IP地址,保存,然后重启客户端就可以了
    2024-12-02T14:24:15.png

QA:

  1. 什么是局域网?

    • 主要是指在某一区域的计算机互联网络。“某一区域”指的是同一办公室、同一建筑物、同一公司和同一学校等,一般是方圆几千米以内。
  1. 为什么我配置了局域网IP也没有用?

    • 检查你局域网内的防火墙是否是开启状态,请关闭你的防火墙或打开6016端口再试
    • 你的网络管理员可能没有开放路由器的防火墙,可以联系你的管理员打开防火墙或者将电脑连接至通一WLAN
  2. 为什么下载不了?

    • Github是Microsoft(微软)旗下的开放源代码共享平台,也是全球最大的开放源代码共享平台,服务器在国外。有条件的话,请使用霍格沃兹环境下载。
  3. 什么是霍格沃兹?

    • 明知故问,叉出去!!!
  4. Linux怎么用?

    • 下载(克隆)源码,把模型文件放在models文件夹,回到根目录使用管理员(或者sudo)运行run.sh

    2024-12-03T05:48:52.png

  5. MAC OS怎么用?

    • 和第5个问题一样,实在不行……你给我买,我舅教你😅
  6. 为什么转换效果很差?

    • 只能说明你的设备性能不适合运行这个软件,这个软件是依赖本地大模型运行的,很吃配置,考虑换台电脑吧。
    • 为了证实这一点,我开了一台4G4核4线程的Windows10 64位虚拟机,CPU是R7-5800,显卡是RTX3060 LapTop,12分钟的4K视频一共用时398秒,期间完全卡死,系统设置都打不开。我本机是16G8核16线程的Windows10 64位主机,CPU是R7-5800,显卡是RTX3060 LapTop,12分钟的4K视频一共耗时21秒,CPU主频跑到3.9Ghz,CPU占用约增加60%,内存占用约增加30%。所以,对CPU和内存要求可能比较高,轻薄本或者内存比较小的能跑,也只是能跑。时间相差18倍,这不是开玩笑的。

结束

至此教程结束,致敬每一位开源作者。如果对你有用,请给原作者点个Star支持开源精神。

对本文有什么疑问或者意见(或者有啥想对我说的),欢迎在评论区评论补充Ciallo~(∠・ω< )⌒★