CapsWriter 的离线版保姆级本地部署教程
CapsWriter离线版是一个很好用的 PC 端语音转文字工具,完全可以实现公司内部保密会议,通话转写需求。实测普通话实时转写非常精准。音视频效果也很好,即使是视频中含有嘈杂的背景音乐也能精准识别(参照测试视频)。
软件主要有两个功能:
- 按下键盘上的
大写锁定键
,录音开始,当松开大写锁定键
时,就会识别你的录音,并将识别结果立刻输入 - 将音视频文件拖动到客户端打开,即可转录生成 srt 字幕
使用前提:
- 电脑拥有大于等于4G的内存(小了想都别想)
- 电脑安装了解压缩软件,VScode,Markdown阅读器
- 电脑接入了电源(笔记本不插电会卡……)
- 可能需要霍格沃兹环境。
- 使用开源软件请遵守开源协议。
附件表
点击即可直接下载,GitHub请使用GitHub国内加速
文件名 | 网站类型 | 霍格沃兹 | 文件大小 | 适用客户端 |
---|---|---|---|---|
Bandzip | 官网 | 不需要 | 10.86MB | Windows |
VScode | 官网 | 不需要 | 98.61MB | Windows |
Markdown阅读器(中文汉化版) | Github | 需要 | 124.23MB | Windows |
CapsWriter-Offline-Windows-32bit-Client | Github | 需要 | 43.5MB | Windows |
CapsWriter-Offline-Windows-64bit | Github | 需要 | 73.4MB | Windows |
models | Github | 需要 | 1.1GB | Windows |
Microsoft Visual C++ Redistributable 运行库 | 官网 | 不需要 | 24.4MB | Windows |
1. 下载软件
- 打开作者的Github发布页,或者从附件表下载
- 找到如下图三个文件
选择你电脑合适的软件包,我们分两种情况来说(长话短说,Windows7下载第一个,Windows10选第二个,第三个都要下载)
- Windows7或者32位系统,不能使用服务端,需要配合局域网内的服务端使用(后面讲)。
- Windows10或64位以上系统可以同时运行服务端和客户端,可以给局域网内的设备接入服务端。
2. 解压文件
1. 解压软件本体
- 这是我下载下来的两个文件
- 鼠标放在文件名称
CapsWriter-Offline-Windows-64bit.zip
上(Windows7同理),右键选择你要解压到哪里
- 这里我以解压到桌面为例
- 等待解压完成
- 在桌面找到刚才解压的文件夹
- 打开以后会看到这样的文件夹(取决于你的解压软件),如果只有有个文件夹,请打开它
- 进去以后看到这样的文件就可以了
注意:windows7或者32位软件包只有客户端,文件会少一点,你不要担心。
2. 解压语音转文字大模型
只有Windows10用户需要考虑
- 找到刚才下载的两个压缩包,在文件名称
models.zip
上右键,选择解压到其他文件夹(其他压缩软件意思相近即可) - 选择桌面文件夹下的
CapsWriter-Offline-Windows-64bit
,然后选中CapsWriter-Offline-Windows-64bit
文件夹,单击确定
注意:一定要选中上图蓝色框里面的文件夹再确定
3. 配置模型
- 在桌面的文件夹
CapsWriter-Offline-Windows-64bit
里面找到models
文件夹,打开以后你(可能)会看到这样的文件 - 把models文件夹删了,然后把models(2)改为models
- 打开models文件夹检查模型是否完整,如下图就可以了
4. 安装运行依赖(已经安装直接看第5步)
- 打开https://learn.microsoft.com/zh-cn/cpp/windows/latest-supported-vc-redist?view=msvc-170
- 下拉页面找到运行依赖软件包,单击选择合适你电脑的包(会自动下载)
- 下载完毕,找到它,双击打开,同意协议,单击安装
5. 运行程序
1. Windows10或64位(以上)系统
- 在桌面找到文件夹
CapsWriter-Offline-Windows-64bit
并打开,如图 - 分别打开双击客户端
start_client.exe
和服务端start_server.exe
我们会得到两个黑窗口
- 客户端(字多那个)会提示
使用默认音频设备:阵列麦克风 (AMD Audio Device),声道数:2
- 服务端(字少那个)会提示
模型加载中
- 客户端(字多那个)会提示
- 等待程序就绪就可以开始玩耍啦!
两个窗口都不要关!!!客户端提示连接成功就可以了。
转写测试
- 输入语音实时转文字请按下大写锁定键开始录音并实时转写,松开停止
识别结果记录在软件根目录
年份/月份/日期.md
,录音文件保存在年份/月份/assets
- 音频和视频转文字直接把文件拖动到客户端(
start_client.exe
)上
- 测试视频【抽象带篮子】全网最高学历保安!都给我拷起来?_哔哩哔哩_bilibili.mp4
- 转换后,在原文件目录会得到到字幕文件,音频和视频都可以得到逐行或者一行转换的文本文档,逐行是大模型自己推断,一句话一行。
- 音频和视频转文字直接把文件拖动到客户端(
2. Windows7或32位系统
- 找到
config.py
,右键选择打开方式,找到记事本 - 修改客户端配置后面
addr
后面的127.0.0.1为局域网内的服务端IP地址,保存,然后重启客户端就可以了
QA:
什么是局域网?
- 主要是指在某一区域的计算机互联网络。“某一区域”指的是同一办公室、同一建筑物、同一公司和同一学校等,一般是方圆几千米以内。
为什么我配置了局域网IP也没有用?
- 检查你局域网内的防火墙是否是开启状态,请关闭你的防火墙或打开6016端口再试
- 你的网络管理员可能没有开放路由器的防火墙,可以联系你的管理员打开防火墙或者将电脑连接至通一WLAN
为什么下载不了?
- Github是Microsoft(微软)旗下的开放源代码共享平台,也是全球最大的开放源代码共享平台,服务器在国外。有条件的话,请使用霍格沃兹环境下载。
什么是霍格沃兹?
- 明知故问,叉出去!!!
Linux怎么用?
- 下载(克隆)源码,把模型文件放在
models
文件夹,回到根目录使用管理员(或者sudo)运行run.sh
- 下载(克隆)源码,把模型文件放在
MAC OS怎么用?
- 和第5个问题一样,实在不行……你给我买,我舅教你😅
为什么转换效果很差?
- 只能说明你的设备性能不适合运行这个软件,这个软件是依赖本地大模型运行的,很吃配置,考虑换台电脑吧。
- 为了证实这一点,我开了一台4G4核4线程的Windows10 64位虚拟机,CPU是R7-5800,显卡是RTX3060 LapTop,12分钟的4K视频一共用时398秒,期间完全卡死,系统设置都打不开。我本机是16G8核16线程的Windows10 64位主机,CPU是R7-5800,显卡是RTX3060 LapTop,12分钟的4K视频一共耗时21秒,CPU主频跑到3.9Ghz,CPU占用约增加60%,内存占用约增加30%。所以,对CPU和内存要求可能比较高,轻薄本或者内存比较小的能跑,也只是能跑。时间相差18倍,这不是开玩笑的。
结束
至此教程结束,致敬每一位开源作者。如果对你有用,请给原作者点个Star支持开源精神。
对本文有什么疑问或者意见(或者有啥想对我说的),欢迎在评论区评论补充Ciallo~(∠・ω< )⌒★