# 👀 | ReadMe

# ℹ️ | Introduction

氦，欢迎围观本项目。本页是一个介绍，来阐述一下：

### 这是什么？

#### 命名

原来这个项目叫做S2T2SS，意为“STT+TTS+RVC”的一个组合工作流。后来发现RVC又复杂又用不到，索性扔了。于是你在LocWorld上看到我讲的内容标题变成了“S2T2S”。但不管怎么样这个名字还是有点太硬了，于是最后在创建本页面的时候想到要么就用Vocal10n好了。

因此这个项目从今天起就叫Vocal10n。

#### 目的

这是一个可以在本地运行<sup><span class="editor-theme-superscript">\[1\]</span></sup>，开箱即用<sup><span class="editor-theme-superscript">\[2\]</span></sup>，能做到同传口译<sup><span class="editor-theme-superscript">\[3\]</span></sup>，实时字幕输出<sup><span class="editor-theme-superscript">\[4\]</span></sup>的一款开源<sup><span class="editor-theme-superscript">\[5\]</span></sup>程序<sup><span class="editor-theme-superscript">\[6\]</span></sup>。

总有人要问“你为什么要做这么一个东西”：

1. 我不喜欢用云服务。十年前百度网盘把我存在里面的一些重要视频文件全部篡改了，可以看出云服务供应商毫不尊重用户隐私（尤其中国大陆存储商），并且有重大安全漏洞（经常泄露用户数据/个人信息）。
2. 我还是不喜欢云服务，因为太贵。
3. 闲得无聊

其实还有一个根本原因是我自己需要，后来我才发现好像这个东西确实别人也需要。我需要它不是因为我做口译需要它，也不是用来打轴听译。这个东西某种意义上讲是Project Cluster的一部分。

目前，你可以[在这里](https://youtu.be/bo-i2xOWY1M)看到一段简单的演示。

#### 计划

原本的计划应该是在2026年初启动，并于2026年4月末结项。但由于实在想测试一下可行性，导致在2025年8月就开始动手，在Github Copilot的帮助下搓出第一版，并成功通过了初步测试。

下一步计划于2026年初继续进行。

#### 问题

目前有很多显而易见和潜在的问题。这些问题包括但不限于

1. 识别延迟太高；
2. 识别准确率太低；
3. 无法训练；
4. 无法支持模型不支持的语言；
5. 维护困难；

还需要验证的一些包括“我到底需不需要自己训练一个检测模型出来”之类的问题，不过一旦涉及到模型训练就会因为没钱而终止项目。

总之，敬请期待。

---

<sup><span class="editor-theme-superscript">\[1\] 所有模块下载后均可本地运行，无需联网。</span></sup>  
<sup><span class="editor-theme-superscript">\[2\] 在不进行更多训练与微调的情况下准确率略低。</span></sup>  
<sup><span class="editor-theme-superscript">\[3\] 延迟略高，语言对取决于你选择的模型。</span></sup>  
<sup><span class="editor-theme-superscript">\[4\] 实时字幕输出支持OBS直接显示，或输出纯文本TXT/SRT格式。暂不支持标点符号还原</span></sup>  
<sup><span class="editor-theme-superscript">\[5\] 所有模块均采用开源项目构造而成。</span></sup>  
<sup><span class="editor-theme-superscript">\[6\] 在未来可能会被封装进一个用户友好的UI里。</span></sup>

<div drawio-diagram="" id="bkmrk--3">![]()</div>