我克隆了自己的声音:人人都能训练模型的时代到了

乙醇 创建于 5 months 之前

最后更新: 4 months 之前

阅读数: 298

之前就看到有人推荐GPT-SoVITS项目,据说只要提供很少的声音素材就可以克隆一个人的声音,不仅训练时间短,而且中文的效果非常好,最近正好有点时间,稍微弄了一下,大家可以听一下效果。

只能说是神似,毕竟准备的训练数据比较一般,加上是 mac 上做的训练,据说本身效果就会差点,buff 叠满了,效果一般般也正常,下次准备在一台有显卡的机器上再试一次。

通过克隆自己声音来体验训练模型的过程

不过尽管结果不太尽如人意,我还是推荐大家有时间也去训练个模型,把自己的声音克隆一下。因为这样可以简简单单的了解一下模型训练的过程,比如 GPT-SoVITS 从训练模型到推理 tts 的过程大致可以分为

  • 数据集处理:准备足够的训练数据,首先需要提取人声,然后去除混响,获得比较纯净的高质量人声;接下来还要切分音频并给音频降噪,然后再是给音频打标并校对标注,这一步实际上就是把人声对应的文本给记录下来,因为用了声音转文字的引擎,所以工作量其实还好;
  • 训练过程:这一步先输出 logs,我也不知道有啥用;然后开始微调训练,可以自定义训练的轮数和其他一些参数,终于感受到什么叫做训练时的调参了;
  • 推理过程:这一步需要先给出一个 5 秒左右的参考音频,然后把你要合成的文本输入进去,推理一段时间之后就可以生成音频了;

自己体验训练的过程还是非常有意思的,毕竟隔行如隔山,如果大家想往 ai 行业发展的话,有训练模型的经历应该是对求职有帮助的。

可以克隆其他人的声音

一些公共人物或者虚拟人物的声音其实想对来说比自己的声音更好克隆,因为他们的声音素材相对较多,而且声音质量比自己录制的要高不少。我们可以克隆一些声音来自娱自乐,比如有时间的话我可以克隆一下虫师的声音,然后跟我的声音剪辑在一起来做一个播客。大家也可以天马行空,关公战秦琼式的混搭,不过要注意一些法律上的风险。

人人都能训练自己的模型

这个项目最大的意义我觉得是它大大拉低了个人训练模型的门槛,原则上只要提供十几秒的声音就可以进行训练和克隆,而且训练过程非常迅速(至少在我的 macbook pro 上如此),让小白可以非常低成本的训练模型,因为之前的各种模型要么是对数据要求非常苛刻(海量数据),要么是对训练的机器要求很高(比如 A100 显卡),普通人很难触及到训练这一层面。不过有理由相信,随着科学炼丹的发展,后面将会有越来越多的项目提供更多模态的低门槛模型训练能力吧。

0