hugh
发布于 2024-09-26 / 258 阅读
0
0

本地语音+数字人克隆系统教程

打开软件后,主要分为两大板块,左边是数字人克隆板块,右边上音频克隆板块

首先点击设置,选择一个默认文件保存位置

数字人克隆板块详解

1.数字人克隆板块的作用是可以将任意一段人物说话的视频中的声音换成我们准备好的音频,且完美匹配嘴型

简易模式操作

注意事项:
1:AI计算过程十分耗时,请不要一次性上传长视频与长音频,尽量将音频控制到3分钟以内

2:如有长音频需求,请使用批量模式

3:音频需要使用wav格式的音频,如果您的音频为MP3格式,请点击此处进行在线转换

4:生成时间预估,以下为1分钟音频在各个显卡的生成时间(仅供参考)

显卡型号

显卡显存

生成时间

RTX2060

6GB

≈30分钟

RTX2060

12GB

≈20分钟

RTX3060

8GB

≈15分钟

RTX3060

12GB

≈10分钟

RTX4060

8GB

≈8分钟

RTX4090

24GB

≈2分钟

==========================================================================================

批量模式操作

批量模式有两种用法,第一种是多个音频对应一个视频,第二种是多个视频对应一个音频、

这里以多个音频对应一个视频为例:

观察文件是否正确读取,确认完毕点击下一步

选择完成后的存放位置,点击完成

==========================================================================================

语音克隆板块详解

语音克隆板块主要分为三个功能
1:默认声音生成,主要就是利用我们训练好的语音模型进行音频生成

2:自定义语音克隆,可以自己上传一段音频(3-10秒),比如上传自己本人的声音,克隆保存后,自己的声音就可以用于生成音频了

3:音色转换,上传一段歌曲,再上传自己的声音(3-10秒),就会转换为自己在唱歌,语音同理

默认声音生成操作

自定义语音克隆操作

音色转换操作


评论