2024-06-14 08:52:20|网友 |来源:互联网整理
AI翻唱使用的软件通常被称为“AI翻唱软件”或“AI音乐制作软件”。
这些软件使用人工智能技术来模仿和生成声音,让用户可以输入歌曲伴奏和歌词,然后通过软件自动生成的声音来完成歌曲的翻唱。
目前市面上有很多AI翻唱软件可供选择,其中一些知名的软件包括:1、小冰:小冰是微软亚洲研究院开发的人工智能音乐创作平台,它可以根据用户提供的伴奏和歌词,自动生成具有原创性的音乐作品。
2、Audacity:Audacity是一款开源的音频编辑软件,它也可以用来进行AI翻唱。
用户可以通过导入伴奏和歌词,然后使用软件内置的AI声音库来生成翻唱声音。
3、SongSmith:SongSmith是一款由Smule公司开发的AI音乐制作软件,它可以根据用户提供的伴奏和歌词,自动生成具有旋律和和声的音乐作品。
视频介绍
前几天给大家介绍了一个非常强大的翻唱歌曲软件so-vits-svc,文章链接:《AI孙燕姿:人人都是翻唱高手,so-vits-svc4.0一键整合包下载及本地安装部署教程》,但是那个软件对电脑配置要求比较高,一般人显卡达不到要求,训练效果可能不是很理想。
现在给大家介绍另外一个AI变声软件DDSP-SVC,这个软件对电脑配置要求要低一些,但是转换效果也会比so-vits-svc差了点,但是软件还是在优化升级中,目前合成音频效果也是不错的。
DDSP-SVC github项目地址:https://github.com/yxlllc/DDSP
github上有安装使用步骤,大佬可以参考步骤安装使用,我们这里使用羽毛布団大佬制作的整合包,方便新手小白使用。
百度网盘下载链接: https://pan.baidu.com/s/1KBGJP4F1i5OthGCoAohz9Q?pwd=35ps
首先准备声音素材,最好是在安静的环境中录制的纯人声高清音频素材,如果你是用来转换歌曲的话,你录制的声音最好有高音和低音部分,这样转换出来的歌声效果更好,不然的话高音部分可能会沙哑变音,如果你录制的声音不够干净,可以使用UVR5这个软件来提取干净人声。
这个软件在网盘里也有。
声音素材总时长建议在1个小时以上。
打开UVR5软件,如上图所示,input里选择待提取纯人声的音频文件,output选择输出文件夹,下面选中GPU Conversion 和vocals only只保留人声,然后点击按钮start processing提取即可。
单个音频文件不要太大,时长最好20分钟以内,否则软件可能会因显存不足报错。
将所有纯人声音频文件提取完毕后待用。
将DDSP-SVC软件下载到电脑上解压,运行【启动WebUI.bat】文件启动webui页面,选择智能音频切片选项卡,原始音频文件夹里输入准备好的干净人声音频文件所在的文件夹,文件夹路径复制进来,然后点击按钮【加载原始音频】,看看是不是提示加载成功,音频列表里的音频文件和你文件夹里的音频文件是否一致,然后选择分割后的音频输入文件夹,点击【开始切片】开始分割音频。
输出信息成功即代表分割完成。
音频分割完成之后,将分割好的音频片段复制到data\train\audio文件夹下,再点击【一键划分数据集】按钮,选出验证集音频文件
下面是数据预处理,选择编码器和f0提取算法,页面上有明确的说明,可以根据自己的需求选择,然后点击【数据预处理】按钮,这一步根据选择算法不同,文件数量不同消耗时间也不一定。
等到进度条100%,没有报错的话就是预处理成功了。
下面是设置训练参数,总共需要训练两个模型一个是DDSP模型另一个是扩散模型,下面大部分参数保持默认即可,如果你的显卡显存比较低比如2G,可以在缓存数据这里选择CPU,同时batch_size也要适当降低,大显存可以不用修改。
扩散模型配置里训练数据类型,如果你的显卡是20系列或更高,可以选择fp16或bf16,可以加快训练速度,如果训练时提示RuntimeError: Current CUDA Device does not support bfloat16. Please switch dtype to float16,就是不支持bf16,可以选择前面的fp16,如果还是不支持就再朝前选择fp32,注意更换选择训练数据类型之后要点击按钮【写入配置文件】,然后再去点击下面的训练模型按钮,都设置完成后点击按钮写入配置文件。
下面选择从头开始训练,然后点击训练DDSP模型,然后系统就会打开终端窗口输出训练信息,如果不想训练了的话可以按住ctrl+c终止训练,DDSP模型和扩散模型是分开独立训练的,
你可以打开tendorboard查看训练状态,选中正在训练的模型点击打开tensorboard按钮,等到终端输入如下图http://localhost:6006/
训练步数越大越好,在训练过程中终端会输出loss值,当值很低不再变的时候就可以停止训练了,可以转去训练下一个模型。
如果停止后想接着训练,可以选择继续上一次的训练进度接着训练。
两个模型都训练完成之后,切换到推理选项卡,点击刷新选项,选择模型训练步数最大的模型文件。
点击上传待转换的纯人声音频文件,其它设置保持默认即可,点击下面的音频转换按钮开始转换音频。
如果转换后的音频声音嘶哑或是声音异常,可能是模型里没有高音待转换的音频里面有高音无法达到转换效果,或是f0提取算法问题,你可以换个算法。
声音转换完成后可以播放试听或是点击下载保存转换后的音频文件。
在终端里面输入workenv\python.exe gui_diff.py运行,可以开启实时声音转换功能,选择想用的模型,选择输入输出设备,点击开始音频转换按钮即可。
注意请训练自己的声音,如果训练别人的声音请获得授权,仅限个人研究学习及娱乐使用,切勿违规使用该软件。
复制本文链接攻略资讯文章为拓城游所有,未经允许不得转载。