数字人使用问题

ycc78 发表于阅读:788 回复:1

1. 声音部分前期在克隆得时候，录入的文本信息是123456（20s）左右，在声音克隆中，生成得汉字都变成英文了，选用得模型是CosyVoice-2.0-0.5B模型 v0.3.0

2.数字人形象生成上传得是mp4的视频但是我的形象中，没有画面

3. 在视频合成的过程中，是否有选项，把之前克隆的声音文本全部选取上呢克隆的文本推荐是5-10s 那么一个长点的视频就会有很多条的声音，难道要一段一段视频合成，然后剪映合并么

MZ 官方

1 这个目前是模型的问题，可能暂时不好处理，需要反馈给cosyvoice官方

2 这个检查一下mp4文件是否是有格式问题

3 这个后面可以考虑增加在模型里面，自动分割处理，你使用的是哪个模型，哪个测试效果好一点

我来评论

登录后回复

第 3698 位会员

注册于