新闻资讯

最新动态和热门资讯
模型更新
语音模型 - ‌ CosyVoice-300M-Instruct模型一键运行包 v0.3.0 已发布
CosyVoice-M300-Instruct 是一个用于语音合成的模型,主要应用于语音生成和转换任务。这个模型属于 CosyVoice 语音合成系列,旨在提供高质量、自然的语音合成效果。CosyVoice-M300 特别适用于需要自定义情感、语调和...
2025-04-10
语音模型 - ‌CosyVoice-2.0-0.5B模型一键运行包 v0.3.0 已发布
CosyVoice-0.5b 是一个用于语音合成的模型,主要应用于语音生成和转换任务。这个模型属于 CosyVoice 语音合成系列,旨在提供高质量、自然的语音合成效果。CosyVoice-M300 特别适用于需要自定义情感、语调和发音特征...
2025-04-10
视频模型 - ‌Wav2Lip模型一键运行包 v0.2.0 已发布
Wav2Lip 是一个基于深度学习的语音驱动唇动同步(lip-sync)模型,能够根据输入的音频(音频信号)生成与之同步的高质量唇动视频。Wav2Lip 的目标是使视频中的人物与音频中的话语完全同步,产生更自然和真实的口型运...
2025-04-10
视频模型 - ‌CosyVoice-2.0-0.5B模型一键运行包 v0.2.0 已发布
CosyVoice-0.5b 是一个用于语音合成的模型,主要应用于语音生成和转换任务。这个模型属于 CosyVoice 语音合成系列,旨在提供高质量、自然的语音合成效果。CosyVoice-M300 特别适用于需要自定义情感、语调和发音特征...
2025-04-03
视频模型 - MuseTalk模型一键运行包 v0.5.2 已发布
MuseTalk 模型 是一种先进的视频生成和转换模型,专门设计用于将音频与视频内容进行高度协调,生成具有高质量、自然表现的视频输出。该模型结合了深度学习技术,能够对视频中的面部表情、嘴型、声音、语音同步等进行...
2025-03-23
语音模型 - ‌Spark-TTS模型一键运行包 v0.1.0 已发布
Spark-TTS 是SparkAudio 团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具, 无需额外的生成模型,直接从 LLM 预测的编码中重建音频,实现零样本文本到语音的转换。Spark-TTS 支持中英双语,具备跨语言合...
2025-03-23
语音模型 - Fish Speech模型一键运行包0.1.0 已发布
FishSpeech是由FishAudio团队精心研发的AI语音合成工具。它以其跨语言的强大能力、人类级的语音处理精度以及完美的中文支持,为全球用户带来了前所未有的语音交互体验。
2025-03-23
语音模型 - CosyVoice-300M模型一键运行包 v0.4.0 Windows版 已发布
CosyVoice-M300 是一个用于语音合成的模型,主要应用于语音生成和转换任务。这个模型属于 CosyVoice 语音合成系列,旨在提供高质量、自然的语音合成效果。CosyVoice-M300 特别适用于需要自定义情感、语调和发音特征...
2025-03-23
视频模型- Wav2Lip 模型 v0.1.0 Windows版 已发布
Wav2Lip 是一个基于深度学习的语音驱动唇动同步(lip-sync)模型,能够根据输入的音频(音频信号)生成与之同步的高质量唇动视频。Wav2Lip 的目标是使视频中的人物与音频中的话语完全同步,产生更自然和真实的口型运...
2025-02-26
视频模型-LatentSync模型 v0.1.0 Windows版 已发布
LatentSync 模型 LatentSync 是字节跳动推出的一种基于音频条件的端到端唇同步技术,通过潜在扩散模型和时间表示对齐技术(TREPA),实现高质量、时间一致的动态视频生成,并优化了 SyncNet 的收敛问题,使唇同步的...
2025-02-26
语言
QQ
微信客服
微信群
客服