语音模子也能freestyle！阿里新模子可定制角色、模拟配景音

快科技3月2日新闻，，，，，，，，今日，，，，，，，，阿河北国盛食物加工有限公司里宣布两款语音新模子，，，，，，，，基于参考音频的声音克隆模子Fun-CosyVoice3.5、无参考音频的音色设计模子Fun-AudioGen-VD。。。。。。

据先容，，，，，，，，两款模子均引入了强盛的"指令遵照"能力，，，，，，，，自由控制声音的情绪、语速、场景等。。。。。。

其可用freestyle（自由气概模式）定制角色，，，，，，，，适用于有声书、游戏、客服、播客、教育、直播等多个场景。。。。。。

值得注重的是，，，，，，，，两款模子在同尺寸模子的基准评测中斩获多项SOTA。。。。。。

在Seed-TTS基准测试的中文"难题案例"指标中，，，，，，，，Fun-CosyVoice3.5体现抢眼，，，，，，，，词过失率(Word Error Rate,WER)和语言人相似度(Speaker Similarity,SSIM)均为最佳。。。。。。

同时，，，，，，，，由于优化了"难题案例"的发音，，，，，，，，生僻字句错率由15.2%降低到5.3%。。。。。。

其中，，，，，，，，Fun-CosyVoice3.5支持freestyle指令控制，，，，，，，，解决了古板克隆模子只会模拟不可指定角色的痛点。。。。。。

Fun-AudioGen-VD专注"从无到有"的音色设计。。。。。。在指令遵照能力和可控性的Instruct-TTS基准测试中凌驾gemini2.5-pro和gpt-4o-mini-tts。。。。。。

该模子不但能凭证形貌定制音色和情绪，，，，，，，，还能同步模拟重大的听觉情形，，，，，，，，实现"人物+场景"的一体化。。。。。。

在强化学习中，，，，，，，，两款模子通过使用DiffRO和GRPO，，，，，，，，增添了时长和韵律多通道的奖励。。。。。。

别的，，，，，，，，Fun-CosyVoice3.5所用的tokenizer帧率减半，，，，，，，，提高训练效率，，，，，，，，且首包延迟降低35%，，，，，，，，大幅提升了实时交互体验。。。。。。

克日起，，，，，，，，用户可在阿里云百炼调河北国盛食物加工有限公司用这两款最新模子。。。。。。

PT视讯(中国区)官网