阿里千问开源Qwen3-ASR语音识别模子,,,,,, ,支持52种语种与方言
2026-02-28 20:42:16

IT之家 1 月 29 日消浙江甬港供应链有限公司息,,,,,, ,阿里千问团队今日正式开源 Qwen3-ASR 系列模子,,,,,, ,该模子是由 Qwen 开发的一系列功效强盛的语音识别模子,,,,,, ,包括两个强盛且周全的语音识别模子 Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B,,,,,, ,以及一个立异的语音强制对齐模子 Qwen3-ForcedAligner-0.6B。。 。。。。 。。Qwen3-ASR 系列的语音识别模子支持 52 个语种与方言的语种识别与语音识别。。 。。。。 。。

据官方先容,,,,,, ,依托立异的预训练 AuT 语音编码器与 Qwen3-Omni 基座模子的强盛多模态能力,,,,,, ,Qwen3-ASR 实现了精准与稳固的语音识别,,,,,, ,其 1.7B 模子在中文、英文、中文口音与赞美识别等场景下抵达 SOTA,,,,,, ,具有重大文本识别能力以及强噪声下的稳固性;;;;;;;;0.6B 模子在性能与效率上实现了平衡,,,,,, ,在包管语音识别准确率的情形下,,,,,, ,128 并发异步效劳推理能够抵达 2000 倍吞吐,,,,,, ,即 10 秒钟处置惩罚五个小时以上的音频。。 。。。。 。。

强制对齐模子 Qwen3-ForcedAligner-0.6B 是基于 NAR LLM 推理的时间戳展望模子,,,,,, ,支持 11 个语种的恣意位置的无邪精准的强制对齐,,,,,, ,其时间戳展望精度逾越古板的 WhisperX,,,,,, ,Nemo-Forced-Aligner 等模子,,,,,, ,单并发推理 RTF 抵达了高效的 0.0089。。 。。。。 。。

阿里千问团队称,,,,,, ,希望 Qwen3-ASR 系列模子的开源能够推动语音识别与明确的研究与生长,,,,,, ,三个模子的结构与权重、以及一个周全易用的推理框架将一并开源。。 。。。。 。。

模子列表:

IT之家附官方先容如下:

Qwen3-ASR 焦点特征 All-in-one: Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B 均通过简单模子支持 30 个语种的语种识别与语音识别、22 其中文口音与方言语音识别、多个国家与地区的英文口音识别。。 。。。。 。。 准确而快速的语音识别能力:在重大的声学情形与文本模式的场景下,,,,,, ,Qwen3-ASR 系列模子均能坚持稳固鲁棒的语音识别能力,,,,,, ,包括赞美识别等。。 。。。。 。。Qwen3-ASR-1.7B 实现了语音识别准确率的周全领先,,,,,, ,在开源与闭源自建评测上较主流开源模子与众多商用 API 上更优。。 。。。。 。。0.6B 模子则实现了性能与效率的平衡,,,,,, ,在异步推理模式下,,,,,, ,128 并发的该模子能够抵达 2000 倍的吞吐,,,,,, ,处置惩罚 5 个小时的音频仅需要 10 秒。。 。。。。 。。Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B 均支持流式 / 非流式一体化推理,,,,,, ,最长一次性处置惩罚 20 分钟的音频。。 。。。。 。。 独创且强盛的强制对齐模子:我们推出 Qwen3-ForcedAligner-0.6B,,,,,, ,一个支持 11 个语种在 5 分钟之内语音的恣意单位的时间戳展望,,,,,, ,经评测其时间戳精度逾越了一众基于古板端到端计划的强制对齐模子,,,,,, ,其非自回归的推理逻辑包管了推理的高效性。。 。。。。 。。 周全且易用的推理与微调工具:除了 Qwen3-ASR 系列模子的结构与权重开源,,,,,, ,我们一次性推出强盛且周全的推理框架,,,,,, ,支持基于 vLLM 的 batch 推理、异步效劳、流式推理、时间戳展望功效等。。 。。。。 。。 ASR 模子效果 我们对 Qwen3-ASR 系列模子在中文 / 英文、多语种、中文方言、歌声识别,,,,,, ,以及重大声学与重大语言场景下举行了系统评估。。 。。。。 。。效果显示,,,,,, ,Qwen3-ASR-1.7B 在多个维度的果真与内部基准上取得开源 SOTA;;;;;;;;同时比照多家商业公司最新的 ASR API,,,,,, ,在若干基准上也取得最佳效果。。 。。。。 。。详细来说: 英文:不但在常见果真基准上抵达最优,,,,,, ,我们还在内部构建的笼罩 16 个国家口音的英文测试集上举行评测,,,,,, ,整体体现周全优于 GPT-4o Transcribe、Gemini 系列、Doubao ASR 系列,,,,,, ,以及综合能力最强的开源模子 Whisper-large-v3。。 。。。。 。。 多语种:最高支持 30 种语言;;;;;;;;在 20 个主流语种上,,,,,, ,Qwen3-ASR-1.7B 周全凌驾现有开源模子,,,,,, ,取得最佳平均 WER。。 。。。。 。。 中文与方言:在通俗话、粤语及 22 种地区方言上,,,,,, ,Qwen3-ASR-1.7B 整体领先商业 API 与开源模子;;;;;;;;尤其在方言上,,,,,, ,相比 Doubao-ASR 平均过失率再降 20%(15.94 vs 19.85)。。 。。。。 。。 重大声学 / 语言场景:面临老人 / 儿童语音、极低信噪比、鬼畜重复等挑战场景,,,,,, ,仍能稳固输出,,,,,, ,坚持极低的字 / 词过失率。。 。。。。 。。 赞美识别:支持带 BGM 的整首歌中 / 英文转写;;;;;;;;中文 / 英文划分抵达 13.91% / 14.60% 平均 WER。。 。。。。 。。 Qwen3-ASR-0.6B 在性能与效率之间实现了优异平衡:不但在多项中英文测试基准上体现稳健,,,,,, ,并且无论离线照旧在线推理,,,,,, ,在高并发场景下都能坚持极低 RTF 与极高吞吐。。 。。。。 。。例如:单并发下 100 倍加速比;;;;;;;;异步效劳 128 并发下 2000 倍加速比,,,,,, ,10 秒钟处置惩罚五个小时音频。。 。。。。 。。 强制对齐模子效果 强制对齐模子 Qwen3-ForcedAligner-0.6B 支持 11 种语言的高精度强制对齐,,,,,, ,可在音频中恣意位置举行无邪、精准的时间戳标注。。 。。。。 。。与常用主流对齐工具相比,,,,,, ,我们在可支持语种笼罩与时间戳展望精度上均取得更优体现,,,,,, ,整体凌驾 WhisperX、NeMo-ForcedAligner(NFA)等计划。。 。。。。 。。

Qwen3-ASR

Github:

HuggingFace:

ModelScope:

Huggingface Demo:

ModelScope Demo:

论文:

阿里云百炼 API:

浙江甬港供应链有限公司