ASR 评测工作台

当前后端状态

正在检测 ASR bench 后端与已启用引擎。

检测中

批量结果评测

导入 CSV 或 Excel，对已有 ASR 识别结果进行第一层文本质量评分，支持批次、删除样本、重新评分和导出报告。

导入评测批次业务感知评分 Excel/CSV 导出

面向现场录音和小样本人工核验，一次录音分发多个 ASR 引擎，适合快速比较真实说话样本。

现场录音多引擎识别人工核验

阿里云热词 A/B 测试

专门验证阿里云一句话识别热词表效果：同一段音频分别跑无热词和指定 vocabulary_id 两次，直接对比识别文本。

vocabulary_id 无热词/有热词 CSV 导出

Fun-ASR 热词 A/B 测试

验证阿里百炼 Fun-ASR 录音文件识别热词表效果：同一段音频分别跑无热词和指定 vocabulary_id 两次，对比识别文本。

dashscope_fun_asr vocabulary_id target_model

腾讯云热词 A/B 测试

验证腾讯云一句话识别临时热词效果：同一段音频分别跑无热词和 HotwordList / HotwordId 两次，对比识别文本。

tencent_one HotwordList HotwordId

Qwen3-ASR 上下文提示 A/B 测试

验证 Qwen3-ASR Flash 是否会受 system 上下文提示影响：同一段音频分别跑无提示 baseline 和带上下文提示两次，对比识别文本。

qwen3_asr qwen3-asr-flash system prompt

评测案例审核

从 Android 真机 L3 与真实语音 ASR 合并案例中抽取文字脚本，先人工审核确认，再进入 TTS 合成和真实链路测试。

AI-MANUAL-ANDROID AI-AUDIO-PN reviewed 导出

百炼 TTS 测试

使用百炼复刻音色生成评测音频，当前支持 cosyvoice-v3.5-plus 和 qwen3-tts-vc-2026-01-22，后续可批量合成智能体评测案例输入音频。

cosyvoice-v3.5-plus qwen3-tts-vc 复刻音色

评估实时识别的首字延迟、中间结果稳定性、最终结果质量和断线恢复，和批量文件评测分开管理。

首字延迟实时稳定性最终文本

智能体结构化评测

第二层评测入口。当前支持标准答案候选生成、导入、逐条审核和外部模型提示词导出，后续接入智能体结构化评分。

结构化草稿字段级评分高危错误

第一层评测

比较手输原文和 ASR 文本，重点关注金额、数量、单位和业务关键词保真。

第二层评测

进入智能体后再判断是否能生成正确的结构化数据，当前作为独立模块预留。

建议流程

先跑批量结果评测筛选 ASR 候选。
再用录音和流式评测补充真实交互表现。
最后接智能体结构化评测做业务验收。