ASR 评测工作台

批量结果评测、录音评测、流式评测和智能体结构化评测的统一入口

当前后端状态
正在检测 ASR bench 后端与已启用引擎。
检测中
批量结果评测
可用
导入 CSV 或 Excel,对已有 ASR 识别结果进行第一层文本质量评分,支持批次、删除样本、重新评分和导出报告。
导入评测批次 业务感知评分 Excel/CSV 导出
录音评测
可用
面向现场录音和小样本人工核验,一次录音分发多个 ASR 引擎,适合快速比较真实说话样本。
现场录音 多引擎识别 人工核验
阿里云热词 A/B 测试
可用
专门验证阿里云一句话识别热词表效果:同一段音频分别跑无热词和指定 vocabulary_id 两次,直接对比识别文本。
vocabulary_id 无热词/有热词 CSV 导出
Fun-ASR 热词 A/B 测试
可用
验证阿里百炼 Fun-ASR 录音文件识别热词表效果:同一段音频分别跑无热词和指定 vocabulary_id 两次,对比识别文本。
dashscope_fun_asr vocabulary_id target_model
腾讯云热词 A/B 测试
可用
验证腾讯云一句话识别临时热词效果:同一段音频分别跑无热词和 HotwordList / HotwordId 两次,对比识别文本。
tencent_one HotwordList HotwordId
流式评测
敬请期待
评估实时识别的首字延迟、中间结果稳定性、最终结果质量和断线恢复,和批量文件评测分开管理。
首字延迟 实时稳定性 最终文本
智能体结构化评测
可用
第二层评测入口。当前支持标准答案候选生成、导入、逐条审核和外部模型提示词导出,后续接入智能体结构化评分。
结构化草稿 字段级评分 高危错误

第一层评测

比较手输原文和 ASR 文本,重点关注金额、数量、单位和业务关键词保真。

第二层评测

进入智能体后再判断是否能生成正确的结构化数据,当前作为独立模块预留。

建议流程

  • 先跑批量结果评测筛选 ASR 候选。
  • 再用录音和流式评测补充真实交互表现。
  • 最后接智能体结构化评测做业务验收。