当前后端状态
检测中
批量结果评测
可用
导入 CSV 或 Excel,对已有 ASR 识别结果进行第一层文本质量评分,支持批次、删除样本、重新评分和导出报告。
导入评测批次
业务感知评分
Excel/CSV 导出
录音评测
可用
面向现场录音和小样本人工核验,一次录音分发多个 ASR 引擎,适合快速比较真实说话样本。
现场录音
多引擎识别
人工核验
阿里云热词 A/B 测试
可用
专门验证阿里云一句话识别热词表效果:同一段音频分别跑无热词和指定 vocabulary_id 两次,直接对比识别文本。
vocabulary_id
无热词/有热词
CSV 导出
Fun-ASR 热词 A/B 测试
可用
验证阿里百炼 Fun-ASR 录音文件识别热词表效果:同一段音频分别跑无热词和指定 vocabulary_id 两次,对比识别文本。
dashscope_fun_asr
vocabulary_id
target_model
腾讯云热词 A/B 测试
可用
验证腾讯云一句话识别临时热词效果:同一段音频分别跑无热词和 HotwordList / HotwordId 两次,对比识别文本。
tencent_one
HotwordList
HotwordId
Qwen3-ASR 上下文提示 A/B 测试
可用
验证 Qwen3-ASR Flash 是否会受 system 上下文提示影响:同一段音频分别跑无提示 baseline 和带上下文提示两次,对比识别文本。
qwen3_asr
qwen3-asr-flash
system prompt
流式评测
敬请期待
评估实时识别的首字延迟、中间结果稳定性、最终结果质量和断线恢复,和批量文件评测分开管理。
首字延迟
实时稳定性
最终文本
智能体结构化评测
可用
第二层评测入口。当前支持标准答案候选生成、导入、逐条审核和外部模型提示词导出,后续接入智能体结构化评分。
结构化草稿
字段级评分
高危错误
第一层评测
比较手输原文和 ASR 文本,重点关注金额、数量、单位和业务关键词保真。
第二层评测
进入智能体后再判断是否能生成正确的结构化数据,当前作为独立模块预留。
建议流程
- 先跑批量结果评测筛选 ASR 候选。
- 再用录音和流式评测补充真实交互表现。
- 最后接智能体结构化评测做业务验收。