从录音到可用数据
推荐流水线是:录音文件入库、音频降噪、语音识别、说话人分离、文本清洗、LLM 结构化分析、人工复核和结果导出。 每一步都要保存中间结果,否则出了问题无法判断是录音质量差、转写错,还是模型总结偏了。
- 录音:记录来源、坐席、客户、时间、通话时长和授权状态。
- 转写:保存原始文字稿,不要直接覆盖成模型润色版。
- 分析:用固定 JSON schema 输出摘要、标签、风险点和下一步动作。
- 复核:低置信度和敏感结果进入人工队列。
结构化结果比漂亮摘要更重要
如果只让模型写一段“本次通话客户咨询了产品价格”,后续系统很难使用。更好的方式是要求模型返回固定字段: customer_intent、objections、risk_flags、next_actions、crm_notes、confidence。这样可以直接检索、统计和自动填表。
{
"summary": "客户关注部署成本和试用周期",
"intent": ["价格咨询", "试用申请"],
"risk_flags": ["承诺交付时间需复核"],
"next_actions": [
{"owner": "sales", "task": "发送报价单", "due": "24h"}
],
"confidence": 0.82
}
用评估集控制模型漂移
先选 30 到 50 段典型通话做评估集,人工标注正确的意图、异议和风险语句。每次改 prompt、换模型或调整转写工具, 都跑一遍评估集,观察字段准确率和误报率。AI 系统上线后最怕“看起来能用”,但关键字段长期不稳定。
摘要是否覆盖客户需求、坐席承诺和未解决问题。
风险标记是否有原文证据,不能只给判断。
下一步动作是否包含负责人、任务和期限。
CRM 字段是否稳定,不因表达方式变化而漂移。
录音和文字稿要按敏感数据处理
通话中可能包含手机号、地址、支付信息和账号信息。系统应该默认做脱敏展示、访问控制和保留周期管理。 如果使用云端模型或第三方转写服务,要确认数据是否用于训练、是否支持删除、是否有企业合规协议。