本文原创作者:姚瑞南 AI-agent 大模型运营专家,先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗;多年人工智能行业智能产品运营及大模型落地经验,拥有AI外呼方向国家专利与PMP项目管理证书。(转载需经授权)
目录
1. 目标
①统一评测规范理解和认知
②规范是否覆盖全
③通过规范进行评分能够客观反应大模型生成话术的优劣水平
2. 评测优先级
优先级排序逻辑:在处理用户提问时,我们会根据以下原则把排序逻辑针对性分类
1、针对上下文:
①话术相关性、话术有效性、话术真实性、话术重复性都要结合上下文判断;话术规范性针对于这一句话判断;
②如果答案可以直接从对应的上文中找到,我们会根据服务流程优先选择,即【符合上文】>【服务流程】;
③结合上下文,指整体会话,而候选句,选最后一句最符合的;
2、针对话术格式:
【上下文回复+安抚】>【上下文回复】;
3、针对话术内容与质量:
①如果答案不完整,我们会优先考虑安抚类、寒暄类,其次是不相符和重复类,即【不完整性】>【安抚、寒暄类】>【不相符、重复类】;
②如果答案不完整,而坐席回复A+B=完整答案,候选句A和B都为不完整答案,主观选择即可;
③****【文字类回复】>【表情符号回复】;
4、针对答案优先级:
①对于同一场景,我们会选择结果最优的答案进行排列。例如,对于M列和O列都选的情况,我们会选取GSB为0。
②针对如果客服在回复中已经给出了明确答案,我们会参考坐席回复,而不是仅仅依靠服务流程规范,即【参考坐席回复】>【服务流程规范】;
③优先参考客服回复,进行优先选择,无法参考,如A列与B列无法选最优,参考最优列A和B占比,那个高选哪个,
不相关先空着,如果相关,优先参考客服回复,进行优先选择,无法参考,都填写;
5、针对结束语:
先确认再邀评。在回答问题后,我们会确认是否还有其他问题,并邀请用户进行评价,即【确认是否还有其他问题】>【邀评】;
6、针对开头语:
优先“确定订单”,“确认问题”再进行开头语的回答,即【确定订单】>【确认问题】>【开头语】;
文章来源于互联网:【智能客服】大模型话术评测规范(AIGC)
5bei.cn大模型教程网










