如何购买建设网站系统,官网网站建设需求,网站建设宣传图ps,北京北排建设公司招标网站#x1f4cd;前言
在日常生活中#xff0c;「客服」这个角色几乎贯穿着我们生活的方方面面。比如#xff0c;淘宝买东西时#xff0c;需要客服帮你解答疑惑。快递丢失时#xff0c;需要客服帮忙找回。报名参加培训课程时#xff0c;需要客服帮忙解答更适合的课程……
基…前言
在日常生活中「客服」这个角色几乎贯穿着我们生活的方方面面。比如淘宝买东西时需要客服帮你解答疑惑。快递丢失时需要客服帮忙找回。报名参加培训课程时需要客服帮忙解答更适合的课程……
基于此背景下可以了解到客服在我们生活中的重要性。传统的客服更多是以「一对一人工回复」的方式来帮我们解答疑惑。那在以GPT为例的各类大模型爆火之后纷纷涌现出一些新奇的「智能客服」。那在下面的文章中就将来聊聊关于大模型在智能客服领域相关的一些落地方案。
以下文章整理自 稀土开发者大会2023·大模型与AIGC-掘金 第二部分讲解关于 Think Academy 公司基于GPT的智能客服落地实践方案。
一、项目背景
该公司想要做这个项目的背景如下
从业务场景出发希望提供一个体验更好响应更实时的智能客服。从技术层面出发跟进新技术以及验证大模型在生产环境下的可应用性和可塑性。 基于上面的背景信息分析出即将要做的智能客服系统要满足以下几个场景
回答教育机构的教学理念、如何上课等类似静态的相关咨询。当用户问到和入学测相关的问题时会去引导用户去添加相关的教学主任之后做相关的转化的动作。希望大模型只回答业务相关的问题。 有了上面的基本信息铺垫以后接下来来介绍关于智能客服系统的第一个版本。
二、问答客服V_1.0 — 基于企业专有知识库的客服系统 技术选型、方案设计、数据表现及缺陷 1、如果让大模型学会特定领域知识
1两种学习方式
首先在刚开始我们调研到了有两种预训练方式Fine-tuning Learning和In-context Learning。
Fine-tuning和In-context Learning是机器学习中用于调整预训练模型的两种不同方法。它们之间的主要差异有
Fine-tuning微调
定义在预训练模型的基础上用特定任务的数据集进行再训练调整模型的参数以适应新任务。数据需求需要一定量的标记数据来进行微调。训练时间根据任务的复杂性和数据量的大小微调可能需要一定的时间和计算资源。泛化能力微调后的模型在特定任务上表现很好但可能在其他任务上表现不佳。应用范围适用于有足够数据的任务并且希望模型在这个特定任务上达到最佳性能。灵活性一旦微调完成模型就固定了想要适应新任务需要再次微调。
In-context Learning上下文学习
定义在不改变预训练模型的参数的情况下通过向模型提供包含任务信息的上下文来使其执行特定任务。数据需求不需要额外的训练数据但是需要为每个任务设计合适的上下文。训练时间不需要再训练可以立即用于各种任务。泛化能力可以应用于多种任务但性能可能不如微调后的模型。应用范围适用于数据稀缺和任务多样的场景。灵活性非常灵活可以通过改变上下文来快速适应新任务。
总的来说如果你有足够的标记数据并且希望在特定任务上获得最佳性能微调可能是更好的选择。而如果你需要模型适应多种任务并且希望迅速部署上下文学习可能更合适。
因此基于上述两种学习方式的调研后最终V1.0版本选择了 In-context Learning 的预训练方式。 2in-context learing
确定了上面这种预训练模式之后接下来就要思考Prompt该怎么进行组织。可以理解为给定一个题目如何让大模型有相应的回答。
那在解决这个问题的过程中就需要去攻克之后三个问题
语料要如何组织如何匹配到和用户问题相关的语料token如何进行限制 2、V1.0系统设计
有了上面的问题接下来就是攻克上面这三个问题。
1知识库的搭建
第一个是解决关于语料的问题。在V1.0版本中采用的是人为清洗数据的方式。
可以看下图左边是原始语料会先先人为地对这些数据先清洗一下得到最后要使用的数据。
之后呢就是把清洗后的数据转换为右边的结构化语料。 2全局流程图
接着是攻克第二和第三个问题请看关于该系统 V1.0 版本的全局流程图 3、线上数据表现
V1.0系统搭建完成了下面来看看线上的数据表现。可以看下左边这张图里面有关于相关问题回复评分和不相关问题评分。
最终得出的结论是
相关问题评分 → 1分2分的问题还是比较多1分case基本算是一本正经地胡说八道了。不相关问题评分 → 整体表现还可以。 4、设计缺陷
在分析了线上数据之后V1.0版本的设计总结出有以下缺陷
需要扩展更多的覆盖场景如老师咨询、课程咨询等。动态信息的维护麻烦给业务增加过多的维护成本。比如很多短期的活动、每学期的上课课程、上课时间等内容都会频繁地变动这无形中给业务方带来了很大的麻烦。部分情况下ChatGPT存在自由发挥的情况不完全可控。 三、问答客服V_2.0 — 基于指令识别的智能客服系统 技术选型、AutoGPT原理介绍、方案设计、数据表现 分析了设计缺陷之后接下来就继续迭代了V2.0版本可以说是从问答客服到智能客服的一个转变。
1、问答客服升级为智能客服
V2.0总结下来就是基于指令识别的智能客服系统。
基于V1.0的设计缺陷到了设计V2.0时第一想法就是去扩展相关的语料库。以此让GPT回答公司更多的业务问题和更多的教学场景。
但在实践过程中发现随着语料的数据量增加会导致匹配准确率直线下降。又或者如果语料的相似度很高也会导致匹配的准确率直线下降。比如老师信息和课程信息有可能只是两个老师的名字不同但其他内容都相同。这也就是下图提到的方案一。
就在烦于要用什么方案来解决时候AutoGPT问世了于是借助AutoGPT的设计思想也就有了下面方案二的方案。 2、AutoGPT原理介绍
AutoGPT的原理是基于预训练语言模型使用大量的语料库进行训练从而学习到自然语言的规律和特征进而生成符合语法和语义规则的文章。AutoGPT是GPT的改进版通过自动搜索算法来优化GPT的超参数从而提高其在各种任务上的表现。
AutoGPT使用多层的自注意力机制和前馈神经网络可以有效地处理长文本序列从而提高生成文章的质量和准确性。在生成文章时AutoGPT会根据输入的文本内容通过预训练模型进行编码然后使用解码器生成符合语法和语义规则的文章。 3、AutoGPT 的 Prompt组织形式
AutoGPT也是基于Prompt来进行组织的总结下来主要有三种组织形式
内置能力数据结构化记忆缓冲区 1内置能力
AutoGPT内置了很多工程上的能力比如
Google Search文件的读写类似github相关的代码拉取等等……
这些都定义在AutoGPT它内部的程序里面。 2数据结构化
第二个是数据结构化。相当于AutoGPT要求ChatGPT的返回必须是一个JSON结构。 3记忆缓冲区
AutoGPT的记忆缓冲区是指用于存储临时数据或信息的区域。在AutoGPT中记忆缓冲区可能用于存储生成的文本片段、上下文信息或其他临时数据以便在生成过程中使用。这样的缓冲区有助于AutoGPT在处理长文本序列时保持连贯性和一致性从而提高生成文章的质量和准确性。 4、AutoGPT流程图
了解了上面AutoGPT的基本原理和三种组织形式以后下面来看AutoGPT的流程图。如下图所示: 5、V_2.0 设计过程
1方案设计
该公司参考了上面AutoGPT的思想就有了V2.0的方案设计。
如下图所示最左边就是整个业务系统的提示词其中内置了几种命令。比如第一个是获取老师的命令、第二个是获取课程信息的命令、第三个是兜底的命令如果走的逻辑不是前面两种类型的命令那么就会去执行原来V1.0方案的命令让GPT「基于知识库去回答用户问题」的命令。 2整体流程
下面我们来看下V2.0的整体实现流程如下图所示 3调试数据
最后来分析下V2.0方案中调试数据的整体过程表现。如下图所示 四、总结 迭代过程中的一些心得和思考 1、思考与总结
经过上面两个版本的迭代得到了一些总结。如下所示
开发思维 —— 相信大模型很聪明并尽量让它做更多的事情。
模型能力 —— 详细了解各模型和参数的使用以及prompt组织形式的设计。
效果调优 —— 根据业务场景明确调优方案和目标做好预期管理。 2、讨论
AutoGPT在调用的过程中会存在死循环
五、彩蛋One More things 稀土开发者大会2023·大模型与AIGC-掘金 PPT下载回放链接2023稀土开发者大会大模型与 AIGC 分论坛