个性化训练知识库GPT机器人服务介绍

如果你对诸如 GPT-3、 GPT-4 之类的 LLM 技术高速发展感到惊奇和兴奋,迫不及待的想用它做点什么有用的东西!可你的头脑里又有一切令人困惑的问题:

  • 我该如何“训练”一个基于我的内容的模型?

  • 怎么让 AI 知道 2021 年以后的事情?

  • 如何避免让 AI 跟用户胡说八道?

  • 微调(Fine-tuning)和嵌入(Embedding)是什么意思?

那么,唯一客服知识库AI正好能满足你的需要。

知识库AI的目标是让开发者可以快速基于大型语言模型搭建出自有数据训练的个性化机器人。

基本实现流程

想要实现智能AI问答功能,现在大部分都是基于向量数据库的形式。

整体的流程就是:上传文档===>openai向量接口 ====> 存入向量数据库

访客咨询: 咨询问题 ====> openai向量接口 ====>搜索向量数据库 ====> 组织prompt 到 openai的chat接口

Fine-tuning和Embedding的区别

  • 微调就像你通过学习准备考试,是一种长期记忆,但过了一周后考试来临,模型可能会忘记袭击,或者记错它从来没有读过的事实。

  • 嵌入就像记笔记,是一种短期记忆,当考试的时候,你把笔记带上,随时翻看笔记,对于笔记上有的内容可以得到准确的答案。

  • 另外嵌入的搜索提问方式相对于微调有一个缺点就是它每次附带的文本数量是有限制的,因为除了原始的问题,它还需要带上搜索出来的问题,GPT-3.5是4K(大约5页),GPT-4最大是32K(大约40页)。就好比你有成书的教科书可以借鉴,但每次却只能翻看其中几页笔记。

  • 如果你想构建一个对大量文本问答的系统,OpenAI建议“搜索-问”(Search-Ask)的方法。

也就是先在本地文档库中Search,拿到本地的数据结果,再去Ask,把搜索结果和问题一起交给GPT,这样GPT可以根据你提供的内容以及它模型中的数据,一起将结果返还给你。

Fine-tuning和Embedding是两种完全不同的技术,各自适用于不同的场景。Fine-tuning更适合于教授模型新的任务或模式,而不是新的信息。例如,你可以使用Fine-tuning来训练模型生成特定风格的文本,或者执行特定的NLP任务。然而,Fine-tuning并不适合于作为知识存储,也不适合于问答任务。

相反,语义搜索或Embedding则非常适合于问答任务。你可以使用语义搜索来快速找到相关的文档,然后使用大型语言模型来生成答案。此外,与Fine-tuning相比,语义搜索更快、更容易,也更便宜。

因此,如果你的目标是创建一个问答系统,或者你需要在大量的数据中快速找到相关的信息,那么你应该考虑使用语义搜索和Embedding。然而,如果你的目标是教模型执行特定的任务,比如生成特定风格的文本,那么你可能会发现Fine-tuning更有用。

至于如何搜索,并非一定要基于向量的搜索,可以有多重搜索方式:

  • 基于关键字搜索

  • 基于图形的搜索

  • 基于向量的搜索

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!