在高层次上,ChatGPT是一个深度学习模型,使用神经网络来生成类似人类的文本。 该模型的具体版本,即ChatGPT-3,是基于一种叫做变压器架构的技术。 这种类型的架构使模型能够识别语言中的模式和结构。 它通过处理一个标记序列并生成一个输出序列来实现这一目标。
该模型吸收了大量的文本数据集,包括书籍、文章、网站等等。 在训练过程中,该模型接收了数以百万计的文本实例,并要求预测每个序列中的下一个单词。
与ChatGPT互动的方式是提供一个提示或一个问题。 然后,该模型根据它从训练数据中学到的模式生成一个反应。 其结果是一个高度智能的自然语言处理(NLP)工具。
GPT(生成式预训练转化器)是什么意思?
GPT中的 “生成性 “代表其生成自然人类语言文本的能力。 “预训练 “表示模型已经在一些有限的数据集上训练过了。 另一方面,”Transformer “代表为GPT提供动力的底层机器学习架构。
使用ChatGPT的原因是什么?
作为一个由 OpenAI 训练的语言模型,ChatGPT具有广泛的能力,可以执行许多不同的任务。 以下是ChatGPT可以做的一些事情:
- 回答问题:ChatGPT可以用自然语言回答问题,提供关于各种主题的信息。
- 生成文本:它可以生成各种风格和色调的类似人类的文本,使其在 内容创作 和文本生成方面非常有用。
- 总结文本:ChatGPT可以对长篇文章或文件进行简明扼要的概述,使人容易快速理解主要观点。
- 翻译文本:它具有将文字从一种语言翻译成另一种语言的能力,使其在与讲不同语言的人交流时非常有用。
- 生成诗歌:ChatGPT可以创建各种风格的原创诗歌,为诗人和作家提供灵感和范例。
- 提供写作反馈:ChatGPT分析写作,并就语法、风格和语气等因素提供反馈,帮助作者提高他们的技艺。
ChatGPT是如何培训的?
一种叫做变换器架构的深度学习技术训练了chatGPT。 该模型的具体版本ChatGPT-3吸收了超过45兆字节的大量文本数据集。
监督下的微调(SFT)模型
在最初的发展中,GPT-3模型通过与40个承包商签订合同来产生一个监督训练数据集,其中输入有一个已知的结果,模型可以学习。 输入,或提示,是用户对开放API的实际输入。
奖励模式
下一步是使用奖励模型来提高生成的反应的质量。 奖励模型对SFT模型的输出进行评估。 然后,它根据它与所需输出的匹配程度来分配一个分数。
强化学习模型
最后一步是使用强化学习方法来进一步提高GPT的性能。 近似政策优化 算法包括让人工智能聊天机器人在模拟环境中与用户互动。 然后,它根据其表现的好坏收到一个奖励信号。
业绩评估
人类劳动者的投入训练了模型。 这就是为什么评估的核心部分依赖于人类的反馈,引导标签人员对模型输出的质量进行评级。
有三个高层次的标准来评价这个模型:
- 帮助性 :评估模型遵循和推断用户指令的能力。
- 真实性: 在封闭领域的任务中,评估模型对幻觉(编造事实)的倾向性。 该模型使用TruthfulQA数据集进行了测试。
- 无害性: 评估模型的输出是否适当,是否贬低受保护的阶层,或包含贬低的内容。
- 选择一个ChatGPT API或库 :有各种API和库可用于使用ChatGPT。 选择一个最适合你的需求和编程经验的方案。
- 创建一个账户并获得一个API密钥(如果适用) :在使用API的情况下,创建一个账户和获得API密钥将是使用ChatGPT的必要条件。 遵循API供应商提供的指示。
- 安装所需的库(如果使用一个库) :如果使用像 “拥抱脸谱 “这样的库,在编程环境中安装所需的库将是必要的。
- 初始化ChatGPT :一旦有了所需的库或API密钥,在程序中初始化ChatGPT模型。
- 输入提示语 :要使用ChatGPT,如果想产生反应,有必要提供一个提示,描述对话的背景或主题。
- 生成响应 :一旦提供了提示,ChatGPT模型就会根据输入的提示和其训练数据的上下文生成一个反应。
- 评估和完善响应 :生成的回答的质量可能因输入的提示和其他因素而不同。 检查回复,因为它仍然需要帮助辨别事实和错误信息。
- 重复 :根据需要多次重复第5-7步,以产生符合你需要的对话或一系列的回应。