ChatGPT 简介

ChatGPT 现在还处于测试阶段，可以看出在未来它可以极大地提升人类的生产力。但由于这是一个新鲜事物，还没有完善的法规和政策对它进行约束和规范，所以可能会存在一些数据安全等问题。要想实现ChatGPT以及类似产品在国内的落地与商业化，还有很长的路要走。

Alexxinlu

61643人浏览 · 2023-02-09 14:57:22

Alexxinlu · 2023-02-09 14:57:22 发布

1 背景与发展历程

1.1 背景

ChatGPT是由OpenAI开发的一个人工智能聊天机器人程序，于2022年11月推出。该程序使用基于GPT3.5架构的大型语言模型并通过强化学习进行训练。

ChatGPT以文字方式互动，除了可以透过人类自然对话方式进行交互，还可以用于相对复杂的语言工作，包括自动文本生成、自动问答、自动摘要等在内的多种任务。如：在自动文本生成方面，ChatGPT可以根据输入的文本自动生成类似的文本，在自动问答方面，ChatGPT可以根据输入的问题自动生成答案。还具有编写和调试计算机程序的能力。

ChatGPT因其在许多知识领域给出详细的回答和清晰的答案而迅速获得关注，但其事实准确性参差不齐被认为是一重大缺陷。ChatGPT于2022年11月发布后，OpenAI估值已涨至290亿美元。上线两个月后，用户数量达到1亿。

ChatGPT主要包含以下特点：

(1) OpenAI使用 RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）技术对 ChatGPT 进行了训练，且加入了更多人工监督进行微调。
(2) 可以主动承认自身错误。若用户指出其错误，模型会听取意见并优化答案。
(3) ChatGPT 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时，机器人会说明哥伦布不属于这一时代并调整输出结果。
(4) ChatGPT 可以承认自身的无知，承认对专业技术的不了解。
(5) 支持连续多轮对话。
(6) ChatGPT可以通过分析语料库中的模式和敏感词或句子来识别敏感话题（种族，政治，人身攻击等）。它将会自动识别可能触发敏感问题的输入，并且可以自动过滤掉敏感内容，最大程度地确保用户的安全。此外，它也可以帮助用户识别出可能触发敏感问题的话题，从而避免他们无意中使用不当的语言破坏聊天气氛。

在这里插入图片描述

图1 示例：ChatGPT 写自我介绍

在这里插入图片描述

图2 示例：ChatGPT 改代码 Bug

在这里插入图片描述

图3 示例：ChatGPT 写代码

1.2 发展历程

在过去几年中，Google一直是NLP领域大规模预训练模型的引领者，而2022年11月ChatGPT的发布，其效果惊艳了众多专业以及非专业人士，虽然Google也紧接着发布了类似的Bard模型，但已经错失了先机。下图是这场旷日持久的AI暗战之下的关键技术时间线。
在这里插入图片描述

图4 Google与OpenAI在LLM领域的发展时间线

2 技术原理

在这里插入图片描述

图5 ChatGPT 模型的训练过程

在整体技术路线上，ChatGPT在效果强大的GPT 3.5大规模语言模型（LLM，Large Language Model）基础上，引入“人工标注数据+强化学习”（RLHF，Reinforcement Learning from Human Feedback）来不断微调（Fine-tune）预训练语言模型，主要目的是让LLM模型学会理解人类的命令指令的含义（比如给我写一段小作文生成类问题、知识回答类问题、头脑风暴类问题等不同类型的命令），以及让LLM学会判断对于用户给定的问题（也称prompt），什么样的答案是优质的（富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等多种标准）。

具体而言，ChatGPT的训练过程分为三个阶段：

2.1 第一阶段：训练监督策略模型

GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图，也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图，首先会在数据集中随机抽取问题，由专业的人类标注人员，给出每个问题（prompt）的高质量答案，形成<prompt,answer>问答对，然后用这些人工标注好的数据来微调 GPT-3.5模型（获得SFT模型, Supervised Fine-Tuning）。

经过这个过程，可以认为SFT初步具备了理解人类问题中所包含意图，并根据这个意图给出相对高质量回答的能力，但是很明显，仅仅这样做是不够的，因为其回答不一定符合人类偏好。

2.2 第二阶段：训练奖励模型

这个阶段主要是通过人工标注训练数据，来训练奖励模型（Reward Mode）。在数据集中随机抽取问题，使用第一阶段训练得到的模型，对于每个问题，生成多个不同的回答。人类标注者对这些结果综合考虑（例如：相关性、富含信息性、有害信息等诸多标准）给出排名顺序。这一过程类似于教练或老师辅导。

接下来，使用这个排序结果数据来训练奖励模型。对多个排序结果，两两组合，形成多个训练数据对。奖励模型接受一个输入，给出评价回答质量的分数。这样，对于一对训练数据，调节参数使得高质量回答的打分比低质量的打分要高。

2.3 第三阶段：采用强化学习来增强模型的能力。

PPO（Proximal Policy Optimization，近端策略优化）强化学习模型的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy，即将在线学习转化为离线学习，这个转化过程被称之为Importance Sampling。PPO由第一阶段的监督策略模型来初始化模型的参数，这一阶段利用第二阶段训练好的奖励模型，靠奖励打分来更新预训练模型参数。具体而言，在数据集中随机抽取问题，使用PPO模型生成回答，并用上一阶段训练好的奖励模型给出质量分数。把奖励分数依次传递，由此产生策略梯度，通过强化学习的方式以更新PPO模型参数。

如果我们不断重复第二和第三阶段，通过迭代，会训练出更高质量的ChatGPT模型。

从上述原理可以看出，ChatGPT具有以下几个优势：(1) ChatGPT 的基模型GPT3.5使用了千亿级的数据进行了预训练，模型可谓是“见多识广”；(2) ChatGPT 在强化学习的框架下，可以不断学习和优化。

3 国内使用情况及应用的领域

ChatGPT 目前仍然处于体验和试用阶段，且未在国内进行开放注册，所以国内暂时还没有实际性的应用。不过在ChatGPT发布之后，国内开始出现平替产品，例如近期国内正式发布的首个功能对话大模型ChatYuan。

ChatGPT 由美国OpenAI公司于2022年11月发布，官网暂未对国内进行开放，但有其他方法可以使用，教程详见这里。

ChatYuan由中国初创公司元语智能2022年12月发布，在线体验网址为：www.clueai.cn/chat。

4 面临的数据安全挑战与建议

ChatGPT存在一些数据安全问题，这些问题分为两类，一类是ChatGPT获取数据产生的问题，一类是ChatGPT恶意利用产生的问题。

4.1 ChatGPT获取数据产生的问题

4.1.1 数据泄露问题

用户在使用ChatGPT时会输入信息，由于ChatGPT强大的功能，一些员工使用ChatGPT辅助其工作，这引起了公司对于商业秘密泄露的担忧。因为输入的信息可能会被用作ChatGPT进一步迭代的训练数据。

建议：ChatGPT可提升工作生产力，不建议完全禁用，公司可以制定相应的规则制度，并且开发相应的机密信息检测工具，指导并辅助员工更安全地使用ChatGPT。

4.1.2 删除权问题

ChatGPT用户必须同意公司可以使用用户和ChatGPT产生的所有输入和输出，同时承诺ChatGPT会从其使用的记录中删除所有个人身份信息。然而ChatGPT未说明其如何删除信息，而且由于被收集的数据将用于ChatGPT不断的学习中，很难保证完全擦除个人信息痕迹。

建议：要求ChatGPT给出明确的删除信息的流程，与使用的公司达成协议。

4.1.3 语料库获取合规问题

如果ChatGPT通过抓取互联网上的信息获得其训练数据，可能并不合法。网站上的隐私政策条款本身表明数据不能被第三方收集，ChatGPT抓取数据会涉及违反合同。在许多司法管辖区，合理使用原则在某些情况下允许未经所有者同意或版权使用信息，包括研究、引用、新闻报道、教学讽刺或批评目的。但是ChatGPT并不适用该原则，因为合理使用原则只允许访问有限信息，而不是获取整个网站的信息。在个人层面，ChatGPT需要解决未经用户同意大量数据抓取是否涉及侵犯个人信息的问题。

建议：要求ChatGPT公布数据的使用明细与脱敏流程，对于不符合规范的行为，要求其进行删除。在使用的过程中，如果发现有侵犯隐私信息的情况，也可以要求其进行改进。

4.2 ChatGPT恶意利用产生的问题

用户对ChatGPT的恶意利用也会带来很多数据安全问题，如：(1) 撞库：生成大量可用于对在线帐户进行自动攻击的潜在用户名和密码组合，进行撞库攻击；(2) 生成恶意软件：利用自然语言编写的能力，编写恶意软件，从而逃避防病毒软件的检测；(3) 诱骗信息：利用ChatGPT的编写功能，生成钓鱼电子邮件；利用对话功能，冒充真实的人或者组织骗取他人信息。

建议：对于使用ChatGPT的用户，需要要求其明确指出内容是使用ChatGPT生成的。也可以使用技术手段，自动检测ChatGPT生成的内容（例如近期斯坦福大学推出DetectGPT，以应对学生通过ChatGPT生成论文），并进行进一步的干预。

5 结语

6 参考

[1] ChatGPT官网
[2] ChatGPT会取代搜索引擎吗
[3] ChatGPT发展历程、原理、技术架构详解和产业未来
[4] ChatGPT面临的数据安全挑战
[5] ChatGPT维基百科
[6] AI 真要成精了？ChatGPT 上手体验
[7] OpenAI 何以掀翻 Google 布局多年的AI大棋？

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生