分享

GPT-4 与 ChatGPT:对训练、性能、能力和局限性的探索



GPT-4 是一种改进,但要降低期望。


1.png

OpenAI 在 2022 年底放弃ChatGPT时震惊了世界。新的生成语言模型有望彻底改变整个行业,包括媒体、教育、法律和技术。简而言之,ChatGPT 有可能颠覆一切。甚至在我们有时间真正设想一个后 ChatGPT 世界之前,OpenAI 就放弃了GPT-4。

最近几个月,突破性的大型语言模型的发布速度令人震惊。如果您仍然不了解 ChatGPT 与 GPT-3 有何不同,更不用说 GPT-4,我不怪您。

在本文中,我们将介绍 ChatGPT 和 GPT-4 之间的主要异同,包括它们的训练方法、性能和功能以及局限性。


ChatGPT vs. GPT-4:训练方法的异同
ChatGPT 和 GPT-4 都站在巨人的肩膀上,在之前版本的 GPT 模型的基础上,对模型架构进行了改进,采用了更复杂的训练方法,增加了训练参数的数量。

两种模型都基于变压器架构。GPT-2和GPT-3使用多头自注意力来决定最关注哪些文本输入。这些模型还使用一种仅解码器的架构,一次生成一个标记的输出序列,迭代地预测序列中的下一个标记。虽然 ChatGPT 和 GPT-4 的精确架构尚未发布,但我们可以假设它们仍然是仅解码器模型。

OpenAI 的GPT-4 技术报告几乎没有提供有关 GPT-4 模型架构和训练过程的信息,引用了“竞争格局和大型模型的安全影响”。我们所知道的是,ChatGPT 和 GPT-4 可能以类似的方式进行训练,这与用于 GPT-2 和 GPT-3 的训练方法不同。我们对 ChatGPT 的训练方法比 GPT-4 了解更多,所以我们将从这里开始。


聊天GPT
首先,ChatGPT 在对话数据集上接受训练,包括演示数据,其中人工注释者提供聊天机器人助手响应特定提示的预期输出的演示。此数据用于通过监督学习微调 GPT3.5,生成策略模型,用于在输入提示时生成多个响应。然后人工注释者对给定提示的哪些响应产生最佳结果进行排名,用于训练奖励模型。然后使用奖励模型通过强化学习迭代地微调策略模型。


1.png
一句话概括,ChatGPT 是使用人类反馈强化学习(RLHF) 进行训练的,这是一种在训练过程中结合人类反馈来改进语言模型的方法。这允许模型的输出与用户请求的任务保持一致,而不是仅仅基于通用训练数据的语料库(如 GPT-3)预测句子中的下一个单词。

GPT-4
OpenAI 尚未透露其如何训练 GPT-4 的细节。他们的技术报告不包括“关于架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法或类似内容的详细信息。” 我们所知道的是,GPT-4 是一种 transformer 式的生成多模态模型,在公开可用数据和许可的第三方数据上进行训练,随后使用 RLHF 进行微调。有趣的是,OpenAI 确实分享了有关其升级的 RLHF 技术的详细信息,以使模型响应更加准确,并且不太可能偏离安全护栏。

在训练策略模型(与 ChatGPT 一样)后,RLHF 用于对抗性训练,该过程根据旨在欺骗模型的恶意示例训练模型,以便在未来保护模型免受此类示例的侵害。就 GPT-4 而言,多个领域的人类领域专家对政策模型对对抗性提示的反应进行了评级。然后使用这些响应来训练额外的奖励模型,这些模型迭代地微调策略模型,从而产生不太可能给出危险、回避或不准确响应的模型。


1.png

ChatGPT 与 GPT-4:性能和功能的异同
能力
在功能方面,ChatGPT 和 GPT-4 的相似之处多于不同之处。与其前身一样,GPT-4 也以旨在与用户保持一致的对话方式进行交互。正如您在下面看到的,两个模型对广泛问题的回答非常相似。


1.png

OpenAI 同意模型之间的区别可能很微妙,并声称“当任务的复杂性达到足够的阈值时,就会出现差异。” 考虑到 GPT-4 基础模型在训练后阶段经历了六个月的对抗训练,这可能是一个准确的表征。

与仅接受文本的 ChatGPT 不同,GPT-4 接受由图像和文本组成的提示,返回文本响应。不幸的是,截至本文发布时,公众尚无法使用图像输入功能。


表现
如前所述,与 GPT-3.5(ChatGPT 从中微调)相比,OpenAI 报告称 GPT-4 的安全性能有了显着提高。然而,对禁止内容请求的响应减少、有害内容生成的减少以及对敏感主题响应的改进是由于 GPT-4 模型本身还是额外的对抗性测试,目前尚不清楚。

此外,在人类参加的大多数学术和专业考试中,GPT-4 的表现优于 GPT-3.5。值得注意的是,与 GPT-3.5 相比,GPT-4 在统一律师考试中的得分排名第 90 个百分位,而 GPT-3.5 的得分排名第 10 个百分位。GPT-4 在传统语言模型基准测试以及其他 SOTA 模型上的表现也明显优于其前身(尽管有时只是勉强)。



ChatGPT 与 GPT-4:风险的异同
ChatGPT 和 GPT-4 都有很大的局限性和风险。GPT-4 系统卡包含来自 OpenAI 对此类风险的详细探索的见解。

这些只是与这两种模型相关的一些风险:

  • 幻觉(倾向于产生无意义或事实不准确的内容)
  • 制作违反 OpenAI 政策的有害内容(例如仇恨言论、煽动暴力)
  • 扩大和延续对边缘化人群的刻板印象
  • 生成旨在欺骗的现实虚假信息
  • 虽然 ChatGPT 和 GPT-4 与相同的限制和风险作斗争,但 OpenAI 做出了特殊的努力,包括广泛的对抗性测试,以减轻 GPT-4 的限制和风险。虽然这令人鼓舞,但 GPT-4 系统卡最终证明了 ChatGPT 是多么脆弱(并且可能仍然如此)。有关有害意外后果的更详细解释,我建议阅读 GPT-4 系统卡,它从 GPT -4 技术报告的第 38 页开始。



结论
在本文中,我们回顾了 ChatGPT 和 GPT-4 之间最重要的相似点和不同点,包括它们的训练方法、性能和能力,以及局限性和风险。

虽然我们对 GPT-4 背后的模型架构和训练方法知之甚少,但它似乎是 ChatGPT 的改进版本,现在接受图像和文本输入,并声称更安全、更准确、更具创意。不幸的是,我们将不得不相信 OpenAI 的话,因为 GPT-4 仅作为 ChatGPT Plus 订阅的一部分提供。

下表说明了 ChatGPT 和 GPT-4 之间最重要的相似点和不同点:


1.png
创建最准确和动态的大型语言模型的竞赛已经达到了极快的速度,ChatGPT 和 GPT-4 的发布时间相差仅几个月。在我们驾驭大型语言模型这个令人兴奋但快速发展的领域时,了解这些模型的进步、风险和局限性至关重要。


中文ChatGPT-智能星问世
https://www.aboutyun.com/forum.php?mod=viewthread&tid=35063




ChatGPT免费交流社区:




获取更多资源:
领取100本书+1T资源
http://www.aboutyun.com/forum.php?mod=viewthread&tid=26480

大数据5个项目视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=25235

名企资源、名企面试题、最新BAT面试题、专题面试题等资源汇总
https://www.aboutyun.com/forum.php?mod=viewthread&tid=27732

加微信w3aboutyun,可拉入技术爱好者群

已有(1)人评论

跳转到指定楼层
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条