ChatGPT笔记

2023-01-10  本文已影响0人  臻甄

简介

可参考的官方链接

使用的数据集

什么是GPT

什么是ChatGPT

ChatGPT历史

什么是RLHF

RLHF整体框架(参考InstructGPT)

根据OpenAI的思路,RLHF里分3步:


InstructGPT

什么是 PPO

PPO(Proximal Policy Optimization) 一种新型的Policy Gradient算法(Policy Gradient是一种强化学习算法,通过优化智能体的行为策略来解决在环境中实现目标的问题)。我们只需了解普通的Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长。在训练过程中新旧策略的的变化差异如果过大则不利于学习。
而PPO提出了新的目标函数可以在多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题。由于其实现简单、性能稳定、能同时处理离散/连续动作空间问题、利于大规模训练等优势,近年来受到广泛关注,成为OpenAI默认强化学习算法。

几个做RLHF的项目

几篇RLHF最热门的必读论文

参考

抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文 https://zhuanlan.zhihu.com/p/592671478
从零实现ChatGPT——RLHF技术笔记 https://zhuanlan.zhihu.com/p/591474085
算法工程师深度解构ChatGPT技术 https://juejin.cn/post/7176077467092779068

上一篇 下一篇

猜你喜欢

热点阅读