OpenChat

2024-04-21  本文已影响0人  臻甄

· 标题:OpenChat: Advancing Open-source Language Models with Mixed-Quality Data
· 链接: https://arxiv.org/abs/2309.11235
· 代码: https://github.com/imoneoi/openchat
· 模型: https://huggingface.co/openchat
· 演示: https://openchat.team/zh

Motivation

Contribution

Key Idea

(2)为了弥补coarse-grained reward的缺陷,跟OfflineRL那样用KKT条件推导了带KL限制的最大化reward的优化方式,把一个带限制的最大化目标问题,一个简单的奖励加权回归目标问题。

Experiment $ Analysis

参考

https://air.tsinghua.edu.cn/info/1007/2174.htm

上一篇 下一篇

猜你喜欢

热点阅读