Large Language Model and Reinforcement Learning
Long Context and Reasoning
Enhanced Reasoning
当模型不自信时中断自回归过程,插入wait,but之类的词语。一方面不需要训练即可提升模型推理能力(因为token量更多了,test time compute),另一方面造出了有反思过程的SFT数据。
s1: Simple test-time scaling,当模型要停止输出时加入wait,验证了越多的token通常带来越好的推理性能。
不自信的判断可以基于Perplexity来确定,这篇文章提出的基于PPL的IFD分数衡量了指令对生成对应响应的帮助程度:Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning
推理增强技术和训练相辅相成,只要存在推理增强的方法,那么训练就能通过SFT或者RL这些数据获得提升。实际上就是将推理增强的这种可能是无法微分的方式训进模型中。
推理增强的技术有:思维链、Best of N、上面的修改自回归的方法(rein);因此模型的最终形态就是用很长的思维链(性能受限且受益于长文)、思维链内部就有很多次尝试且自己就是个reward model(性能受限且受益于自博弈)、善于反思的然后超级自信的模型。
Efficient Training
Reinforcement Learning
PPO based DPO,reward应该有着clip操作。
将SFT加三盲一致能不能等价于一种新的RL算法或者reward计算方式?是不是一条和数学RL不同的路线?
通过设计奖励函数激励模型说真话。将拍卖机制引入强化学习。
Reinforcement Learning materials
System
|