CP-Zero

本项目主要在Code Contest数据集上使用R1-Zero的方法进行训练，并得到了一些有意思的发现以及遇到了一些问题。大家感兴趣的话欢迎一起交流。

整体思路

可以先看Format Score，因为是基座模型是Base模型，所以刚开始格式很难回答对，但是很快，大概100 step左右就基本没有格式错误了。
再看编译错误的比例，这里有一个还算有意思的现象，初始的step其实编译错误也是比较少的，然后模型开始训练的时候，编译错误会迅速涨到一个很高的比例，然后快速降低，在200-300 step左右后降到了一个比较低的比例。
在看看Accept Ratio，这个是随着训练步数一直在提升的。
验证集合上的奖励分也基本是随着训练步数在提升的。

并没有观察到Aha Moment，也就是在think阶段并没有反思总结之类的思考出现。
在训练2000 step后，模型出现think的内容和answer内容不一致，比如think想要实现segment tree，但是answer并没有实现。而且似乎answer的代码越来越短。猜测是可能数据集里没有强样例，所以用segment tree实现性价比不高，复杂容易写错不说，也带不来更高的reward。
回答确实开始逐渐拟人，比如会说I blabla，we blabla，刚开始模型的回复还是那种标准的列出1 2 3 4 5，类似于题解的答案。但是到了3000 step左右开始think开始有些语法不对的情况了。

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
images		images
verl		verl
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
main.sh		main.sh