verifiers_rl recipe updates for verifiers v0.1.8 release #133

willccbb · 2025-11-26T05:44:07Z

Reorganization of data flow for the verifiers_rl recipe to utilize new internal structure from verifiers>=0.1.8, including encapsulation of rollout data within a State object which can be more directly translated to the tinker TrajectoryGroup format.

This allows maintaining only a single generic OpenAI client (rather than one per-rollout with a hook for data tracking), and adds support for groupwise rewards from verifiers Rubric classes.

Tested on the reverse-text training example.

Tiiiger

Thanks!

verifiers_rl updates for verifiers v0.1.8

bb075c9

willccbb marked this pull request as draft November 26, 2025 06:43

willccbb added 2 commits November 25, 2025 22:49

pyright fix

918edd1

streamline vf_env management

9121545

willccbb marked this pull request as ready for review November 29, 2025 10:24

willccbb changed the title ~~[DRAFT] verifiers_rl updates for verifiers v0.1.8 release~~ verifiers_rl recipe updates for verifiers v0.1.8 release Nov 29, 2025

Tiiiger approved these changes Dec 2, 2025

View reviewed changes

Tiiiger merged commit d177465 into thinking-machines-lab:main Dec 2, 2025
3 of 4 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

verifiers_rl recipe updates for verifiers v0.1.8 release #133

verifiers_rl recipe updates for verifiers v0.1.8 release #133

Uh oh!

willccbb commented Nov 26, 2025

Uh oh!

Tiiiger left a comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

verifiers_rl recipe updates for verifiers v0.1.8 release #133

verifiers_rl recipe updates for verifiers v0.1.8 release #133

Uh oh!

Conversation

willccbb commented Nov 26, 2025

Uh oh!

Tiiiger left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants