训练tokenizer部分，查看数据那个步骤会消耗迭代器 导致没有语料进入tokenizer训练

感谢您精心制作的教程，但是在复现第一章的时候遇到这个**迭代器用法**导致的问题
在这一步中
<img width="1238" height="269" alt="Image" src="https://github.com/user-attachments/assets/715d6dde-29e0-45c3-9665-212f9316d65e" />
python中的迭代器被转换为列表之后，他就已经被完全遍历了（消耗掉了）

因此后面的从迭代器训练tokenizer步骤会读入空的迭代器（没有语料进入训练）

<img width="1221" height="177" alt="Image" src="https://github.com/user-attachments/assets/cbd55279-51cf-4438-a042-941d77686243" />
这也是您的教程中测试结果他的tokenizer实际词表长度并没有增长的原因

`259 =初始词表长度(256)+三个特殊token`

<img width="1355" height="606" alt="Image" src="https://github.com/user-attachments/assets/1ca7af90-48ae-4174-8353-bbd253366c87" />
并且这样训练出来的merges为空

可以考虑后面在训练之前再执行一次
`texts = read_texts_from_jsonl(data_path)`

这样训练出来的tokenizer会扩充词表，并且得到merges

<img width="1077" height="566" alt="Image" src="https://github.com/user-attachments/assets/c521f73e-f46d-4a3b-b28a-8d333ff3c08e" />

<img width="1169" height="913" alt="Image" src="https://github.com/user-attachments/assets/4108d378-5d98-47d9-a48b-fea93bea59d8" />

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

训练tokenizer部分，查看数据那个步骤会消耗迭代器导致没有语料进入tokenizer训练 #6

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

训练tokenizer部分，查看数据那个步骤会消耗迭代器 导致没有语料进入tokenizer训练 #6

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions

训练tokenizer部分，查看数据那个步骤会消耗迭代器导致没有语料进入tokenizer训练 #6