关于minimind训练数据的问题

不知道您是否能够解答我心中一直的一个疑问：通过阅读pretrain_hq.json可以发现，作者的预训练数据集都是用sft对话数据拼凑在一起得到的，为什么要这样做呢，这和预训练再sft效果上有什么区别，是否有相关论文的支持呢