不知道您是否能够解答我心中一直的一个疑问:通过阅读pretrain_hq.json可以发现,作者的预训练数据集都是用sft对话数据拼凑在一起得到的,为什么要这样做呢,这和预训练再sft效果上有什么区别,是否有相关论文的支持呢
不知道您是否能够解答我心中一直的一个疑问:通过阅读pretrain_hq.json可以发现,作者的预训练数据集都是用sft对话数据拼凑在一起得到的,为什么要这样做呢,这和预训练再sft效果上有什么区别,是否有相关论文的支持呢