一个带你 快速入门大语言模型(LLM) 的系列教程项目,从 LLM 基础原理到实践操作,循序渐进讲解核心概念与技能。
本项目分为两部分:
- 基础篇《大模型炼丹术》:面向具有Python与深度学习基础的LLM初学者,讲解 LLM 核心概念与基础实现;
- 进阶篇《MiniMind 源码解读》:面向进阶读者,在学习完基础篇后,进一步深入 LLM 内部机制,讲解现代化大语言模型的关键技术与优化方法。
- 有Python与深度学习基础,想快速掌握LLM(只看基础篇即可)
- 想了解现代LLM架构与训练技巧(基础篇+进阶篇),并动手实践的学生和开发者
💡 基础篇主要介绍核心概念,帮助你快速上手 LLM。
基础篇主要参考了《Building LLMs from scratch》
学完基础篇,你将掌握 LLM 的核心知识,包括:
- Tokenizer 与数据预处理
- Embedding 原理
- Causal Attention
- 从零搭建 GPT-2 架构
- 自回归预训练
- 微调与指令微调
💡 MiniMind 是一个轻量级大语言模型开源项目,代码规范易读,并且涵盖了现代 LLM 的核心技术点。进阶篇将通过对MiniMind源码解读的方式,深入 LLM 内部机制,讲解现代大语言模型的关键技术与优化方法。事实上,可以将进阶篇看作是对于基础篇中一些未提及的核心概念的查漏补缺。
学完进阶篇,你将掌握:
- 从零训练 tokenizer
- RMSNorm 与模型归一化
- 正余弦位置编码的局限与 RoPE 旋转位置编码
- 注意力机制优化(GQA、MQA、KV Cache)
- 稀疏模型 MoE
- MiniMind 架构搭建
- 自回归预训练、指令微调、DPO、LoRA 微调、LLM 蒸馏
| 姓名 | 职责 | 简介 |
|---|---|---|
| 付修磊 | 项目负责人 | 坚信以输出驱动输入,并通过输出来深化理解和巩固知识 |
- 如果你发现了一些问题,可以提Issue进行反馈,如果提完没有人回复你可以联系保姆团队的同学进行反馈跟进~
- 如果你想参与贡献本项目,可以提Pull request,如果提完没有人回复你可以联系保姆团队的同学进行反馈跟进~
- 如果你对 Datawhale 很感兴趣并想要发起一个新的项目,请按照Datawhale开源项目指南进行操作即可~
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
注:默认使用CC 4.0协议,也可根据自身项目情况选用其他协议
