Skip to content

hans0809/llm-in-depth

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 

Repository files navigation

llm-in-depth

一个带你 快速入门大语言模型(LLM) 的系列教程项目,从 LLM 基础原理到实践操作,循序渐进讲解核心概念与技能。

本项目分为两部分:

  • 基础篇《大模型炼丹术》:面向具有Python与深度学习基础的LLM初学者,讲解 LLM 核心概念与基础实现;
  • 进阶篇《MiniMind 源码解读》:面向进阶读者,在学习完基础篇后,进一步深入 LLM 内部机制,讲解现代化大语言模型的关键技术与优化方法。

项目受众

  • 有Python与深度学习基础,想快速掌握LLM(只看基础篇即可)
  • 想了解现代LLM架构与训练技巧(基础篇+进阶篇),并动手实践的学生和开发者

目录

基础篇--《大模型炼丹术》 1️⃣

💡 基础篇主要介绍核心概念,帮助你快速上手 LLM。

基础篇主要参考了《Building LLMs from scratch》

学完基础篇,你将掌握 LLM 的核心知识,包括:

  • Tokenizer 与数据预处理
  • Embedding 原理
  • Causal Attention
  • 从零搭建 GPT-2 架构
  • 自回归预训练
  • 微调与指令微调
序号 文章链接
1 大模型炼丹术(一):从 tokenizer 开始,为自回归预训练准备数据集
2 大模型炼丹术(二):从离散 token IDs 到具有语义信息的 embedding
3 大模型炼丹术(三):从单头到多头,深度解析注意力机制
4 大模型炼丹术(四):动手搭建 GPT-2 架构
5 大模型炼丹术(五):LLM 自回归预训练过程详解
6 大模型炼丹术(六):剖析 LLM 的解码策略
7 大模型炼丹术(七):LLM 微调:训练一个垃圾邮件分类器
8 大模型炼丹术(八):LLM 指令微调:训练一个人工智能助手

进阶篇 -- 《MiniMind 源码解读》 2️⃣

💡 MiniMind 是一个轻量级大语言模型开源项目,代码规范易读,并且涵盖了现代 LLM 的核心技术点。进阶篇将通过对MiniMind源码解读的方式,深入 LLM 内部机制,讲解现代大语言模型的关键技术与优化方法。事实上,可以将进阶篇看作是对于基础篇中一些未提及的核心概念的查漏补缺

学完进阶篇,你将掌握:

  • 从零训练 tokenizer
  • RMSNorm 与模型归一化
  • 正余弦位置编码的局限与 RoPE 旋转位置编码
  • 注意力机制优化(GQA、MQA、KV Cache)
  • 稀疏模型 MoE
  • MiniMind 架构搭建
  • 自回归预训练、指令微调、DPO、LoRA 微调、LLM 蒸馏
序号 文章链接
1 MiniMind 源码解读(一):如何从头训练 tokenizer
2 MiniMind 源码解读(二):一行代码之差,模型性能提升背后的 RMSNorm 玄机
3 MiniMind 源码解读(三):原始 Transformer 的位置编码及其缺陷
4 MiniMind 源码解读(四):旋转位置编码原理与应用全解析
5 MiniMind 源码解读(五):魔改注意力机制,细数当代 LLM 的效率优化手段
6 MiniMind 源码解读(六):从稠密到稀疏,详解专家混合模型 MoE
7 MiniMind 源码解读(七):像搭积木一样构建一个大模型
8 MiniMind 源码解读(八):LLM 预训练实践
9 MiniMind 源码解读(九):指令微调详解,让大模型从“能说”变得“会听”
10 MiniMind 源码解读(十):DPO - 大模型对齐训练新范式
11 MiniMind 源码解读(十一):LoRA - LLM 轻量化微调利器
12 MiniMind 源码解读(十二):从白盒到黑盒,全面掌握大模型蒸馏技术

贡献者名单

姓名 职责 简介
付修磊 项目负责人 坚信以输出驱动输入,并通过输出来深化理解和巩固知识

参与贡献

  • 如果你发现了一些问题,可以提Issue进行反馈,如果提完没有人回复你可以联系保姆团队的同学进行反馈跟进~
  • 如果你想参与贡献本项目,可以提Pull request,如果提完没有人回复你可以联系保姆团队的同学进行反馈跟进~
  • 如果你对 Datawhale 很感兴趣并想要发起一个新的项目,请按照Datawhale开源项目指南进行操作即可~

关注我们

扫描下方二维码关注公众号:Datawhale

LICENSE

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

注:默认使用CC 4.0协议,也可根据自身项目情况选用其他协议

About

循序渐进学习LLM:基础篇入门原理,进阶篇源码解析

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors