- 掌握神经网络的基本原理,能够理解前向传播与反向传播的数学推导与代码实现
- 了解Pytorch核心组件的使用,例如常用损失函数、优化方法等
- 参考资料:
- 李沐,动手学深度学习
- Andrej Karpathy,Neural Networks:Zero to Hero
- Pytorch Tutorial
- 实践任务:基于PyTorch 从零实现一个简单的多层感知机 (MLP),完成 MNIST 手写数字分类任务
- 掌握CNN/ResNet、RNN/Transformer等机器学习基础模型架构
- 理解诸如残差连接、注意力机制、位置编码等核心思想
- 掌握GPT系列、LLaMA系列大语言模型架构
- 参考资料:
- 《动手学深度学习》中的相关内容
- Happy-LLM 第二-五章:https://datawhalechina.github.io/happy-llm/
- Andrej Karpathy 课程关于Transformer与LLM部分
- 实践任务:参考Happy-LLM相应章节,基于Pytorch手动搭建Transformer模型,无需完成训练,了解Transformer如何通过代码构建即可
- 掌握Vision Transformer (ViT)的基本原理
- 参考资料:
- 实践任务【非必须,了解ViT原理为主】:基于Pytorch构建ViT模型,尝试面向一个图像分类任务,例如Image-Net子集、CIFAR-10等,进行训练/微调与评测
- 掌握基础视觉-语言模型CLIP的基本原理
- 参考资料:
- 实践任务【非必须,了解CLIP原理为主】:基于预训练的CLIP完成一个图像分类数据集的分类任务,例如ImageNet,尝试替换不同的encoder,并对比分析结果
- 掌握LLaVA、Qwen-VL系列前沿多模态大模型架构,了解并追踪其他常用多模态大模型架构
- 学习如何查找论文、技术报告,使用Huggingface中的模型代码等
- 参考资料:
- LLaVA论文:https://arxiv.org/abs/2304.08485
- Qwen2.5-VL Technical Report:https://arxiv.org/abs/2502.13923
- 多模态大模型论文串讲:上,下
- 实践任务【必须】:选择一个典型的多模态推理或规划任务,例如几何数学推理、视觉问答、空间推理、视觉规划、具身规划、游戏智能体规划,尝试运行至少一个多模态大模型,获得评测结果;此部分可形成简要的PPT汇报
- 常用数据集示例
- 视觉推理:
- 几何数学推理:MathVista, MathVision, We-Math
- 图像逻辑推理:CLEVR, VisuLogic, LogicVista, ARC-AGI
- 空间推理:SpatialScore, 商汤整合的空间推理benchmark及模型评测
- 视觉规划:VSP, VIRL
- 游戏智能体:我的世界, 星露谷物语
- 具身智能体:Embodied-Bench, Embodied-Arena, VisualAgentBench
- 视觉推理:
有意提前进组的同学完成Stage 1后即可进一步交流研究方向。
- 掌握大语言模型、多模态大模型的常用微调算法,例如SFT、PPO/DPO/GRPO等
- 参考资料:
- Happy-LLM 第六章:https://datawhalechina.github.io/happy-llm/
- Reinforcement Learning for LLM Reasoning Survey: https://arxiv.org/pdf/2509.08827
- 实践任务:阅读论文SFT or RL,尝试基于SFT与RL算法微调多模态大模型
- 学习如何将神经网络与符号推理结合,尝试理解神经符号推理与端到端神经网络的区别
- 实践任务1:基于神经符号的视觉推理
- 实践任务2:基于神经符号的具身规划
- 阅读论文
- 尝试在游戏或者具身环境中复现上述论文的技术方案
- 阅读相关领域综述,了解前沿进展,形成对该领域的整体认识
- 参考综述:
- Agent:
- Agent AI: https://arxiv.org/pdf/2401.03568
- Multi-Modal Agent: https://arxiv.org/pdf/2510.10991
- 多模态推理:
- Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models https://arxiv.org/pdf/2505.04921
- Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers https://arxiv.org/pdf/2506.23918
- Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey https://arxiv.org/pdf/2503.12605
- 神经符号融合:
- Neuro-Symbolic Artificial Intelligence: Towards Improving the Reasoning Abilities of Large Language Models: https://ijcai-preprints.s3.us-west-1.amazonaws.com/2025/8905.pdf
- 任务:以综述论文为纲,阅读学习相关论文,完成一个PPT汇报,重在凝练形成整体认识,无需介绍方法细节。
- 目标:能够从技术和问题两个维度,形成对该领域的分类与认识,即这个方向主要有哪些科学问题?针对如何解决这些科学问题,有哪些相应的主流技术方案?