Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

hugging-lmm #312

Open
3 tasks done
hscspring opened this issue Dec 31, 2024 · 0 comments
Open
3 tasks done

hugging-lmm #312

hscspring opened this issue Dec 31, 2024 · 0 comments

Comments

@hscspring
Copy link

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

随着LLM的不断发展,边界逐渐扩展到多模态领域,从LLM到VisualLM、SpeechLM、VideoLM等,甚至还出现多模态的端到端模型,如以GPT4o为代表的OMNI,以及诸多完全端到端的支持各种模态的大模型。
LLM的不断进步和与多模态的融合是未来的大趋势,本教程将从图像、音频、视频三个方向介绍最新的多模态大模型,立足于原理介绍和应用,让更多的人能够利用多模态大模型进行产品开发,创造价值。

立项理由

  1. LLM和多模态是未来大趋势,多模态应用将更加丰富。
  2. 多模态相比LLM更加复杂,难以直接上手。
  3. 弥补多模态板块的缺失。

项目受众

  • 对多模态感兴趣的非多模态方向程序员或学生。
  • 希望在实际中运用多模态技术创造提供新的产品和服务。
  • 有一定编程基础。

项目亮点

  • 聚焦于多模态原理和使用。
  • 提供示例代码和实现流程。
  • 提供实践项目。

项目规划

至少包括以下内容:

  • 概述(@长琴 20250228)
    • 模态介绍
    • 多模态与LLM
    • 多模态相关应用
  • 图像(@散步 20250228)
    • 理论基础
    • 架构和模块介绍
    • 实践Visual LM:开源项目+API
  • 语音(@长琴 20250228)
    • 理论基础
    • 架构和模块介绍
    • 实践SpeechLM:开源项目+API
  • 视频(@长琴 20250228)
    • 理论基础
    • 架构和模块介绍
    • 实践VideoLM:开源项目+API
  • 项目
    • 需求
    • 设计
    • 实现

已完成内容

No response

❗❗❗注意事项❗❗❗:为了便于我们跟你取得联系,请务必加我们的微信:at-Sm1les(备注你来自于项目立项即可),发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue,若7天内无反对意见则默认立项通过,如有任何疑问或者需要帮助均可随时联系微信:at-Sm1les

  • 我已知悉上述注意事项并添加了微信:at-Sm1les
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant