MM-LLMs: Recent Advances in MultiModal Large Language Models

https://arxiv.org/abs/2401.13601

Mar 12, 2024

Multi Modal Model

arXiv (2024)

1. 概要

2. モデルアーキテクチャの分類


Modality Encoder

Input Projector

LLM Backbone

Output Projector

Modality Generator

3. 学習パイプライン

4. MMMの包括的分類

5. MMMのベンチマーク

6. 付録の紹介部分を簡単に

Modality Encoder

Mainstream PEFT Methods

Representative LLMs

Back