MM-LLMs: Recent Advances in MultiModal Large Language Models

https://arxiv.org/abs/2401.13601

Mar 12, 2024

Multi Modal Model

arXiv (2024)

1. 概要

2022年以降に登場したマルチモーダルモデル（MMM）の包括的なサーベイを行い，122個のMMMについてベンチマークを行った
ベンチマークからMMMの効率的なトレーニング方法をまとめ，リアルタイムで最新動向を管理するウェブサイトを公開

2. モデルアーキテクチャの分類

Modality Encoder

多様なモダリティからの入力を符号化し，対応する特徴量を得る役割（いわゆるEncoder）
Imageの例：

NFNet-F6, ViT, CLIP ViT, Eva-CLIP ViT, BEiT-3, OpenCLIP, Swin-T based Grounding DINO, DINOv2, SAM-HQ with MAE, RAM++ with SWIN-B, InternViT, VCoder

Audioの例：

C-Former, HuBERT, BEATs, Whisper, CLAP

3D Point Cloud Modalityの例：

ULIP-2

Any-to-Anyの例：

ImageBind

Input Projector

他のモダリティの特徴量をテキスト空間にマッピングさせる役割

マッピングされた特徴量はテキスト特徴と一緒にLLMに渡される

以下の損失を最小化することが目的

モデル例：

(M)LP, Crooss Attention, Q-Former, P-Former, MQ-Former,

LLM Backbone

様々なモダリティからの特徴量を処理し意味理解・推論・入力に関する意思決定を行う役割

Zero-Shot，In-Context Learning，Chain-of-Thought，Instruction FollowingといったLLMの特性はMMMになっても引き継がれる

直接的なテキスト出力t，他のモダリティからのシグナルトークンSxを出力

Pxはプロンプトチューニングとみなすことができる

モデル例：

Flan-T5, ChatGLM, UL2, Persimmon, Qwen, Chinchilla, OPT, PaLM, LLaMA, LLaMA2, Vicuna

Output Projector

LLMからの信号トークン表現Sxをモダリティ生成器MGxに理解可能な特徴量Hxにマッピングする役割
以下のようにHxとMGxの距離の最小化を行うことでHxのアラインメントを学習

モデル例：

MLP, Tiny Transormer(Decoder)

Modality Generator

異なるモダリティの出力を生成

画像ならStable Diffusion，ビデオならZeroscope，音声ならAudioLDM2

以下のように条件付きLDM損失を用いて逆拡散過程を学習

3. 学習パイプライン

MM PTではXTextデータセットを用いて学習

MM理解モデルは↓のみを学習

M生成モデルは↓も同時に学習

MM ITでは命令フォーマットされたデータセットを用いてMMMを微調整する

教師ありファインチューニング（SFT）と人間による強化学習（RLHF）からなる

SFT：MM PTのデータの一部を命令形式に変換して利用

QAの場合の例： "＜Image＞{Question}"という形式のデータを抽出 → "＜Image＞" Examine the image and respond to the following question with a brief answer:"{Question}. Answer:"; と変換して利用

RLHF：人間によるフィードバックを報酬とした強化学習でモデルを微調整

4. MMMの包括的分類

122のMMMを帰納的観点・設計的観点から分類

Tool usingはLLMをブラックボックスとして扱っていること，End-to-Endはモデルが共同学習されていることを意味

43の主要なMMMを包括的に比較

MMの理解モデルからMMの生成モデルへ進化（MiniGPT-4 -> MiniGPT-5 -> NExT-GPT）

SFTからRLHFに進化し，人間の糸に沿うように会話能力を向上（BLIP-2 -> InstructBLIP -> DRESS）

モダリティの拡張（BLIP-2 -> XLLM x InstructBLIP -> X-InstructBLIP）

データセットの高品質化（LLaVA -> LLaVA1.5）

より効率の良いモデルアーキテクチャの採用（Q-Former, P-Former -> Linear Projector(VILA)）

5. MMMのベンチマーク

18個のVLタスクで主流MMMをベンチマーク

解像度が高いほど性能向上に影響を与え，LLaVA-1.5とVILAは336*336，Qwen-VLとMiniGPT-v2は448*448を採用

MiniGPT-v2では計算コストを下げるため隣接する4つの視覚的トークンを連結などして工夫

Monkeyは高解像度のEncoderを凍結することで1300*800，DocPediaは更に2560*2560に対応させた

データセットの品質も重要であり，LLaVA1.5やVILAはShareGPT4Vの採用により性能向上を達成

LLMでParameter-Efficient Fine-Tuning（PEFT）を行うことでICLに重要な深い埋め込みアラインメントを促進

画像-テキストペアだけでは最適ではない

SFTに不自然な指示などを混ぜることでVLタスクの性能が向上

6. 付録の紹介部分を簡単に

Modality Encoder

NFNet-F6：Normalizer freeのResNet

Mainstream PEFT Methods

Prefix-tuning：AttentionのK, Vに学習可能トークンを導入
Adapter：ダウンサンプリング，非線形活性化，アップサンプリングの残差接続
LoRA：重み行列を低ランク行列で近似して学習，元の重みに加算
QLoRA：LoRAを4bit量子化
Layer Norm tuning：LayerNorm層をFT or LoRA
その他：P-tuning, P-tuning v2, Adapt-Bias, Compacter, AdapterFormer, XTuner, P-LoRA, MoLE, Delta-LoRA

Representative LLMs

Flan-T5：Encoer-DecoderですべてのNLPタスクを扱うT5をFLANでFT
InternLM：多言語対応1兆パラメータモデル
UL2：Encoer-Decoderに逆拡散過程を追加
OPT：GPT-3のクローン
PaLM：並列AttentionとFFNによる計量モデル
Vicuna：ShareGPTのデータでLLaMAをSFT

Back