Posts

(1/10)

MM-LLMs: Recent Advances in MultiModal Large Language Models

  • 2022年以降に登場したマルチモーダルモデル(MMM)の包括的なサーベイを行い,122個のMMMについてベンチマークを行った
  • ベンチマークからMMMの効率的なトレーニング方法をまとめ,リアルタイムで最新動向を管理するウェブサイトを公開

Mar 12, 2024 multi modal model arXiv (2024)

A Theory of Multimodal Learning

  • 機械学習において,マルチモーダルモデルがユニモーダルモデルの性能を上回ることは経験的にのみ示されている
  • 本書ではマルチモーダルモデルの汎化特性を研究し,モダリティ間の接続(connection)・異質性(heterogeneity)との関連を理論的に示す

Jan 29, 2024 multi modal model NIPS (2023)

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

  • Vision Expertによる異常度マップ(トークン化)と,異常度マップとViTの特徴量を入力としたQ-Formerの出力トークンとしてLLMに入力することで工業製品への異常検知と言語インタラクションが可能なMyriadを提案
  • MVTec,VisAのFew-ShotでPadim系やAnomalyGPTと同等以上の性能を達成

Dec 4, 2023 multi modal model arXiv (2023)

Grounded Language-Image Pre-training

  • 事前学習で物体検出とGroundingタスクを統一することにより,物体レベルで言語フリーな,意味情報に富んだ視覚表現を獲得可能なGLIPを提案
  • ゼロショットまたは数ショットで様々なタスクやドメインにシームレスに移行することが可能

Nov 14, 2023 multi modal model CVPR (2022)

Open-Vocabulary Object Detection Using Captions

  • 既存の物体検出は限られたカテゴリに対する検出しかできず,アノテーションコストが高い問題は弱教師あり学習などを用いても解決されていない
  • 学習データに含まれないカテゴリに対しても検出が可能なOpen-Vocabularyの物体検出の概念と手法を提案

Oct 31, 2023 multi modal model CVPR (2021)

Link-Context Learning for Multimodal LLMs

  • ICL(In-Context Learning)は膨大な事前学習の知識を用いて,プロンプトからモデルパラメータの更新を行わない学習が可能であるが,因果関係が弱いため新しい概念を理解することは困難
  • サポート集合とクエリ集合の因果関係を明示的に強化するLCL(Link Context LEarning)を提案し,生成画像とそのテキストペアからなるISEKAIデータセットを提案し,LCLの性能を評価

Oct 24, 2023 multi modal model arXiv (2023)

Llama 2: Open Foundation and Fine-Tuned Chat Models

  • LLaMAの構造をベースに2Tトークンに拡張したデータで学習したLLaMA2と,RLHF二より調整されたLLaMA2-Chatを提案
  • LLaMAとは異なり商用利用可能なオープンソースLLM

Sep 27, 2023 large language model arXiv (2023)

LLaMA: Open and Efficient Foundation Language Models

  • Metaにより提案された比較的低パラメータのLLM LLaMAを提案
  • 他のオープンソースLLMと比べて圧倒的に高性能だが,LLaMAは商用利用不可で,学術的利用のみに限定

Sep 27, 2023 large language model arXiv (2023)

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

  • DETRベースの物体検出モデルDINOをマルチモーダルに拡張したOpen-Vocabulary物体検出モデルGroundingDINOを提案
  • 検出したい物体を自然言語で指示可能で,2023年4月時点でのSoTAを達成

Jul 11, 2023 object detection arXiv 2022