LLaMA2の量子化モデルを動かすだけ

リポジトリ

Sep 16, 2023

Large Language Models

1. どんなもの??

LLaMA2 をローカルで推論させる環境を作成

~4bit量子化，ELYZAの推論を添えて~

2. 使い方

xformersのバージョン制約が厳しいので，pytorchのバージョンは気をつけないとダメ

2023/09/16時点ではrequirements.txtをそのままインストールすれば動かせる

↑の環境が立てば，4bit量子化モデルの読み込みはAutoModelForCasusalLM.from_pretrainedの引数でload_in_4bit=Trueにするだけ

3. 結果

※今回はRTX3090×1枚上で検証のため，7Bと13Bしか触れなかった
聞いていた話通り，7Bも13Bも日本語はほとんど話せないらしい
7B-Chat

7Bは偶にラリった日本語を出し始める（読みにくいので困る）

13B-Chat

LLaMA2は7Bも13Bも同じテキストデータで学習しているはずだが，なぜかアメリカ大統領がトランプからバイデンに成長した

おまけ｜ELYZA-7B

4. 余談

ELYZAの13B，70Bが出たら触ってみたい

研究室のリソースが空き次第，70Bの性能も見てみたいとは思う

こういうテストで使いたいだけのプロンプトは何にすればよいのか，逆に悩む

Back