スモール言語モデル（SLM）／スーパー・タイニー言語モデル（STLM）白書2024年版　製本版－LLMのファインチューニングから最適化、量子化まで－

メニュー

カートの中身を見る

カートの中に商品はありません

メールマガジン

メールアドレスを入力してください。

店長コーナー

Institute of Next Generation Social System

一般社団法人の概要／事業案内、その他各種参照コンテンツ（ブログ形式）を掲載

店長日記はこちら

モバイル

Feed

RSS
ATOM

スモール言語モデル（SLM）／スーパー・タイニー言語モデル（STLM）白書2024年版　製本版－LLMのファインチューニングから最適化、量子化まで－

　　［出版日］

2024年10月15日

　　［ページ数］

A4判／約250ページ
（※　バインダー製本とPDF版では編集上の違いによりページ数が若干異なります。）

　　［発行］

監修・発行：　一般社団法人次世代社会システム研究開発機構

　　［セットでご購入される場合の特典について］

多くのご要望を受け、製本版とPDF版をセットでご購入される場合には、PDF版の価格を半額でご提供しております。その場合、本ページ最下欄にあるカートからのご購入手続きではなく、お手数ですが、本サイトの上段にある「お問い合わせ（Contact）」から、その旨、お問い合わせください。

　　［レポート内容］

■概要■

2024年以降、AIコミュニティでは、LLMのファインチューニング、最適化、より実用的なモデル追及の流れの一環で、スモール言語モデル（SLM）、スーパー・タイニー言語モデル（STLM）、量子化LLMの有効性に関する探求が急速に高まり、これらへのシフトが促進されている。

こうしたコンパクトなモデルは特定のデータセットで微調整され、さまざまな性能評価で卓越した能力が実証されつつある。これらのモデルは、性能とリソース利用のバランスをとり、計算資源を最適に管理しながら、適切な性能を提供することを約束する。

これらのモデルの傑出した性能は、コンパクトなモデルが、大型LLMに代わる実現可能な選択肢を提供することを示唆している。この画期的な進歩は、言語モデルを展開する上で重要な意味を持ち、効率と性能が両立する道を示している。

本白書は、AI業界、LLMの研究者層で高い注目を集めているスモール言語モデル（SLM）、スーパー・タイニー言語モデル（STLM）、LLMのファインチューニングからから計算要件、最適化、量子化まで、その全容および最新動向を解説したレポートである。

■内容編成（目次）■

序

第1章　AI性能向上と言語モデルの新たな展望

1-1　概況・近況
1-2　生成系AIツールのROI向上
1-3　LLM、SLM、STLMが注目を集める背景

第2章　LLM、SLM、STLMに関する包括的な比較分析

2-1　概説
2-2　持続可能なAIのための超小型言語モデルの出現
2-3　スモール言語モデルは本当に言語モデルの未来なのか？

第3章　言語モデルの最適化技術

3-1　概説
3-2　システム設計と最適化
［1］　専門家混合モデル（MoE）
［2］　LLMの量子化
［3］　MoEの圧縮
3-3　言語モデルの微調整
3-4　AIのワークロードに応じたリソース配分の最適化
3-5　関連研究
［1］　マサチューセッツ工科大学他研究チーム　「LLM圧縮の評価： AI言語モデル開発における効率性、信頼性、倫理性のバランス」
［2］　ダイヤルパッド　「小さな大規模言語モデル」

第4章　LLM評価の効率化とコスト削減

4-1　概説
4-2　マルチアーム・バンディットにおけるベストアーム識別
4-3　LLMの性能評価関数
4-4　LLM性能評価ベンチマーク
4-5　研究チーム、参入企業動向
［1］　コーネル大学／カリフォルニア大学サンディエゴ校研究チーム　「LLM評価の効率化とコスト削減を実現するマルチアーム・バンディット・アルゴリズム」

第5章　GPU使用量の削減とLLM事前トレーニングシナリオの変化

5-1　時間とGPUリソースへの多大な投資が必要とされるLLM開発
5-2　研究チーム、参入企業動向
［1］　Yandex　「GPU使用量を20％削減し、LLMトレーニングに革命をもたらすオープンソースAIツール：YaFSDP」

第6章　LLMを導入する際のコストと性能のトレードオフ最適化

6-1　費用対効果の高いLLM
6-2　研究チーム、参入企業動向
［1］　UC Berkeley／Anyscale／Canva研究チーム　「費用対効果の高いLLMルーティングのためのオープンソースフレームワーク」

第7章　精度と効率のバランスを保持しながら複雑なタスクを実行するモデル

7-1　概説
7-2　研究チーム、参入メーカー、参入ベンダー動向
［1］　Nvidia AI　「単一GPUで4倍のワークロードを実行できる新しいLLM」
他

第8章　研究開発プロセスの自動化と最適化を目的としたAIツール

8-1　概説
8-2　研究チーム、参入メーカー、参入ベンダー動向
［1］　マイクロソフト　「研究開発プロセスの自動化と最適化を目的としたオープンソースAIツール：RD-Agent」

第9章　大規模言語モデル（LLM）の最適化

9-1　CPU上で大規模言語モデル（LLM）の最適化
9-2　研究チーム、参入企業動向
oneAPI Collective Communications Libraryを利用した分散推論最適化の手法

第10章　AI性能向上を阻む要因

10-1　AIの開発生産性とAI導入・評価の間に生まれている断絶
10-2　AIの課題を浮き彫りにするGitLabのDevSecOpsレポート

第11章　リソース効率に優れた代替手段としての小型言語モデル（SLM）の可能性

11-1　概説
11-2　スモール言語モデル（SLM）
11-3　ミニCPM
11-4　関連研究
［1］　MiniCPM：スケーラブルな学習戦略で小さな言語モデルの可能性を解き明かす
11-5　モデル事例
［1］　Ai2　「オープンソースのマルチモーダル言語モデルファミリー：Molmo」

第12章　パフォーマンス向上に最適化されたスモール言語モデル

12-1　概説
12-2　研究チーム、参入メーカー、参入ベンダー動向
［1］　AMD　「LLaMA2モデルアーキテクチャに最適化されたスモール言語モデルシリーズ」

第13章　スモール言語モデル（SLM）の学習

13-1　概説
13-2　インストラクションのチューニング
13-3　説明のチューニング
13-4　関連研究
［1］　ケンブリッジ大学　「スモール言語モデル：調査、測定、洞察」
［2］　マイクロソフト・リサーチ　「小さな言語モデルへの推論学習：Orca」

第14章　スモール言語モデル（SLM）の推論能力向上

14-1　概説
14-2　SLMの推論能力の向上
14-3　SLMの概要
14-4　SLMのアーキテクチャ
［1］　自己注意のタイプ
［2］　フィードフォワード・ニューラルネットワークのタイプ
［3］　フィードフォワード・ニューラルネットワークの中間比
［4］　フィードフォワード・ニューラルネットワークの活性化関数
［5］　レイヤー正規化のタイプ
［6］　語彙サイズ
14-5　モデル・アーキテクチャの革新
14-6　関連研究
［1］　マイクロソフト・リサーチ　「算数におけるSLMの可能性：Orca-Math」

第15章　スーパー小規模言語モデル（STLM）

15-1　概説
15-2　パラメーターの削減
15-3　枝刈り
15-4　量子化
15-5　低ランク因数分解
15-6　データの質とトレーニングの効率
15-7　関連研究

第16章　CPUやx86アーキテクチャ上でのAI・ディープラーニングの実装

16-1　GPUを含む特殊なハードウェアやコプロセッサが抱える課題
［1］　CPU上のAIの必要性
［2］　スパース性の役割
［3］　最新のCPUがもたらすチャンスと課題
15-2　関連研究
［1］　ライス大学アント・グループ　「コモディティCPUをGPUのような特殊プロセッサと同等にできるシステムの設計」
［2］　CPU上でLLMの最適化／推論と効率を向上させるテクニック

第17章　量子化LLM

17-1　概説
17-2　大規模言語モデルの展開を変えるモデル量子化の新境地
17-3　大規模言語モデルの量子化に革命を起こすデータフリーアルゴリズム
17-4　GPTQアルゴリズム
17-5　LLMのための新しい量子化技術
17-6　LLMの重みをほぼ損失なく圧縮できる圧縮フォーマットと量子化技術
17-7　効率的な推論技術に関する取り組み
17-8　ベクトル量子化（VQ）を用いた大規模ネットワークのポストトレーニング量子化
17-9　関連研究
［1］　MIT、NVIDIA、UMass Amherst、MIT-IBM Watson AI Labの研究グループ　「量子化を改良する新しいアプローチであるQoQ（Quattuor-Octo-Quattuor）アルゴリズム」
［2］　コーネル大学研究チーム　「非干渉性処理による量子化（QuIP）」
［3］　SpQR (Sparse-Quantized Representation)：大きな言語モデルの重みをほぼ損失なく圧縮できる圧縮フォーマットと量子化技術
［4］　LLMの効率とパフォーマンスを橋渡しするAI手法：OmniQuant
［5］　Hugging Face　「メモリ効率と計算速度のトレードオフを最適化するGPTQ量子化」
［6］　テンセント　データフリーアルゴリズム　「EasyQuant」
［7］　カリフォルニア大学バークレー校　「大規模言語モデルサービングの品質とスピードを両立させる密とパースの量子化」
［8］　マイクロソフト、シドニー大学、ラトガース大学の研究チーム　「FP6-LLM：大規模言語モデルのためのGPUベース量子化」
［9］　クアルコムAIリサーチ、GPTVQ法を提案：ベクトル量子化（VQ）を用いた大規模ネットワークのポストトレーニング量子化のための高速機械学習手法
［10］　Q-GaLoreリリース：機械学習モデルの事前学習と微調整のためのメモリ効率の高い学習アプローチ

第18章　量子化と低ランク射影・低ランク適応によるメモリ使用量削減

18-1　概説
18-2　低ランクの適応とトレーニング
18-3　低精度トレーニング
18-4　関連研究
［1］　カリフォルニア工科大学／メタAI他　「Q-GaLore：INT4射影とレイヤー適応的低ランク勾配による量子化GaLore」

第19章　量子化考慮学習（QAT）／ポストトレーニング量子化(PTQ)／量子化パラメータ効率的微調整(Q-PEFT)

19-1　概説
19-2　LLMのポストトレーニング量子化
19-3　LLMの量子化を考慮したトレーニング
19-4　LLMの量子化パラメータによる効率的な微調整

第20章　ニューラルネットワークの量子化

20-1　概説
［1］　ニューラルネットワークの量子化
［2］　量子化グリッドの種類とその柔軟性
［3］　ベクトル量子化の課題
20-1　関連研究
クアルコムAIリサーチ　「LLM量子化における次元性の恩恵」

第21章　量子化パラメータチューニングと言語モデルの微調整効率化

21-1　概説
21-2　関連研究
［1］　LQ-LoRA：言語モデルの微調整を効率化する低ランク量子化行列分解を可能にするLoRAのバリエーション

第22章　6ビット量子化(FP6)

22-1　概説
22-2　量子化のためのシステムサポート
22-3　関連研究
FP6-LLM：FP6中心のアルゴリズム・システム協調設計による大規模言語モデルの効率的な提供

第23章　メモリ消費・ストレージ削減

23-1　プルーニング
23-2　パラメータ効率的ファインチューニング（PEFT）
23-3　学習後のデルタ圧縮

第24章　ミニCPM

24-1　概説
24-2　関連研究
［1］　清華大学コンピューター科学技術学部／モデルベスト社　「スケーラブルな学習戦略で小さな言語モデル：MiniCPM」

第25章　コンパクト言語モデル／TinyLlama

25-1　概説
25-2　関連研究
［1］　StatNLP研究グループ／シンガポール工科デザイン大学　「オープンソースの小型言語モデル：TinyLlama」

第26章　標準的なPCで実行可能なLLM／SLM

26-1　概説
26-2　関連研究
［1］　Stability AI　「標準的なPCで実行可能な画像生成系AI：Stabile Diffusion XL 0.9」

第27章　SLMの作成と配布を目的としたオープンソースツール

27-1　概説
27-2　研究チーム、参入企業動向
［1］　Arcee AI　「高性能なSLM作成に向けたモデル蒸留を変換するオープンソースツール：DistillKit」

第28章　低ランク勾配更新によりLLMのフルパラメータ学習を可能にする技術

28-1　概説
28-3　関連研究
［1］　量子化と低ランク射影を組み合わせによるメモリ制約に対する解決策

第29章　商用化されている主なSLM

29-1　概説
29-2　GPT-4o mini
29-3　Mistral-Nemo
［1］　概要
［2］　特性・メリット
29-4　SmolLM
［1］　概要
［2］　特性・メリット
［3］　マイクロソフトの軽量AI
29-5　TinyLLaVA
29-6　GTE-tiny
29-7　TinyLlama

第30章　参入企業動向

30-1　インテル　「CPU上のLLMをより効率的に展開する新しいAIアプローチ」
30-2　Hugging Face　「1億3500万から17億パラメータまでの高性能小型言語モデルによるオンデバイスAI‘SmolLM」
30-3　Arcee AI　「効率的で高性能な小型言語モデルの作成に向けたモデル蒸留を変換：　DistillKit」

第31章　その他主な研究開発・研究チーム動向

31-1　マイクロソフトAIチーム　「卓越した推論と言語理解能力を示す27億パラメータの小規模言語モデル：Phi-2」
31-2　ポツダム大学、クアルコムAIリサーチ他研究チーム　「ハイブリッド大小言語モデルを用いたクアルコムAIリサーチによる機械学習アプローチ」
31-3　マサチューセッツ工科大学／プリンストン大学／NVIDIA／Together AI　「デルタを1ビットまで量子化：BitDelta」
31-4　モハメド・ビン・ザイードAI大学、オーストラリア国立大他研究チーム　「小規模言語モデル領域で最先端の性能を発揮するMobiLlama」
31-5　上海AI研究所OpenGVLab ／香港大学　「大規模言語モデルのための効率的な量子化を考慮した学習：EfficientQAT」