クラウドAPIに頼らず、自分のマシンでLLMを動かしたい。プライバシー、コスト、レイテンシー...理由は様々だけど、ローカル推論のニーズは確実に高まっている。
2025年12月現在、ローカルLLM推論ツールは群雄割拠の時代。この記事では主要な4つのツールを比較して、あなたのユースケースに最適なものを見つける手助けをしたい。
2023年3月、Georgi Gerganovが公開したC++実装。すべての始まりであり、多くのツールがこれをベースにしている。
2023年7月、Jeffrey Morganが公開。llama.cppをラップして圧倒的に使いやすくしたツール。
自宅のデバイスを繋いでAIクラスタを構築。1台に収まらない巨大モデルを動かすためのツール。
カーネルレベルから構築された独自推論エンジン「NexaML」。NPUファーストの設計思想。
| 機能 | llama.cpp | Ollama | Exo | NexaSDK |
|---|---|---|---|---|
| セットアップ難易度 | 中 | 低 | 中 | 低 |
| カスタマイズ性 | 高 | 中 | 中 | 中 |
| NPUサポート | 限定的 | 限定的 | MLX | フル |
| 分散推論 | 非対応 | 非対応 | 対応 | 非対応 |
| モバイル対応 | 可能 | 非対応 | 非対応 | SDK提供 |
| REST API | llama-server | 内蔵 | 内蔵 | 内蔵 |
| コンテキスト長 | 32K+ | ~11K | モデル依存 | モデル依存 |
| 量子化 | オンデバイス可 | 事前量子化のみ | 事前量子化のみ | 事前量子化のみ |
Ollama - 5分で動く
llama.cpp - 最大の制御と性能
Exo - 複数マシンで分散
NexaSDK - iOS/Android SDK
NexaSDK - NPUファースト設計
llama.cpp - 32K+トークン
ここで重要なポイント: OllamaはLlama.cppをラップしている。つまり、基本的な推論能力は同じ。違いはUX、パフォーマンス調整、制御レベル。
llama.cpp(基盤)
└── Ollama(ラッパー、簡単UI)
Exo(分散推論、MLXバックエンド)
NexaSDK(独自エンジン NexaML、NPU特化)
ExoはMLXバックエンドを使っているが、llama.cppとは別系統。NexaSDKは完全に独自のカーネルレベル推論エンジンを持っている。
# macOS / Linux
curl -fsSL https://ollama.ai/install.sh | sh
# 実行
ollama run llama3.3
# ビルド
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make
# 実行(GGUFモデルが必要)
./llama-cli -m model.gguf -p "Hello"
# Python + UV
pip install exo-llm
exo run qwen3:7b
# 複数マシンで自動クラスタ形成
# インストール
curl -fsSL https://nexaai.github.io/install.sh | bash
# 実行
nexa infer qwen3:7b
正直に言うと、用途によって使い分けるのがベスト。
2025年のローカルLLM界隈は選択肢が豊富で嬉しい悲鳴。自分のニーズに合ったツールを選んで、ローカル推論ライフを楽しもう!