【入門】ローカルLLMの導入方法を完全解説|OllamaとLM Studioで始めるAI環境構築

目次

ローカルLLMとは?クラウドAIとの違いを整理

「ChatGPTに入力した内容が学習データに使われるかもしれない」と気になったことはありませんか?あるいは、APIコストが積み上がって月末にヒヤッとした経験があるかもしれません。そこで注目されているのが、自分のPC上で動作するローカルLLMです。

ローカルLLMの基本的な仕組み

ローカルLLMとは、インターネット接続なしに自分のマシン上で推論(テキスト生成)を完結させる大規模言語モデルの総称です。モデルのウェイト(学習済みパラメータ)をダウンロードし、CPUやGPUを使ってローカルで計算します。

代表的なモデルには、MetaのLlamaシリーズやMistral AIのMistralシリーズなどがあります。これらはオープンウェイトとして公開されており、商用・個人利用ともに条件付きで無償利用できます。

ポイント:クラウドAIはリクエストをサーバーに送って結果を受け取る仕組みですが、ローカルLLMはすべての処理が手元のハードウェアで完結します。

Jan.aiの詳細な機能や対応モデルの一覧は公式サイトで確認できますので、気になる方はぜひチェックしてみてください。

クラウド型AIと比較したときのメリット・デメリット

  • メリット①:プライバシー保護―入力データが外部に送信されないため、機密情報や個人情報を含む作業に使いやすい
  • メリット②:ランニングコストゼロ―一度モデルをダウンロードすれば、以降はAPI費用がかからない
  • メリット③:オフライン動作―ネット環境に依存しないため、出張先や閉域網でも利用可能
  • デメリット①:性能の上限―現時点ではGPT-4oやClaude 3.7 Sonnetなど最上位のクラウドモデルと比べると、推論精度で差がある
  • デメリット②:ハードウェア要件―モデルサイズに応じた十分なRAM・VRAMが必要で、非力なマシンでは動作が遅くなる

ローカルLLMが向いているユースケース

すべての用途でローカルLLMが最適というわけではありません。向き不向きを把握して使い分けることが重要です。

向いているケース

社内文書の要約・整形、コードの補完・レビュー補助、個人の日記・アイデアメモの整理など、外部に出したくないデータを扱う作業全般

向いていないケース

最新ニュースへの回答、高度な多段階推論、画像生成との連携など、最先端の精度や最新知識が必要な用途はクラウドモデルに分があります

ローカルLLM動作に必要なRAMやGPUなどのPCスペック確認イメージ

GPT4AllはGUI操作でローカルLLMを手軽に試せるツールなので、コマンドラインに慣れていない方はまず公式サイトで対応モデルや動作環境を確認してみてください。

導入前に確認|推奨スペックと対応OS

「とりあえずインストールしてみたら、モデルの読み込みで固まってしまった」という経験をする前に、自分のマシンがローカルLLMの動作要件を満たしているかを確認しておきましょう。スペック不足のまま進めると、レスポンスが極端に遅くなるか、そもそも起動できないケースも少なくありません。

RAM・GPU VRAMの目安(モデルサイズ別)

ローカルLLMの快適な動作を左右する最大の要素はRAM(またはGPU VRAM)の容量です。モデルの「サイズ」はパラメータ数(〜B=10億単位)で表され、それが必要メモリの目安になります。

モデルサイズ別・必要メモリの目安

  • 3B〜7Bモデル:RAM 8GB以上(推奨16GB)
  • 13Bモデル:RAM 16GB以上(推奨32GB)
  • 30B〜70Bモデル:RAM 32GB以上、またはVRAM 24GB以上のGPU

GPUがある場合はVRAMに乗り切るモデルを選ぶのが鉄則です。VRAMに収まらない場合はCPUとの分散処理(オフロード)になり、速度が大きく落ちます。量子化(Quantization)された4bit・8bitモデルを使えばメモリ消費を抑えられるため、スペックに不安があれば量子化版から試すのが現実的です。

対応OS別の注意点

Windows

NVIDIA GPU(CUDA対応)があれば最もスムーズに動作します。AMD GPUはROCmサポートが限定的なため、事前に対応状況を確認してください。

macOS(Apple Silicon)

M1以降のチップはユニファイドメモリ構造のため、RAMをGPUメモリとして活用できます。Metal経由でGPU加速が効き、16GB以上のモデルなら快適に動作します。

Linux

CUDA環境が整っていれば3OSの中で最も安定しています。サーバー運用やスクリプト連携を想定しているならLinuxが第一候補です。

事前にインストールが必要なソフトウェア

OllamaとLM Studioはどちらも単体インストーラーで動作しますが、GPU加速を活かすには環境整備が必要です。

  • NVIDIA GPU使用時:最新のNVIDIAドライバー+CUDAツールキット
  • macOS:追加インストール不要(Metal自動対応)
  • Linux(Ollama):公式インストールスクリプトがCUDA依存関係を自動解決

ドライバーのバージョンが古いままだとGPUが認識されずCPU動作になります。特にWindowsはGPUドライバーを先に最新化しておくことを強くおすすめします。

ターミナルでOllamaコマンドを実行してローカルLLMを起動している画面イメージ

Gemma 3の詳細なモデル仕様やダウンロード方法は、Google DeepMindの公式ページで確認してみてください。対応サイズ(1B〜27B)や量子化オプションなど、環境に合わせた選び方の参考になるでしょう。

Ollamaを使ったローカルLLM導入手順

前セクションでスペックを確認できたら、いよいよ導入です。Ollamaはコマンド一本でモデルのダウンロードから起動まで完結するため、ローカルLLM入門として最も敷居が低い選択肢といえます。

Llama 3の詳細なスペックや対応ファイルサイズ、日本語性能の実測データについては、Meta公式ページで確認できます。導入前にモデルの要件をチェックしておくと、環境構築がスムーズに進むでしょう。

Ollamaのインストール方法(Windows・Mac)

OllamaはWindows・Mac・Linuxの三大プラットフォームに対応しています。インストール方法はOSによって若干異なります。

1

公式サイトへアクセス

ollama.com/download を開き、OSに対応したインストーラーを選択します。

2

インストール実行

Mac:ダウンロードした .dmg を開いてアプリをApplicationsへ移動。起動するとメニューバーにアイコンが表示されます。
WindowsOllamaSetup.exe を実行するだけで完了。追加の設定は不要です。
Linux:ターミナルで curl -fsSL https://ollama.com/install.sh | sh を実行します。

3

動作確認

ターミナル(またはコマンドプロンプト)で ollama --version を実行し、バージョン番号が返れば成功です。

Ollamaの詳しい使い方や対応モデルの一覧は公式サイトで確認できますので、ぜひチェックしてみてください。インストール手順からコマンドの使い方まで丁寧にまとめられており、初めての方でもスムーズに始められるでしょう。

モデルのダウンロードと起動コマンド

Ollamaの操作は ollama コマンドに集約されています。よく使うコマンドを以下にまとめます。

基本コマンド一覧

  • ollama run llama3.2 :モデルを自動ダウンロードしてそのまま対話起動
  • ollama pull mistral :モデルをダウンロードのみ(起動しない)
  • ollama list :インストール済みモデルの一覧表示
  • ollama rm llama3.2 :指定モデルを削除
  • ollama serve :APIサーバーをポート11434で起動

初回の run 実行時はモデルファイルのダウンロードが走ります。モデルサイズによっては数GB単位になるため、通信環境が安定した場所で実行するのが無難です。ダウンロード完了後は同コマンドでキャッシュから即起動します。

モデルは ollama.com/library で一覧確認できます。llama3.2mistralgemma3 などが代表的な選択肢です。モデル名の末尾に :7b:13b とパラメータ数を指定することで、マシンスペックに合わせたサイズを選べます。

Mistralの詳細なモデル仕様やダウンロード方法は公式サイトで確認できるので、ぜひチェックしてみてください。

ブラウザから使えるWeb UIの設定方法

コマンドラインでの対話は慣れると快適ですが、GUI環境を求める場合は Open WebUI が定番の選択肢です。ChatGPTに近いインターフェースでOllamaと連携できます。

Dockerが導入済みであれば、以下のコマンド一発で起動できます。

docker run -d -p 3000:80 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

起動後は http://localhost:3000 にアクセスするだけです。Ollamaが同一マシンで ollama serve 状態にあれば、自動的にモデル一覧が取得されます。

Open WebUIのデメリットも把握しておく

Dockerが必須なため、Docker未導入の環境では事前セットアップが必要です。また、ローカルでWebサーバーを常時起動する形になるため、バックグラウンドのリソース消費が気になる場面もあります。シンプルにCLIだけで使い続けるのも十分な選択肢です。

LM StudioのGUI画面をマウス操作でローカルLLMとチャットしているイメージ

GUIで簡単に使えるLM Studioの導入手順

「コマンドラインはハードルが高い」と感じたことはありませんか。Ollamaはターミナル操作が前提でしたが、LM StudioはすべてGUI(グラフィカルな画面)で完結します。モデルの検索からチャットまでマウス操作のみで進められるため、CLIが苦手な方にとって現実的な選択肢です。

LM Studioのダウンロードと初期設定

STEP 1

公式サイトからインストーラーを入手

LM Studioの公式サイト(lmstudio.ai)にアクセスし、OS(Windows・Mac・Linux)に対応したインストーラーをダウンロードします。Macの場合はApple Silicon用とIntel用が別配布されているため、自分のMacに搭載されているチップを確認してから選択してください。

STEP 2

インストールして起動

ダウンロードしたファイルを実行し、指示に従ってインストールを完了させます。初回起動時に使用状況データの送信可否を問われますが、オフにしても機能に影響はありません。

動作環境の目安
Apple Silicon(M1以降)搭載Macは特に動作が安定しています。WindowsはNVIDIA製GPUがあると快適ですが、CPU推論でも動作自体は可能です。詳細なスペック要件は公式ドキュメントで確認してください。

GUIで直感的に操作できるLM Studioの詳細な使い方や対応モデルの一覧は、公式サイトで確認してみてください。インストール手順から日本語モデルの設定まで、まとめて把握できます。

モデルの検索・ダウンロード方法

左サイドバーの虫眼鏡アイコン(Discover)をクリックすると、Hugging Face上のモデルを直接検索できます。初めての場合は、画面上部に表示される「おすすめモデル」から選ぶのが失敗しにくい方法です。

モデル選びの3つのポイント

  • ファイルサイズの目安はRAMの半分以下に抑える(8GBメモリなら4GB以下のモデルを選択)
  • 量子化(Quantization)は「Q4_K_M」が速度と精度のバランスが取りやすい
  • 日本語を使うなら「Japanese」タグや「ja」表記のあるモデルを優先する

モデル名の横にある「Download」ボタンを押すと、バックグラウンドでダウンロードが始まります。進捗はサイドバー下部のアイコンで確認可能です。ファイルサイズが数GBになることも多いため、安定したWi-Fi環境での実行を推奨します。

NVIDIA GeForce RTX 4060は、VRAMが8GBあり7〜13Bクラスのモデルを快適に動かせるバランスの良い選択肢です。気になる方は最新の価格や在庫状況をチェックしてみてください。

チャット画面の使い方と設定のポイント

左サイドバーのチャットアイコンをクリックし、画面上部のドロップダウンからダウンロード済みのモデルを選択すると、すぐに対話できる状態になります。

STEP 1

システムプロンプトの設定

右パネルの「System Prompt」欄に指示を入力することで、モデルの振る舞いを事前に指定できます。たとえば「日本語で回答してください」と書いておくだけで、英語モデルでも日本語応答率が上がります。

STEP 2

パラメータの調整

右パネルの「Temperature」は出力のランダム性を制御します。0に近いほど安定した回答、1に近いほど多様な表現が出やすくなります。コード生成には0.2前後、雑談や創作には0.7前後が使いやすい範囲です。

LM Studioの正直なデメリット
GUIの分かりやすさと引き換えに、アプリ自体のメモリ消費がOllamaより大きい点は把握しておく必要があります。また、オープンソースではないため、挙動の細部をカスタマイズしたい上級者にとっては物足りなさを感じる場面もあります。手軽さを最優先する入門〜中級者向けのツールと理解しておくと、用途に応じた使い分けがしやすくなります。

おすすめローカルLLMモデルの選び方

LM StudioやOllamaを準備できたら、次の壁は「どのモデルを選ぶか」です。モデルの数は数百以上あり、名前だけ見ても判断できないケースがほとんどです。ここでは選択基準を3つの軸で整理します。

モデルサイズ(パラメータ数)と性能・速度のトレードオフ

パラメータ数はモデルの「脳の大きさ」に相当します。大きいほど賢くなりますが、必要なメモリも増えます。一般的な目安は以下のとおりです。

パラメータ数と動作環境の目安
  • 7B前後:8GB以上のRAMで動作可能。速度重視の用途に最適
  • 13B前後:16GB以上のRAMが目安。回答品質と速度のバランスが取れる
  • 70B以上:32GB以上のRAMが必要。GPT-4に近い品質だが、一般的なPCでは速度が出ない

また、モデルには量子化(クオンタイズ)という圧縮形式があります。Q4はファイルサイズが小さく速い一方、Q8は精度が高い分メモリを多く消費します。まずはQ4またはQ5形式から試すのが現実的です。

日本語対応モデルを選ぶ際のチェックポイント

英語ベースのモデルに日本語で質問しても、応答が英語になったり文脈がずれたりすることがあります。日本語で使う場合は、以下の点を確認してください。

日本語対応モデルのチェックリスト
  • モデル名やHugging Faceの説明に「Japanese」「multilingual」「ja」の記載があるか
  • 日本語テキストを独自トークンで処理しているか(トークナイザーの確認)
  • 日本語データで追加学習(ファインチューン)されているか

たとえばQwen2シリーズはアリババが開発した多言語対応モデルで、日本語のトークン効率が比較的高いといわれています。一方、英語特化モデルに日本語で質問すると、同じパラメータ数でも回答品質が大きく落ちることがある点には注意が必要です。

用途別おすすめモデル(コーディング・日本語会話・汎用)

用途が絞れているほど、モデル選びは早くなります。目的別の代表的な選択肢を整理しました。

コーディング用途

DeepSeek CoderCodeLlamaが定番です。コード補完・デバッグ・リファクタリングを主な用途とするなら、汎用モデルよりもコード特化モデルのほうが精度が出やすいです。英語のコードコメントがメインになる点はあらかじめ把握しておいてください。

日本語会話・文章生成

ELYZAはLlamaベースに日本語ファインチューンを施したモデルで、自然な日本語出力を期待できます。Qwen2も日本語の質問応答に強く、7Bクラスの中では安定した選択肢です。

汎用(コーディングも日本語も両方)

MetaのLlama 3.1シリーズはマルチタスクのバランスが取れており、初めて試す1本として選ばれることが多いです。特定用途に絞り切れない場合の起点として使いやすい選択です。

注意点

モデルの性能はハードウェア構成・量子化形式・プロンプトの書き方によって大きく変わります。ベンチマーク数値は参考程度にとどめ、実際に自分の用途で試してみることが最も確実な判断基準になります。

Qwen2.5の詳細なモデル仕様や最新バージョンの情報は、公式ページで確認してみてください。日本語対応の精度や対応コンテキスト長など、ローカル環境で使う前に押さえておきたいスペックが一覧で確認できます。

よくあるトラブルと対処法

モデルを選んでダウンロードしたものの、起動ボタンを押しても何も起きない——そんな経験をした方は少なくないはずです。ローカルLLMのトラブルのほとんどは、原因がいくつかのパターンに集約されます。順番に確認することで、多くの場合は解決できます。

モデルが起動しない・クラッシュする場合の確認手順

起動直後にクラッシュする場合、原因の大半は「モデルファイルの破損」か「メモリ不足」のどちらかです。焦らず以下の順に確認してください。

1

モデルファイルの再ダウンロード
ダウンロード途中で中断すると、不完全なファイルが残ります。Ollamaならollama rm モデル名で削除後、ollama pullで再取得してください。

2

搭載RAM・VRAMの確認
7Bモデルの4bit量子化でも最低8GBのRAMが必要です。タスクマネージャーやhtopでメモリの空き容量を確認しましょう。

3

ログの確認
Ollamaはターミナルログにエラーコードをそのまま出力します。LM Studioは画面下部のコンソールタブを開くと詳細が確認できます。

NVIDIA GeForce RTX 4070は、ローカルLLMの快適な動作に必要なVRAM(12GB)を備えつつ、価格と性能のバランスに優れたモデルです。気になる方は最新の価格や在庫状況を確認してみてください。

生成速度が遅いときの設定見直しポイント

「動いてはいるが、1トークンの出力に数秒かかる」という状態は、GPU加速が有効になっていないサインです。

確認すべき設定項目

  • GPU加速の有効化:OllamaはNVIDIAドライバーが正しくインストールされていれば自動でCUDAを使用します。ollama run実行時に「using CUDA」と表示されているか確認してください。
  • コンテキスト長の削減:デフォルトのコンテキスト長(num_ctx)を2048程度に下げると、VRAM消費と速度が改善することがあります。
  • 量子化レベルの変更:Q8よりQ4のモデルのほうが推論速度は速くなります。精度と速度のトレードオフを意識して選びましょう。

VRAMが不足しているときのCPUオフロード設定

VRAMが足りない場合、モデルの一部をRAM側に逃がす「CPUオフロード」が有効です。速度は落ちますが、起動できないよりはるかに実用的です。

OllamaではOLLAMA_NUM_GPU環境変数でGPUに乗せるレイヤー数を指定できます。たとえばOLLAMA_NUM_GPU=20のように設定すると、残りのレイヤーはCPUで処理されます。LM Studioはモデル読み込み画面の「GPU Layers」スライダーを下げることで同じ効果が得られます。

目安として:8GBのVRAMで13Bモデルを動かしたい場合、GPUレイヤーを20〜30程度に設定すると動作するケースが多いです。最適な値はモデルによって異なるため、数値を変えながら試してみてください。

まとめ|自分のPC環境に合った導入方法を選ぼう

ローカルLLMの導入は、最初の一歩さえ踏み出せれば思ったよりスムーズです。ここまでの内容を踏まえ、自分のスペックと用途から最短ルートを選んでいきましょう。

ツール選択の判断基準

  • Ollamaを選ぶべき人:コマンドラインに慣れている、スクリプトやAPIと組み合わせて使いたい、とにかく軽量に動かしたい
  • LM Studioを選ぶべき人:GUIで直感的に操作したい、複数モデルを比較しながら試したい、初めてローカルLLMに触れる

モデル選択の目安

  • VRAM 4GB以下・RAM 8GB:1B〜3Bクラスの量子化モデルから始める
  • VRAM 8GB・RAM 16GB:7B〜8Bクラスが快適に動作する現実的なラインです
  • RAM 32GB以上(GPUなし):CPUオンリーでも13B〜14Bクラスが選択肢に入ります

ハイスペックな環境でなくても、用途を絞れば十分実用になります。たとえば「メールの文章チェック」や「コードのエラー確認」だけであれば、3B〜7Bモデルで多くの場面をカバーできます。

STEP 1

自分のRAM・VRAMを確認し、動かせるモデルサイズを把握する

STEP 2

OllamaまたはLM Studioをインストールし、小さめのモデルで動作確認する

STEP 3

問題なく動いたらモデルサイズを上げ、用途に合った設定を詰めていく

クラウドAIと違い、ローカルLLMは試行錯誤そのものがスキルになります。まずは動かすことを優先し、細かい最適化は後から行うのがコツです。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

目次