NVIDIA DGX Spark および OEM 機向けの LLM 推論バックエンド設定集。
注意: 本リポジトリは DGX Spark / OEM 機専用です。他の環境での動作は想定していません。
- NVIDIA DGX Spark
- OEM 機(Lenovo ThinkStation PGX 等)
- Lenovo ThinkStation PGX
| バックエンド | 技術 | 対応モデル | 特徴 |
|---|---|---|---|
| trtllm | TensorRT-LLM | Qwen3-FP4, Nemotron-NVFP4 | マルチモデル同時起動対応 |
| vllm | vLLM | Qwen3-Coder, Nemotron, Nemotron-VL | ツール呼び出し対応 |
| nim | NVIDIA NIM | Qwen3-32B, Llama-3.1-8B, Nemotron-Nano | NGC マネージドイメージ |
- DGX Spark または OEM 機(GB10 Grace Blackwell)
- Docker + Docker Compose
- NVIDIA Container Toolkit
- モデルウェイト:
~/model_weights/に配置(NIM を除く)
# TensorRT-LLM (Qwen3-FP4 単独)
cd backends/trtllm && docker compose --profile qwen up
# TRT-LLM マルチモデル (Qwen3-FP4 + Nemotron-NVFP4 を単一ポートで同時起動)
cd backends/trtllm && docker compose --profile multi up
# vLLM (Qwen3-Coder)
cd backends/vllm && docker compose --profile qwen up
# NVIDIA NIM (Qwen3-32B)
cd backends/nim && docker compose up全バックエンドで OpenAI 互換 API がポート 8000 で公開されます。
curl -X POST http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "<MODEL_NAME>",
"messages": [{"role": "user", "content": "Hello"}],
"max_tokens": 128
}'- Thinking モード - Qwen3 の思考プロセス出力
- ツール呼び出し - vLLM でのツール呼び出し設定とデバッグ
本リポジトリは個人利用・ローカル実行を想定しています。
- ポートバインド:
127.0.0.1:8000(ローカルホストのみ) - API 認証: なし(ローカル実行前提)
各 compose.yml のポート設定を変更してください:
# 変更前(ローカルのみ)
ports:
- "127.0.0.1:8000:8000"
# 変更後(LAN 公開)
ports:
- "8000:8000"注意: LAN 公開時は以下を確認してください:
- ルーターでポート 8000 への外部(インターネット)アクセスがブロックされていること
- LAN 内の信頼できるデバイスのみがアクセスすること
vLLM / TRT-LLM の Nemotron モデル(--trust-remote-code / --trust_remote_code フラグ)は HuggingFace からのコード実行を許可しています:
- サプライチェーン攻撃のリスクが存在します
- モデル初回ダウンロード時に
~/.cache/huggingface内のコードを確認することを推奨します