dgx-llm-serve

NVIDIA DGX Spark および OEM 機向けの LLM 推論バックエンド設定集。

注意: 本リポジトリは DGX Spark / OEM 機専用です。他の環境での動作は想定していません。

対象ハードウェア

NVIDIA DGX Spark
OEM 機（Lenovo ThinkStation PGX 等）

動作確認環境

Lenovo ThinkStation PGX

バックエンド一覧

バックエンド	技術	対応モデル	特徴
trtllm	TensorRT-LLM	Qwen3-FP4, Nemotron-NVFP4	マルチモデル同時起動対応
vllm	vLLM	Qwen3-Coder, Nemotron, Nemotron-VL	ツール呼び出し対応
nim	NVIDIA NIM	Qwen3-32B, Llama-3.1-8B, Nemotron-Nano	NGC マネージドイメージ

前提条件

DGX Spark または OEM 機（GB10 Grace Blackwell）
Docker + Docker Compose
NVIDIA Container Toolkit
モデルウェイト: ~/model_weights/ に配置（NIM を除く）

クイックスタート

# TensorRT-LLM (Qwen3-FP4 単独)
cd backends/trtllm && docker compose --profile qwen up

# TRT-LLM マルチモデル (Qwen3-FP4 + Nemotron-NVFP4 を単一ポートで同時起動)
cd backends/trtllm && docker compose --profile multi up

# vLLM (Qwen3-Coder)
cd backends/vllm && docker compose --profile qwen up

# NVIDIA NIM (Qwen3-32B)
cd backends/nim && docker compose up

API テスト

全バックエンドで OpenAI 互換 API がポート 8000 で公開されます。

curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "<MODEL_NAME>",
    "messages": [{"role": "user", "content": "Hello"}],
    "max_tokens": 128
  }'

ドキュメント

Thinking モード - Qwen3 の思考プロセス出力
ツール呼び出し - vLLM でのツール呼び出し設定とデバッグ

セキュリティに関する注意事項

本リポジトリは個人利用・ローカル実行を想定しています。

デフォルト設定

ポートバインド: 127.0.0.1:8000 （ローカルホストのみ）
API 認証: なし（ローカル実行前提）

LAN 内の他デバイスからアクセスする場合

各 compose.yml のポート設定を変更してください:

# 変更前（ローカルのみ）
ports:
  - "127.0.0.1:8000:8000"

# 変更後（LAN 公開）
ports:
  - "8000:8000"

注意: LAN 公開時は以下を確認してください:

ルーターでポート 8000 への外部（インターネット）アクセスがブロックされていること
LAN 内の信頼できるデバイスのみがアクセスすること

リモートコード実行に関する注意

vLLM / TRT-LLM の Nemotron モデル（--trust-remote-code / --trust_remote_code フラグ）は HuggingFace からのコード実行を許可しています:

サプライチェーン攻撃のリスクが存在します
モデル初回ダウンロード時に ~/.cache/huggingface 内のコードを確認することを推奨します

Name		Name	Last commit message	Last commit date
Latest commit History 81 Commits
.github		.github
backends		backends
docs		docs
scripts		scripts
.gitignore		.gitignore
.python-version		.python-version
AGENTS.md		AGENTS.md
CLAUDE.md		CLAUDE.md
README.md		README.md
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

dgx-llm-serve

対象ハードウェア

動作確認環境

バックエンド一覧

前提条件

クイックスタート

API テスト

ドキュメント

セキュリティに関する注意事項

デフォルト設定

LAN 内の他デバイスからアクセスする場合

リモートコード実行に関する注意

About

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

dgx-llm-serve

対象ハードウェア

動作確認環境

バックエンド一覧

前提条件

クイックスタート

API テスト

ドキュメント

セキュリティに関する注意事項

デフォルト設定

LAN 内の他デバイスからアクセスする場合

リモートコード実行に関する注意

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Uh oh!

Contributors

Uh oh!

Languages