Skip to content

toku345/dgx-llm-serve

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

81 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

dgx-llm-serve

NVIDIA DGX Spark および OEM 機向けの LLM 推論バックエンド設定集。

注意: 本リポジトリは DGX Spark / OEM 機専用です。他の環境での動作は想定していません。

対象ハードウェア

動作確認環境

  • Lenovo ThinkStation PGX

バックエンド一覧

バックエンド 技術 対応モデル 特徴
trtllm TensorRT-LLM Qwen3-FP4, Nemotron-NVFP4 マルチモデル同時起動対応
vllm vLLM Qwen3-Coder, Nemotron, Nemotron-VL ツール呼び出し対応
nim NVIDIA NIM Qwen3-32B, Llama-3.1-8B, Nemotron-Nano NGC マネージドイメージ

前提条件

  • DGX Spark または OEM 機(GB10 Grace Blackwell)
  • Docker + Docker Compose
  • NVIDIA Container Toolkit
  • モデルウェイト: ~/model_weights/ に配置(NIM を除く)

クイックスタート

# TensorRT-LLM (Qwen3-FP4 単独)
cd backends/trtllm && docker compose --profile qwen up

# TRT-LLM マルチモデル (Qwen3-FP4 + Nemotron-NVFP4 を単一ポートで同時起動)
cd backends/trtllm && docker compose --profile multi up

# vLLM (Qwen3-Coder)
cd backends/vllm && docker compose --profile qwen up

# NVIDIA NIM (Qwen3-32B)
cd backends/nim && docker compose up

API テスト

全バックエンドで OpenAI 互換 API がポート 8000 で公開されます。

curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "<MODEL_NAME>",
    "messages": [{"role": "user", "content": "Hello"}],
    "max_tokens": 128
  }'

ドキュメント

セキュリティに関する注意事項

本リポジトリは個人利用・ローカル実行を想定しています。

デフォルト設定

  • ポートバインド: 127.0.0.1:8000 (ローカルホストのみ)
  • API 認証: なし(ローカル実行前提)

LAN 内の他デバイスからアクセスする場合

compose.yml のポート設定を変更してください:

# 変更前(ローカルのみ)
ports:
  - "127.0.0.1:8000:8000"

# 変更後(LAN 公開)
ports:
  - "8000:8000"

注意: LAN 公開時は以下を確認してください:

  • ルーターでポート 8000 への外部(インターネット)アクセスがブロックされていること
  • LAN 内の信頼できるデバイスのみがアクセスすること

リモートコード実行に関する注意

vLLM / TRT-LLM の Nemotron モデル(--trust-remote-code / --trust_remote_code フラグ)は HuggingFace からのコード実行を許可しています:

  • サプライチェーン攻撃のリスクが存在します
  • モデル初回ダウンロード時に ~/.cache/huggingface 内のコードを確認することを推奨します

About

Docker Compose configs for running LLM inference on DGX Spark (TensorRT-LLM / vLLM / NIM)

Topics

Resources

Stars

Watchers

Forks

Contributors