Project-MONAI
diff --git a/‎tutorials/generative/3d_ldm/3d_ldm_tutorial.ipynb‎
Lines changed: 58 additions & 68 deletions b/‎tutorials/generative/3d_ldm/3d_ldm_tutorial.ipynb‎
Lines changed: 58 additions & 68 deletions
@@ -8,26 +8,6 @@
     "# 3D Latent Diffusion Model"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "id": "bcbbb4a3",
-   "metadata": {},
-   "source": [
-    "## Set up environment using Colab\n"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 1,
-   "id": "8caae787",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "!python -c \"import monai\" || pip install -q \"monai-weekly[tqdm]\"\n",
-    "!python -c \"import matplotlib\" || pip install -q matplotlib\n",
-    "%matplotlib inline"
-   ]
-  },
   {
    "cell_type": "markdown",
    "id": "da9e6b23",
@@ -78,27 +58,26 @@
    ],
    "source": [
     "import os\n",
+    "import shutil\n",
     "import tempfile\n",
+    "\n",
     "import matplotlib.pyplot as plt\n",
-    "from tqdm import tqdm\n",
-    "import shutil\n",
     "import torch\n",
     "import torch.nn.functional as F\n",
-    "from torch.cuda.amp import GradScaler, autocast\n",
-    "\n",
     "from monai import transforms\n",
     "from monai.apps import DecathlonDataset\n",
     "from monai.config import print_config\n",
     "from monai.data import DataLoader\n",
     "from monai.utils import first, set_determinism\n",
+    "from torch.cuda.amp import GradScaler, autocast\n",
+    "from torch.nn import L1Loss\n",
+    "from tqdm import tqdm\n",
     "\n",
-    "\n",
-    "from generative.networks.nets import AutoencoderKL, DiffusionModelUNet, PatchDiscriminator\n",
     "from generative.inferers import LatentDiffusionInferer\n",
-    "from generative.schedulers import DDPMScheduler\n",
     "from generative.losses.adversarial_loss import PatchAdversarialLoss\n",
     "from generative.losses.perceptual import PerceptualLoss\n",
-    "from torch.nn import L1Loss\n",
+    "from generative.networks.nets import AutoencoderKL, DiffusionModelUNet, PatchDiscriminator\n",
+    "from generative.networks.schedulers import DDPMScheduler\n",
     "\n",
     "print_config()"
    ]
@@ -183,29 +162,36 @@
    ],
    "source": [
     "batch_size = 2\n",
-    "channel = 0 # 0 = Flair\n",
-    "assert channel in [0,1,2,3], 'Choose a valid channel'\n",
+    "channel = 0  # 0 = Flair\n",
+    "assert channel in [0, 1, 2, 3], \"Choose a valid channel\"\n",
     "\n",
     "train_transforms = transforms.Compose(\n",
     "    [\n",
     "        transforms.LoadImaged(keys=[\"image\"]),\n",
     "        transforms.EnsureChannelFirstd(keys=[\"image\"]),\n",
-    "        transforms.Lambdad(keys=\"image\", func=lambda x: x[channel,:, :, :]),\n",
+    "        transforms.Lambdad(keys=\"image\", func=lambda x: x[channel, :, :, :]),\n",
     "        transforms.AddChanneld(keys=[\"image\"]),\n",
     "        transforms.EnsureTyped(keys=[\"image\"]),\n",
     "        transforms.Orientationd(keys=[\"image\"], axcodes=\"RAS\"),\n",
-    "        transforms.Spacingd(keys=[\"image\"], pixdim=(2.4, 2.4, 2.2), mode=(\"bilinear\"),),\n",
-    "        transforms.CenterSpatialCropd(keys=[\"image\"],roi_size = (96, 96, 64)),\n",
-    "        transforms.ScaleIntensityRangePercentilesd(keys=\"image\", lower= 0, upper= 99.5, b_min= 0, b_max= 1),\n",
+    "        transforms.Spacingd(\n",
+    "            keys=[\"image\"],\n",
+    "            pixdim=(2.4, 2.4, 2.2),\n",
+    "            mode=(\"bilinear\"),\n",
+    "        ),\n",
+    "        transforms.CenterSpatialCropd(keys=[\"image\"], roi_size=(96, 96, 64)),\n",
+    "        transforms.ScaleIntensityRangePercentilesd(keys=\"image\", lower=0, upper=99.5, b_min=0, b_max=1),\n",
     "    ]\n",
     ")\n",
-    "train_ds = DecathlonDataset(root_dir=root_dir, \n",
-    "                            task='Task01_BrainTumour', \n",
-    "                            section=\"training\", #validation\n",
-    "                            cache_rate=1.0, # you may need a few Gb of RAM... Set to 0 otherwise\n",
-    "                            num_workers=4,\n",
-    "                            download=False, # Set download to True if the dataset hasnt been downloaded yet\n",
-    "                            seed=0, transform = train_transforms) \n",
+    "train_ds = DecathlonDataset(\n",
+    "    root_dir=root_dir,\n",
+    "    task=\"Task01_BrainTumour\",\n",
+    "    section=\"training\",  # validation\n",
+    "    cache_rate=1.0,  # you may need a few Gb of RAM... Set to 0 otherwise\n",
+    "    num_workers=4,\n",
+    "    download=False,  # Set download to True if the dataset hasnt been downloaded yet\n",
+    "    seed=0,\n",
+    "    transform=train_transforms,\n",
+    ")\n",
     "train_loader = DataLoader(train_ds, batch_size=batch_size, shuffle=True, num_workers=4)\n",
     "print(f'Image shape {train_ds[0][\"image\"].shape}')"
    ]
@@ -252,16 +238,17 @@
     "check_data = first(train_loader)\n",
     "idx = 0\n",
     "\n",
-    "img = check_data[\"image\"][idx,0]\n",
+    "img = check_data[\"image\"][idx, 0]\n",
     "fig, axs = plt.subplots(nrows=1, ncols=3)\n",
     "for ax in axs:\n",
     "    ax.axis(\"off\")\n",
     "ax = axs[0]\n",
-    "ax.imshow(img[...,img.shape[2]//2], cmap=\"gray\")\n",
+    "ax.imshow(img[..., img.shape[2] // 2], cmap=\"gray\")\n",
     "ax = axs[1]\n",
-    "ax.imshow(img[:,img.shape[1]//2, ...], cmap=\"gray\")\n",
+    "ax.imshow(img[:, img.shape[1] // 2, ...], cmap=\"gray\")\n",
     "ax = axs[2]\n",
-    "ax.imshow(img[img.shape[0]//2, ...], cmap=\"gray\")"
+    "ax.imshow(img[img.shape[0] // 2, ...], cmap=\"gray\")\n",
+    "# plt.savefig(\"training_examples.png\")"
    ]
   },
   {
@@ -316,7 +303,7 @@
     "    in_channels=3,\n",
     "    out_channels=3,\n",
     "    num_res_blocks=1,\n",
-    "    num_channels=[32,64,64],\n",
+    "    num_channels=[32, 64, 64],\n",
     "    attention_levels=(False, True, True),\n",
     "    num_head_channels=1,\n",
     ")\n",
@@ -344,7 +331,7 @@
     "    beta_end=0.0195,\n",
     ")\n",
     "\n",
-    "inferer = LatentDiffusionInferer(scheduler);"
+    "inferer = LatentDiffusionInferer(scheduler)"
    ]
   },
   {
@@ -364,12 +351,15 @@
    "source": [
     "l1_loss = L1Loss()\n",
     "adv_loss = PatchAdversarialLoss(criterion=\"least_squares\")\n",
-    "loss_perceptual = PerceptualLoss(spatial_dims=3, network_type='squeeze', is_fake_3d=True, fake_3d_ratio=0.2)\n",
+    "loss_perceptual = PerceptualLoss(spatial_dims=3, network_type=\"squeeze\", is_fake_3d=True, fake_3d_ratio=0.2)\n",
     "loss_perceptual.to(device)\n",
+    "\n",
+    "\n",
     "def KL_loss(z_mu, z_sigma):\n",
-    "    kl_loss = 0.5 * torch.sum(z_mu.pow(2) + z_sigma.pow(2) - torch.log(z_sigma.pow(2)) - 1, dim = [1, 2, 3, 4])\n",
+    "    kl_loss = 0.5 * torch.sum(z_mu.pow(2) + z_sigma.pow(2) - torch.log(z_sigma.pow(2)) - 1, dim=[1, 2, 3, 4])\n",
     "    return torch.sum(kl_loss) / kl_loss.shape[0]\n",
     "\n",
+    "\n",
     "adv_weight = 0.01\n",
     "perceptual_weight = 0.001\n",
     "kl_weight = 1e-6"
@@ -527,25 +517,25 @@
     "    progress_bar = tqdm(enumerate(train_loader), total=len(train_loader), ncols=110)\n",
     "    progress_bar.set_description(f\"Epoch {epoch}\")\n",
     "    for step, batch in progress_bar:\n",
-    "        images = batch[\"image\"].to(device) # choose only one of Brats channels\n",
-    "        \n",
+    "        images = batch[\"image\"].to(device)  # choose only one of Brats channels\n",
+    "\n",
     "        # Generator part\n",
     "        optimizer_g.zero_grad(set_to_none=True)\n",
-    "        reconstruction, z_mu, z_sigma  = autoencoder(images)\n",
+    "        reconstruction, z_mu, z_sigma = autoencoder(images)\n",
     "        kl_loss = KL_loss(z_mu, z_sigma)\n",
     "\n",
     "        recons_loss = l1_loss(reconstruction.float(), images.float())\n",
     "        p_loss = loss_perceptual(reconstruction.float(), images.float())\n",
     "        loss_g = recons_loss + kl_weight * kl_loss + perceptual_weight * p_loss\n",
-    "        \n",
+    "\n",
     "        if epoch > autoencoder_warm_up_n_epochs:\n",
     "            logits_fake = discriminator(reconstruction.contiguous().float())[-1]\n",
     "            generator_loss = adv_loss(logits_fake, target_is_real=True, for_discriminator=False)\n",
     "            loss_g += adv_weight * generator_loss\n",
     "\n",
     "        loss_g.backward()\n",
     "        optimizer_g.step()\n",
-    "        \n",
+    "\n",
     "        if epoch > autoencoder_warm_up_n_epochs:\n",
     "            # Discriminator part\n",
     "            optimizer_d.zero_grad(set_to_none=True)\n",
@@ -604,7 +594,7 @@
    "source": [
     "plt.style.use(\"ggplot\")\n",
     "plt.title(\"Learning Curves\", fontsize=20)\n",
-    "plt.plot(epoch_recon_loss_list) \n",
+    "plt.plot(epoch_recon_loss_list)\n",
     "plt.yticks(fontsize=12)\n",
     "plt.xticks(fontsize=12)\n",
     "plt.xlabel(\"Epochs\", fontsize=16)\n",
@@ -685,11 +675,11 @@
     "for ax in axs:\n",
     "    ax.axis(\"off\")\n",
     "ax = axs[0]\n",
-    "ax.imshow(img[...,img.shape[2]//2], cmap=\"gray\")\n",
+    "ax.imshow(img[..., img.shape[2] // 2], cmap=\"gray\")\n",
     "ax = axs[1]\n",
-    "ax.imshow(img[:,img.shape[1]//2, ...], cmap=\"gray\")\n",
+    "ax.imshow(img[:, img.shape[1] // 2, ...], cmap=\"gray\")\n",
     "ax = axs[2]\n",
-    "ax.imshow(img[img.shape[0]//2, ...], cmap=\"gray\")"
+    "ax.imshow(img[img.shape[0] // 2, ...], cmap=\"gray\")"
    ]
   },
   {
@@ -733,12 +723,12 @@
     "    for step, batch in progress_bar:\n",
     "        images = batch[\"image\"].to(device)\n",
     "        optimizer_diff.zero_grad(set_to_none=True)\n",
-    "        \n",
+    "\n",
     "        with autocast(enabled=True):\n",
     "            # Generate random noise\n",
     "            noise = torch.randn_like(z).to(device)\n",
     "            # Get model prediction\n",
-    "            noise_pred = inferer(inputs=images, autoencoder_model = autoencoder, diffusion_model=unet, noise=noise)\n",
+    "            noise_pred = inferer(inputs=images, autoencoder_model=autoencoder, diffusion_model=unet, noise=noise)\n",
     "\n",
     "            loss = F.mse_loss(noise_pred.float(), noise.float())\n",
     "\n",
@@ -781,9 +771,9 @@
     }
    ],
    "source": [
-    "plt.plot(epoch_loss_list);\n",
+    "plt.plot(epoch_loss_list)\n",
     "plt.title(\"Learning Curves\", fontsize=20)\n",
-    "plt.plot(epoch_loss_list) \n",
+    "plt.plot(epoch_loss_list)\n",
     "plt.yticks(fontsize=12)\n",
     "plt.xticks(fontsize=12)\n",
     "plt.xlabel(\"Epochs\", fontsize=16)\n",
@@ -863,16 +853,16 @@
    ],
    "source": [
     "idx = 0\n",
-    "img = synthetic_images[idx, channel].detach().cpu().numpy() # images\n",
+    "img = synthetic_images[idx, channel].detach().cpu().numpy()  # images\n",
     "fig, axs = plt.subplots(nrows=1, ncols=3)\n",
     "for ax in axs:\n",
     "    ax.axis(\"off\")\n",
     "ax = axs[0]\n",
-    "ax.imshow(img[...,img.shape[2]//2], cmap=\"gray\")\n",
+    "ax.imshow(img[..., img.shape[2] // 2], cmap=\"gray\")\n",
     "ax = axs[1]\n",
-    "ax.imshow(img[:,img.shape[1]//2, ...], cmap=\"gray\")\n",
+    "ax.imshow(img[:, img.shape[1] // 2, ...], cmap=\"gray\")\n",
     "ax = axs[2]\n",
-    "ax.imshow(img[img.shape[0]//2, ...], cmap=\"gray\")"
+    "ax.imshow(img[img.shape[0] // 2, ...], cmap=\"gray\")"
    ]
   },
   {
@@ -902,7 +892,7 @@
    "main_language": "python"
   },
   "kernelspec": {
-   "display_name": "Python 3.8.2 ('torch_gpu')",
+   "display_name": "Python 3",
    "language": "python",
    "name": "python3"
   },
@@ -916,7 +906,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.8.2"
+   "version": "3.8.12"
   },
   "vscode": {
    "interpreter": {