beehive-lab
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/base/QuantizationPlannerFactory.java‎
Lines changed: 6 additions & 2 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/base/QuantizationPlannerFactory.java‎
Lines changed: 6 additions & 2 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/model/fp16/MistralFP16LayerPlanner.java‎
Lines changed: 21 additions & 0 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/model/fp16/MistralFP16LayerPlanner.java‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/model/q8_0/MistralQ8_0LayerPlanner.java‎
Lines changed: 21 additions & 0 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/model/q8_0/MistralQ8_0LayerPlanner.java‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/quantization/FP16LayerPlanner.java‎
Lines changed: 2 additions & 2 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/quantization/FP16LayerPlanner.java‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/quantization/Q8_0LayerPlanner.java‎
Lines changed: 2 additions & 2 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/quantization/Q8_0LayerPlanner.java‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layers/AbstractFFNLayers.java‎
Lines changed: 44 additions & 29 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layers/AbstractFFNLayers.java‎
Lines changed: 44 additions & 29 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/GraniteFP16FFNLayers.java‎
Lines changed: 5 additions & 25 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/GraniteFP16FFNLayers.java‎
Lines changed: 5 additions & 25 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LlamaFP16FFNLayers.java‎
Lines changed: 6 additions & 28 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LlamaFP16FFNLayers.java‎
Lines changed: 6 additions & 28 deletions
@@ -11,11 +11,13 @@
 import org.beehive.gpullama3.tornadovm.GenericLayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.GraniteFP16LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.LlamaFP16LayerPlanner;
+import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.MistralFP16LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.Phi3FP16LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.Qwen2FP16LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.Qwen3FP16LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.GraniteQ8_0LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.LlamaQ8_0LayerPlanner;
+import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.MistralQ8_0LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.Phi3Q8_0LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.Qwen2Q8_0LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.Qwen3Q8_0LayerPlanner;
@@ -54,7 +56,8 @@ public static GenericLayerPlanner create(GGMLType quantization, State state, Mod
     // ============ FP16 Planners ============
     private static GenericLayerPlanner createFP16Planner(State state, Model model) {
         return switch (model.getModelType()) {
-            case LLAMA_3, MISTRAL -> new LlamaFP16LayerPlanner((LlamaState) state, model);
+            case LLAMA_3 -> new LlamaFP16LayerPlanner((LlamaState) state, model);
+            case MISTRAL -> new MistralFP16LayerPlanner((LlamaState) state, model);
             case QWEN_2 -> new Qwen2FP16LayerPlanner((Qwen2State) state, model);
             case QWEN_3 -> new Qwen3FP16LayerPlanner((Qwen3State) state, model);
             case PHI_3 -> new Phi3FP16LayerPlanner((Phi3State) state, model);
@@ -67,7 +70,8 @@ private static GenericLayerPlanner createFP16Planner(State state, Model model) {
     // ============ Q8_0 Planners ============
     private static GenericLayerPlanner createQ8_0Planner(State state, Model model) {
         return switch (model.getModelType()) {
-            case LLAMA_3, MISTRAL -> new LlamaQ8_0LayerPlanner((LlamaState) state, model);
+            case LLAMA_3 -> new LlamaQ8_0LayerPlanner((LlamaState) state, model);
+            case MISTRAL -> new MistralQ8_0LayerPlanner((LlamaState) state, model);
             case QWEN_2 -> new Qwen2Q8_0LayerPlanner((Qwen2State) state, model);
             case QWEN_3 -> new Qwen3Q8_0LayerPlanner((Qwen3State) state, model);
             case PHI_3 -> new Phi3Q8_0LayerPlanner((Phi3State) state, model);
 
@@ -0,0 +1,21 @@
+package org.beehive.gpullama3.tornadovm.layerplanner.model.fp16;
+
+import org.beehive.gpullama3.inference.state.LlamaState;
+import org.beehive.gpullama3.inference.weights.tornado.LlamaTornadoWeights;
+import org.beehive.gpullama3.model.Model;
+import org.beehive.gpullama3.model.mistral.MistralConfiguration;
+import org.beehive.gpullama3.tornadovm.layerplanner.quantization.FP16LayerPlanner;
+import org.beehive.gpullama3.tornadovm.layers.Activation;
+import org.beehive.gpullama3.tornadovm.layers.type.fp16.MistralFP16FFNLayers;
+import org.beehive.gpullama3.tornadovm.layers.type.fp16.LogitsFP16Layer;
+
+public class MistralFP16LayerPlanner extends FP16LayerPlanner<LlamaState, MistralConfiguration, LlamaTornadoWeights> {
+
+    public MistralFP16LayerPlanner(LlamaState state, Model model) {
+        super(state, model);
+        this.activationLayer = new Activation("activationUpdate", state, weights, config);
+        this.ffnLayers = new MistralFP16FFNLayers("mistralFFN", state, weights, config, schedulerType);
+        this.logitsLayer = new LogitsFP16Layer("logits", state, weights, config, ffnLayers.getLastFFNLayerTaskGraphID(), schedulerType);
+        buildForwardPlan();
+    }
+}
@@ -0,0 +1,21 @@
+package org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0;
+
+import org.beehive.gpullama3.inference.state.LlamaState;
+import org.beehive.gpullama3.inference.weights.tornado.LlamaTornadoWeights;
+import org.beehive.gpullama3.model.Model;
+import org.beehive.gpullama3.model.mistral.MistralConfiguration;
+import org.beehive.gpullama3.tornadovm.layerplanner.quantization.Q8_0LayerPlanner;
+import org.beehive.gpullama3.tornadovm.layers.Activation;
+import org.beehive.gpullama3.tornadovm.layers.type.q8_0.MistralQ8_0FFNLayers;
+import org.beehive.gpullama3.tornadovm.layers.type.q8_0.LogitsQ8_0Layer;
+
+public class MistralQ8_0LayerPlanner extends Q8_0LayerPlanner<LlamaState, MistralConfiguration, LlamaTornadoWeights> {
+
+    public MistralQ8_0LayerPlanner(LlamaState state, Model model) {
+        super(state, model);
+        this.activationLayer = new Activation("activationUpdate", state, weights, config);
+        this.ffnLayers = new MistralQ8_0FFNLayers("mistralFFN", state, weights, config, schedulerType);
+        this.logitsLayer = new LogitsQ8_0Layer("logits", state, weights, config, ffnLayers.getLastFFNLayerTaskGraphID(), schedulerType);
+        buildForwardPlan();
+    }
+}
@@ -25,7 +25,7 @@
 public abstract class FP16LayerPlanner<S extends State, C extends Configuration, W extends TornadoWeights> extends QuantizedLayerPlanner<S, C, W> {
 
     protected Activation activationLayer;
-    protected AbstractFFNLayers ffnLayers;
+    protected AbstractFFNLayers<?,?> ffnLayers;
     protected LogitsFP16Layer logitsLayer;
 
     protected List<ImmutableTaskGraph> immutableTaskGraphs;
@@ -56,7 +56,7 @@ protected final void setupTornadoForwardPlan() {
         activationLayer.updateGridScheduler(masterScheduler);
 
         // 2. FFN layers (N transformer layers - model-specific)
-        allTaskGraphs.addAll(ffnLayers.getFfnLayerTaskGraphs());
+        allTaskGraphs.addAll(ffnLayers.getFFNLayerImmutableTaskGraphs());
         ffnLayers.updateGridScheduler(masterScheduler);
 
         // 3. Logits layer (common to all models)
 
@@ -26,7 +26,7 @@
 public abstract class Q8_0LayerPlanner<S extends State, C extends Configuration, W extends TornadoWeights> extends QuantizedLayerPlanner<S, C, W> {
 
     protected Activation activationLayer;
-    protected AbstractFFNLayers ffnLayers;
+    protected AbstractFFNLayers<?,?> ffnLayers;
     protected LogitsQ8_0Layer logitsLayer;
 
     // Cache for task graphs and scheduler (set once, reused)
@@ -59,7 +59,7 @@ protected final void setupTornadoForwardPlan() {
         activationLayer.updateGridScheduler(masterScheduler);
 
         // 2. FFN layers (N transformer layers - model-specific)
-        allTaskGraphs.addAll(ffnLayers.getFfnLayerTaskGraphs());
+        allTaskGraphs.addAll(ffnLayers.getFFNLayerImmutableTaskGraphs());
         ffnLayers.updateGridScheduler(masterScheduler);
 
         // 3. Logits layer (common to all models)
 
@@ -5,55 +5,70 @@
 import org.beehive.gpullama3.model.Configuration;
 import org.beehive.gpullama3.tornadovm.layerplanner.strategy.SchedulerType;
 import uk.ac.manchester.tornado.api.ImmutableTaskGraph;
+import uk.ac.manchester.tornado.api.TaskGraph;
 
 import java.util.List;
+import java.util.stream.IntStream;
 
 /**
  * Abstract base class for all FFN (Feed-Forward Network) layer implementations.
- *
- * Each subclass builds N ImmutableTaskGraphs (one per FFN layer) via
- * {@link #setupFFNLayerTaskGraphs}, covering RMSNorm, Attention, and FFN computations.
- *
- * Model-specific subclasses: Llama, Qwen2, Qwen3, Phi3, Granite — each in FP16 and Q8_0 variants.
+ * Extended by model and quantization-specific subclasses that provide specific implementations.
  */
-public abstract class AbstractFFNLayers extends AbstractLayer {
+public abstract class AbstractFFNLayers<W extends Weights, C extends Configuration> extends AbstractLayer {
+
+    /**
+     * List of TornadoVM {@link ImmutableTaskGraph}s, one per FFN layer.
+     * Build by {@link #setupFFNLayers()}.
+     */
+    private List<ImmutableTaskGraph> ffnLayerITGs;
+    protected final W weights;
+    protected final C config;
 
     protected String lastFFNLayerTaskGraphID;
     protected final SchedulerType schedulerType;
 
+    protected AbstractFFNLayers(String taskGraphName, State state, W weights, C config, SchedulerType schedulerType) {
+        super(taskGraphName, state, weights, config);
+        this.weights = weights;
+        this.config = config;
+        this.schedulerType = schedulerType;
+        // the ffnLayerITGs is initialized on subclasses
+        // due to some model-specific values (i.e. in Qwen3)
+    }
 
     /**
-     * Constructor for FFN layers.
-     *
-     * @param taskGraphName
-     *         Name for the task graph
-     * @param state
-     *         Runtime state (LlamaState, Qwen2State, etc.)
-     * @param weights
-     *         Model weights (FP16Weights, Q8_0Weights, etc.)
-     * @param config
-     *         Model configuration
+     * Creates the {@link ImmutableTaskGraph} list for each FFN layer.
      */
-    protected AbstractFFNLayers(String taskGraphName, State state, Weights weights, Configuration config, SchedulerType schedulerType) {
-        super(taskGraphName, state, weights, config);
-        this.schedulerType = schedulerType;
+    protected void setupFFNLayers() {
+        int numLayers = config.numberOfLayers();
+
+        this.ffnLayerITGs = IntStream.range(0, numLayers)
+                .mapToObj(this::setupFFNLayer)
+                .toList();
     }
 
     /**
-     * Creates the TornadoVM {@link uk.ac.manchester.tornado.api.TaskGraph} for the FFN layers.
-     * It creates one TaskGraph per layer and snapshots it to produce an {@link ImmutableTaskGraph} per layer.
-     * It also stores the TaskGraph ID of the last FFN layer for use by the {@link AbstractLogitsLayer}.
+     * Creates the TaskGraph for a specific FFN layer and produces the {@link ImmutableTaskGraph}.
+     * In addition, it stores the TaskGraph ID of the last FFN layer for use by the {@link AbstractLogitsLayer}.
      */
-    protected abstract List<ImmutableTaskGraph> setupFFNLayerTaskGraphs();
+    private ImmutableTaskGraph setupFFNLayer(int layerIndex) {
+        TaskGraph tg = createFFNLayerTaskGraph(layerIndex);
+
+        if (layerIndex == config.numberOfLayers() - 1) {
+            lastFFNLayerTaskGraphID = tg.getTaskGraphName();
+        }
+
+        return tg.snapshot();
+    }
 
     /**
-     * Returns all task graphs for the FFN layers.
-     *
-     * For a model with N transformer layers, this returns N ImmutableTaskGraphs, one for each layer (containing RMSNorm, Attention, FFN computations).
-     *
-     * @return List of immutable task graphs (one per transformer layer)
+     * Model and quantization-specific implementation of the FFN layer task graph.
      */
-    public abstract List<ImmutableTaskGraph> getFFNLayerTaskGraphs();
+    protected abstract TaskGraph createFFNLayerTaskGraph(int layerIndex);
+
+    public List<ImmutableTaskGraph> getFFNLayerImmutableTaskGraphs() {
+        return ffnLayerITGs;
+    }
 
     /**
      * Returns the TaskGraph ID of the last FFN layer.
 
@@ -11,21 +11,15 @@
 import org.beehive.gpullama3.tornadovm.layerplanner.strategy.SchedulerType;
 import org.beehive.gpullama3.tornadovm.layers.AbstractFFNLayers;
 import uk.ac.manchester.tornado.api.GridScheduler;
-import uk.ac.manchester.tornado.api.ImmutableTaskGraph;
 import uk.ac.manchester.tornado.api.TaskGraph;
 import uk.ac.manchester.tornado.api.WorkerGrid;
 import uk.ac.manchester.tornado.api.enums.DataTransferMode;
 
-import java.util.List;
-import java.util.stream.IntStream;
+public class GraniteFP16FFNLayers extends AbstractFFNLayers<GraniteTornadoWeights, GraniteConfiguration> {
 
-public class GraniteFP16FFNLayers extends AbstractFFNLayers {
-
-    List<ImmutableTaskGraph> ffnLayerTaskGraphs;
-
-    public GraniteFP16FFNLayers(String taskGraph, State state, Weights weights, GraniteConfiguration config, SchedulerType schedulerType) {
+    public GraniteFP16FFNLayers(String taskGraph, State state, GraniteTornadoWeights weights, GraniteConfiguration config, SchedulerType schedulerType) {
         super(taskGraph, state, weights, config, schedulerType);
-        this.ffnLayerTaskGraphs = setupFFNLayerTaskGraphs();
+        setupFFNLayers();
     }
 
     @Override
@@ -62,21 +56,6 @@ public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler)
         return tornadoForwardScheduler;
     }
 
-    public List<ImmutableTaskGraph> getFFNLayerTaskGraphs() {
-        return ffnLayerTaskGraphs;
-    }
-
-    @Override
-    protected List<ImmutableTaskGraph> setupFFNLayerTaskGraphs() {
-        return IntStream.range(0, config.numberOfLayers()).mapToObj(i -> {
-            var ffnLayer = setupSingleFFNLayer((GraniteTornadoWeights) weights, (GraniteConfiguration) config, i);
-            if (i == config.numberOfLayers() - 1) {
-                this.lastFFNLayerTaskGraphID = ffnLayer.getTaskGraphName();
-            }
-            return ffnLayer.snapshot();
-        }).toList();
-    }
-
     // @formatter:off
     /**
      * Transformer Layer Task Flow (LlamaFP16FFNLayers)
@@ -163,7 +142,8 @@ protected List<ImmutableTaskGraph> setupFFNLayerTaskGraphs() {
      *   • rms_ffn_gate_up:  Fused RMS apply + W1/W3 matmuls + SiLU + GLU (4→1 kernel)
      *
      */
-    TaskGraph setupSingleFFNLayer(GraniteTornadoWeights weights, GraniteConfiguration config, int layerIndex) {
+    @Override
+    protected TaskGraph createFFNLayerTaskGraph(int layerIndex) {
         var layerTaskGraphName = "layer_" + layerIndex;
         TaskGraph unifiedLayer = new TaskGraph(layerTaskGraphName);
 
 
@@ -1,30 +1,23 @@
 package org.beehive.gpullama3.tornadovm.layers.type.fp16;
 
 import org.beehive.gpullama3.inference.state.State;
-import org.beehive.gpullama3.inference.weights.Weights;
 import org.beehive.gpullama3.inference.weights.tornado.LlamaTornadoWeights;
-import org.beehive.gpullama3.model.Configuration;
+import org.beehive.gpullama3.model.llama.LlamaConfiguration;
 import org.beehive.gpullama3.tornadovm.kernels.TransformerComputeKernels;
 import org.beehive.gpullama3.tornadovm.kernels.TransformerComputeKernelsLayered;
 import org.beehive.gpullama3.tornadovm.layerplanner.WorkerGridFactory;
 import org.beehive.gpullama3.tornadovm.layerplanner.strategy.SchedulerType;
 import org.beehive.gpullama3.tornadovm.layers.AbstractFFNLayers;
 import uk.ac.manchester.tornado.api.GridScheduler;
-import uk.ac.manchester.tornado.api.ImmutableTaskGraph;
 import uk.ac.manchester.tornado.api.TaskGraph;
 import uk.ac.manchester.tornado.api.WorkerGrid;
 import uk.ac.manchester.tornado.api.enums.DataTransferMode;
 
-import java.util.List;
-import java.util.stream.IntStream;
+public class LlamaFP16FFNLayers extends AbstractFFNLayers<LlamaTornadoWeights, LlamaConfiguration> {
 
-public class LlamaFP16FFNLayers extends AbstractFFNLayers {
-
-    private List<ImmutableTaskGraph> ffnLayerTaskGraphs;
-
-    public LlamaFP16FFNLayers(String taskGraph, State state, Weights weights, Configuration config, SchedulerType schedulerType) {
+    public LlamaFP16FFNLayers(String taskGraph, State state, LlamaTornadoWeights weights, LlamaConfiguration config, SchedulerType schedulerType) {
         super(taskGraph, state, weights, config, schedulerType);
-        this.ffnLayerTaskGraphs = setupFFNLayerTaskGraphs();
+        setupFFNLayers();
     }
 
     @Override
@@ -61,22 +54,6 @@ public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler)
         return tornadoForwardScheduler;
     }
 
-    @Override
-    public List<ImmutableTaskGraph> getFFNLayerTaskGraphs() {
-        return ffnLayerTaskGraphs;
-    }
-
-    @Override
-    protected List<ImmutableTaskGraph> setupFFNLayerTaskGraphs() {
-        return IntStream.range(0, config.numberOfLayers()).mapToObj(i -> {
-            var ffnLayer = setupSingleFFNLayer((LlamaTornadoWeights) weights, config, i);
-            if (i == config.numberOfLayers() - 1) {
-                this.lastFFNLayerTaskGraphID = ffnLayer.getTaskGraphName();
-            }
-            return ffnLayer.snapshot();
-        }).toList();
-    }
-
     // @formatter:off
     /**
      * Transformer Layer Task Flow (LlamaFP16FFNLayers)
@@ -163,7 +140,8 @@ protected List<ImmutableTaskGraph> setupFFNLayerTaskGraphs() {
      *   • rms_ffn_gate_up:  Fused RMS apply + W1/W3 matmuls + SiLU + GLU (4→1 kernel)
      *
      */
-    TaskGraph setupSingleFFNLayer(LlamaTornadoWeights weights, Configuration config, int layerIndex) {
+    @Override
+    protected TaskGraph createFFNLayerTaskGraph(int layerIndex) {
         var layerTaskGraphName = "layer_" + layerIndex;
         TaskGraph unifiedLayer = new TaskGraph(layerTaskGraphName);