[refactor] Unify task graph setup for Logits layers and centralize shared logic into AbstractLogitsLayer

orionpapadakis · orionpapadakis · commit 4be811a77bfa · 2026-03-27T12:57:09.000+02:00
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/AbstractLogitsLayer.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/AbstractLogitsLayer.java
@@ -29,14 +29,10 @@ protected AbstractLogitsLayer(String name, State state, Weights weights, Configu
         this.schedulerType = schedulerType;
         TornadoWeights tornadoWeights = requireWeightsType(weights, TornadoWeights.class,
                 getClass().getSimpleName(), "TornadoTensor");
-        this.logitsTaskGraph = buildLogitsTaskGraph(tornadoWeights, config);
+        this.logitsTaskGraph = setupLogitsTaskGraph(tornadoWeights, config);
     }
 
-    /**
-     * Builds the logits task graph. Called once from the constructor.
-     * Subclasses define the quantization-specific task sequence here.
-     */
-    protected abstract TaskGraph buildLogitsTaskGraph(TornadoWeights weights, Configuration config);
+    protected abstract TaskGraph setupLogitsTaskGraph(TornadoWeights weights, Configuration config);
 
     public final TaskGraph getTaskGraph() {
         return logitsTaskGraph;
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LogitsFP16Layer.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LogitsFP16Layer.java
@@ -2,39 +2,29 @@
 
 import org.beehive.gpullama3.inference.state.State;
 import org.beehive.gpullama3.inference.weights.Weights;
-import org.beehive.gpullama3.inference.weights.tornado.Qwen2TornadoWeights;
 import org.beehive.gpullama3.inference.weights.tornado.TornadoWeights;
 import org.beehive.gpullama3.model.Configuration;
 import org.beehive.gpullama3.tornadovm.kernels.TransformerComputeKernels;
 import org.beehive.gpullama3.tornadovm.kernels.TransformerComputeKernelsLayered;
+import org.beehive.gpullama3.inference.weights.tornado.Qwen2TornadoWeights;
 import org.beehive.gpullama3.tornadovm.layerplanner.WorkerGridFactory;
 import org.beehive.gpullama3.tornadovm.layerplanner.strategy.SchedulerType;
-import org.beehive.gpullama3.tornadovm.layers.AbstractLayer;
+import org.beehive.gpullama3.tornadovm.layers.AbstractLogitsLayer;
 import uk.ac.manchester.tornado.api.GridScheduler;
-import uk.ac.manchester.tornado.api.ImmutableTaskGraph;
 import uk.ac.manchester.tornado.api.TaskGraph;
-import uk.ac.manchester.tornado.api.WorkerGrid;
 import uk.ac.manchester.tornado.api.WorkerGrid1D;
 import uk.ac.manchester.tornado.api.enums.DataTransferMode;
 
-public class LogitsFP16Layer extends AbstractLayer {
-
-    private String lastTaskGraphID;
-    private TaskGraph logitsTaskGraph;
-    private ImmutableTaskGraph immutableLogitsGraph;
-    private GridScheduler scheduler;
-    private SchedulerType schedulerType;
+public class LogitsFP16Layer extends AbstractLogitsLayer {
 
-    public LogitsFP16Layer(String name, State state, Weights weights, Configuration config, String lastTaskGraphID, SchedulerType schedulerType) {
-        super(name, state, weights, config);
-        this.lastTaskGraphID = lastTaskGraphID;
-        this.schedulerType = schedulerType;
-        var tornadoWeights = requireWeightsType(weights, TornadoWeights.class, "LogitsFP16Layer", "TornadoTensor");
-        this.logitsTaskGraph = setupLogitsTaskGraph(tornadoWeights, config);
+    public LogitsFP16Layer(String name, State state, Weights weights, Configuration config,
+            String lastTaskGraphID, SchedulerType schedulerType) {
+        super(name, state, weights, config, lastTaskGraphID, schedulerType);
     }
 
     // @formatter:off
-    private TaskGraph setupLogitsTaskGraph(TornadoWeights weights, Configuration config) {
+    @Override
+    protected TaskGraph setupLogitsTaskGraph(TornadoWeights weights, Configuration config) {
         var logits = new TaskGraph("logits");
         // === Data Setup ===
         logits.consumeFromDevice(lastTaskGraphID, state.wrapX);
@@ -96,7 +86,7 @@ private TaskGraph setupLogitsTaskGraph(TornadoWeights weights, Configuration con
 
     @Override
     public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler) {
-        WorkerGrid logitsRMS = WorkerGridFactory.createRmsNormWorker(config.dim(), weights instanceof Qwen2TornadoWeights ? 32 : 256);
+        var logitsRMS = WorkerGridFactory.createRmsNormWorker(config.dim(), rmsLocalSize());
         var vocabSizeRowMajor = config.vocabularySize() * LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS;
         var vocabWorker = new WorkerGrid1D(vocabSizeRowMajor);
         vocabWorker.setLocalWork(LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS, 1, 1);
@@ -106,18 +96,8 @@ public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler)
         return tornadoForwardScheduler;
     }
 
-    @Override
-    public GridScheduler getGridScheduler() {
-        return scheduler;
-    }
-
-    @Override
-    public TaskGraph getTaskGraph() {
-        return logitsTaskGraph;
-    }
-
-    @Override
-    public ImmutableTaskGraph getImmutableTaskGraph() {
-        return immutableLogitsGraph;
+    /** Local workgroup size for RMS norm. Qwen2 requires a smaller group (32 vs 256). */
+    protected int rmsLocalSize() {
+        return weights instanceof Qwen2TornadoWeights ? 32 : 256;
     }
 }
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LogitsGraniteFP16Layer.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LogitsGraniteFP16Layer.java
@@ -2,124 +2,84 @@
 
 import org.beehive.gpullama3.inference.state.State;
 import org.beehive.gpullama3.inference.weights.Weights;
-import org.beehive.gpullama3.inference.weights.tornado.Qwen2TornadoWeights;
 import org.beehive.gpullama3.inference.weights.tornado.TornadoWeights;
 import org.beehive.gpullama3.model.Configuration;
 import org.beehive.gpullama3.model.granite.GraniteConfiguration;
 import org.beehive.gpullama3.tornadovm.kernels.GraniteKernels;
 import org.beehive.gpullama3.tornadovm.kernels.TransformerComputeKernels;
 import org.beehive.gpullama3.tornadovm.kernels.TransformerComputeKernelsLayered;
-import org.beehive.gpullama3.tornadovm.layerplanner.WorkerGridFactory;
 import org.beehive.gpullama3.tornadovm.layerplanner.strategy.SchedulerType;
-import uk.ac.manchester.tornado.api.GridScheduler;
-import uk.ac.manchester.tornado.api.ImmutableTaskGraph;
 import uk.ac.manchester.tornado.api.TaskGraph;
-import uk.ac.manchester.tornado.api.WorkerGrid;
-import uk.ac.manchester.tornado.api.WorkerGrid1D;
 import uk.ac.manchester.tornado.api.enums.DataTransferMode;
 
+/**
+ * Granite-specific FP16 logits layer.
+ * Identical to LogitsFP16Layer except vocab_proj uses a scaled kernel (logitScale).
+ */
 public class LogitsGraniteFP16Layer extends LogitsFP16Layer {
-    private String lastTaskGraphID;
-    private TaskGraph logitsTaskGraph;
-    private ImmutableTaskGraph immutableLogitsGraph;
-    private GridScheduler scheduler;
-    private SchedulerType schedulerType;
 
-    public LogitsGraniteFP16Layer(String name, State state, Weights weights, Configuration config, String lastTaskGraphID, SchedulerType schedulerType) {
+    public LogitsGraniteFP16Layer(String name, State state, Weights weights, Configuration config,
+            String lastTaskGraphID, SchedulerType schedulerType) {
         super(name, state, weights, config, lastTaskGraphID, schedulerType);
-        this.lastTaskGraphID = lastTaskGraphID;
-        this.schedulerType = schedulerType;
-        var tornadoWeights = requireWeightsType(weights, TornadoWeights.class, "LogitsFP16Layer", "TornadoTensor");
-        this.logitsTaskGraph = setupLogitsTaskGraph(tornadoWeights, (GraniteConfiguration) config);
     }
 
     // @formatter:off
-    private TaskGraph setupLogitsTaskGraph(TornadoWeights weights, GraniteConfiguration config) {
+    @Override
+    protected TaskGraph setupLogitsTaskGraph(TornadoWeights weights, Configuration config) {
+        GraniteConfiguration graniteCfg = (GraniteConfiguration) config;
         var logits = new TaskGraph("logits");
+
         // === Data Setup ===
         logits.consumeFromDevice(lastTaskGraphID, state.wrapX);
         logits.transferToDevice(DataTransferMode.EVERY_EXECUTION, state.tempLogits);
         logits.transferToDevice(DataTransferMode.FIRST_EXECUTION,
-                // Kernel context
                 context,
-                // Output buffer
                 state.wrapLogits,
-                // Intermediate FP16 buffer
                 state.wrapXbFP16,
-                // Weights
                 weights.wclsByteArray.asHalfFloatArray(),
                 weights.rms_final_weight_as_floatArray.asFloatArray());
 
         // === Final RMS Normalization ===
         logits.task("rms_reduce",
                 TransformerComputeKernels::reductionOneBlockWithLayer,
                 context,
-                state.tempLogits,        // output: partial sums + final scale factor
-                state.wrapX,             // input: hidden state
-                config.dim(),            // dimension
-                config.rmsNormEps(),     // epsilon for numerical stability
-                state.localSize);        // local workgroup size
+                state.tempLogits,
+                state.wrapX,
+                config.dim(),
+                config.rmsNormEps(),
+                state.localSize);
 
         if (schedulerType == SchedulerType.NON_NVIDIA) {
             logits.task("rms_finalize",
                     TransformerComputeKernelsLayered::reductionFinalNormalization,
                     context,
-                    state.tempLogits,    // in/out: combines partial sums
-                    config.dim(),        // dimension
-                    config.rmsNormEps()); // epsilon
+                    state.tempLogits,
+                    config.dim(),
+                    config.rmsNormEps());
         }
 
         logits.task("rms_apply_fp16",
                 TransformerComputeKernels::mapContextWithQuantizeLogits,
                 context,
-                state.wrapXbFP16,        // output: normalized (FP16)
-                state.wrapX,             // input: hidden state
-                weights.rms_final_weight_as_floatArray.asFloatArray(),  // RMS weights
-                state.tempLogits);       // scale factor from reduction
+                state.wrapXbFP16,
+                state.wrapX,
+                weights.rms_final_weight_as_floatArray.asFloatArray(),
+                state.tempLogits);
 
-        // === Vocabulary Projection ===
+        // === Vocabulary Projection (Granite: scaled by logitScale) ===
         logits.task("vocab_proj",
                 GraniteKernels::matrixVectorGenericWithGraniteScale,
                 context,
-                state.wrapXbFP16,                              // input (FP16)
-                state.wrapLogits,                              // output
-                weights.wclsByteArray.asHalfFloatArray(),      // vocabulary weights
-                config.dim(),                                  // input dimension
-                config.vocabularySize(),                       // output dimension
+                state.wrapXbFP16,
+                state.wrapLogits,
+                weights.wclsByteArray.asHalfFloatArray(),
+                config.dim(),
+                config.vocabularySize(),
                 LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS,
-                config.logitScale());                       // granite logit scaling
+                graniteCfg.logitScale());
 
-        // === Transfer Results to Host ===
         logits.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapLogits);
         return logits;
     }
     // @formatter:on
-
-    @Override
-    public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler) {
-        WorkerGrid logitsRMS = WorkerGridFactory.createRmsNormWorker(config.dim(), weights instanceof Qwen2TornadoWeights ? 32 : 256);
-        var vocabSizeRowMajor = config.vocabularySize() * LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS;
-        var vocabWorker = new WorkerGrid1D(vocabSizeRowMajor);
-        vocabWorker.setLocalWork(LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS, 1, 1);
-        tornadoForwardScheduler.addWorkerGrid("logits.rms_reduce", logitsRMS);
-        tornadoForwardScheduler.addWorkerGrid("logits.rms_apply_fp16", logitsRMS);
-        tornadoForwardScheduler.addWorkerGrid("logits.vocab_proj", vocabWorker);
-        return tornadoForwardScheduler;
-    }
-
-    @Override
-    public GridScheduler getGridScheduler() {
-        return scheduler;
-    }
-
-    @Override
-    public TaskGraph getTaskGraph() {
-        return logitsTaskGraph;
-    }
-
-    @Override
-    public ImmutableTaskGraph getImmutableTaskGraph() {
-        return immutableLogitsGraph;
-    }
 }
-
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/q8_0/LogitsGraniteQ8_0Layer.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/q8_0/LogitsGraniteQ8_0Layer.java
@@ -2,69 +2,51 @@
 
 import org.beehive.gpullama3.inference.state.State;
 import org.beehive.gpullama3.inference.weights.Weights;
-import org.beehive.gpullama3.inference.weights.tornado.Qwen2TornadoWeights;
 import org.beehive.gpullama3.inference.weights.tornado.TornadoWeights;
 import org.beehive.gpullama3.model.Configuration;
 import org.beehive.gpullama3.model.granite.GraniteConfiguration;
 import org.beehive.gpullama3.tornadovm.kernels.GraniteKernels;
 import org.beehive.gpullama3.tornadovm.kernels.TransformerComputeKernels;
 import org.beehive.gpullama3.tornadovm.kernels.TransformerComputeKernelsLayered;
-import org.beehive.gpullama3.tornadovm.layerplanner.WorkerGridFactory;
 import org.beehive.gpullama3.tornadovm.layerplanner.strategy.SchedulerType;
-import uk.ac.manchester.tornado.api.GridScheduler;
-import uk.ac.manchester.tornado.api.ImmutableTaskGraph;
 import uk.ac.manchester.tornado.api.TaskGraph;
-import uk.ac.manchester.tornado.api.WorkerGrid1D;
 import uk.ac.manchester.tornado.api.enums.DataTransferMode;
 
-public class LogitsGraniteQ8_0Layer extends  LogitsQ8_0Layer{
-    private String lastTaskGraphID;
-    private TaskGraph logitsTaskGraph;
-    private ImmutableTaskGraph immutableLogitsGraph;
-    private GridScheduler scheduler;
-    private SchedulerType schedulerType;
+/**
+ * Granite-specific Q8_0 logits layer.
+ * Identical to LogitsQ8_0Layer except vocab_proj uses a scaled kernel (logitScale).
+ */
+public class LogitsGraniteQ8_0Layer extends LogitsQ8_0Layer {
 
-    public LogitsGraniteQ8_0Layer(String taskGraphName, State state, Weights weights, Configuration config, String lastTaskGraphID, SchedulerType schedulerType) {
-        super(taskGraphName, state, weights, config, lastTaskGraphID, schedulerType);
-        this.lastTaskGraphID = lastTaskGraphID;
-        var tornadoWeights = requireWeightsType(weights, TornadoWeights.class, "LogitsQ8_0Layer", "TornadoTensor");
-        this.logitsTaskGraph = setupLogitsTaskGraph(tornadoWeights, (GraniteConfiguration) config);
-        this.schedulerType = schedulerType;
-    }
-
-    @Override
-    public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler) {
-        var logitsRMS = WorkerGridFactory.createRmsNormWorker(config.dim(), weights instanceof Qwen2TornadoWeights ? 32 : 256);
-        var vocabSizeRowMajor = config.vocabularySize() * LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS;
-        var vocabWorker = new WorkerGrid1D(vocabSizeRowMajor);
-        vocabWorker.setLocalWork(LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS, 1, 1);
-        tornadoForwardScheduler.addWorkerGrid("logits.vocab_proj", vocabWorker);
-        tornadoForwardScheduler.addWorkerGrid("logits.rms_reduce", logitsRMS);
-        tornadoForwardScheduler.addWorkerGrid("logits.mapContextLogits", logitsRMS);
-        return tornadoForwardScheduler;
+    public LogitsGraniteQ8_0Layer(String name, State state, Weights weights, Configuration config,
+            String lastTaskGraphID, SchedulerType schedulerType) {
+        super(name, state, weights, config, lastTaskGraphID, schedulerType);
     }
 
     // @formatter:off
-    private TaskGraph setupLogitsTaskGraph(TornadoWeights weights, GraniteConfiguration config) {
+    @Override
+    protected TaskGraph setupLogitsTaskGraph(TornadoWeights weights, Configuration config) {
+        GraniteConfiguration graniteCfg = (GraniteConfiguration) config;
         var logits = new TaskGraph("logits");
+
         // === Data Setup ===
         logits.consumeFromDevice(lastTaskGraphID, state.wrapX);
         logits.transferToDevice(DataTransferMode.EVERY_EXECUTION, state.tempLogits);
         logits.transferToDevice(DataTransferMode.FIRST_EXECUTION,
-                context, //
-                state.wrapLogits,  //
-                weights.wclsByteArray.asByteArray(), //
+                context,
+                state.wrapLogits,
+                weights.wclsByteArray.asByteArray(),
                 weights.rms_final_weight_as_floatArray);
 
         // === Final RMS Normalization ===
         logits.task("rms_reduce",
                 TransformerComputeKernels::reductionOneBlockWithLayer,
                 context,
-                state.tempLogits,  // output: partial sums + final scale factor
-                state.wrapX,        // input: hidden state
-                config.dim(),        // dimension
-                config.rmsNormEps(),   // epsilon for numerical stability
-                state.localSize);    // local workgroup size
+                state.tempLogits,
+                state.wrapX,
+                config.dim(),
+                config.rmsNormEps(),
+                state.localSize);
 
         if (schedulerType == SchedulerType.NON_NVIDIA) {
             logits.task("rms_finalize",
@@ -74,45 +56,28 @@ private TaskGraph setupLogitsTaskGraph(TornadoWeights weights, GraniteConfigurat
                     config.dim(),
                     config.rmsNormEps());
         }
+
         logits.task("mapContextLogits",
                 TransformerComputeKernels::reductionOneBlock2WithLogits,
                 context,
                 state.wrapX,
                 weights.rms_final_weight_as_floatArray.asFloatArray(),
                 state.tempLogits);
 
-        // === Vocabulary vocab_proj ===
-        logits.task("vocab_proj", GraniteKernels::matrixVectorGenericQ8ByteWithGraniteScale,  //
+        // === Vocabulary Projection (Granite: scaled by logitScale) ===
+        logits.task("vocab_proj",
+                GraniteKernels::matrixVectorGenericQ8ByteWithGraniteScale,
                 context,
                 state.wrapX,
                 state.wrapLogits,
                 weights.wclsByteArray.asByteArray(),
                 config.dim(),
                 config.vocabularySize(),
                 LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS,
-                config.logitScale()
+                graniteCfg.logitScale());
 
-        );
-
-        // === Transfer Results to Host ===
         logits.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapLogits);
         return logits;
     }
     // @formatter:on
-
-    @Override
-    public GridScheduler getGridScheduler() {
-        return scheduler;
-    }
-
-    @Override
-    public TaskGraph getTaskGraph() {
-        return logitsTaskGraph;
-    }
-
-    @Override
-    public ImmutableTaskGraph getImmutableTaskGraph() {
-        return immutableLogitsGraph;
-    }
-
 }
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/q8_0/LogitsQ8_0Layer.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/q8_0/LogitsQ8_0Layer.java