Vulkan GPU auto-activation for KV cache operations

unamedkr · claude · unamedkr · commit 80a8e87929ef · 2026-04-04T02:21:02.000+09:00
When built with TQ_BUILD_VULKAN=ON and a Vulkan device is available, KV cache quantize/attention functions are automatically routed to GPU compute shaders via runtime traits override. Changes: - tools/quant.c: call tq_init_vulkan_backend() on startup - tq_vulkan_init.c: add tq_vulkan_override_traits() — replaces CPU function pointers in TQ_TRAITS[] with Vulkan GPU versions - tq_traits.c: make TQ_TRAITS[] non-const for runtime override - tq_types.h: update extern declaration to match The full forward pass (matmul, FFN, norms) still runs on CPU. Vulkan handles KV quantize + dequant + attention kernels. 34/34 tests passing. Addresses #9 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
diff --git a/include/turboquant/tq_types.h b/include/turboquant/tq_types.h
@@ -174,8 +174,8 @@ typedef struct {
     tq_type          residual_type;  /* pairing for composite types */
 } tq_type_traits_t;
 
-/* Global traits table — initialized by tq_init() */
-extern const tq_type_traits_t TQ_TRAITS[TQ_TYPE_COUNT];
+/* Global traits table — GPU backends (Vulkan/Metal) override at runtime */
+extern tq_type_traits_t TQ_TRAITS[TQ_TYPE_COUNT];
 
 /* ============================================================
  * Cache block header (for paged cache)
diff --git a/src/backend/vulkan/tq_vulkan_init.c b/src/backend/vulkan/tq_vulkan_init.c
@@ -463,13 +463,39 @@ int tq_init_vulkan_backend(void) {
     if (tq_vk_create_pipeline_layout() != 0)   return -1;
     if (tq_vk_create_pipelines() != 0)         return -1;
 
-    printf("TQ Vulkan: Initialized on %s (subgroup size %u)\n",
+    fprintf(stderr, "quant.cpp Vulkan: Initialized on %s (subgroup size %u)\n",
            g_vk_state.device_name, g_vk_state.subgroup_size);
 
     g_vk_state.initialized = 1;
+
+    /* Override TQ_TRAITS with Vulkan-accelerated quantize/attention functions.
+     * This makes KV cache operations automatically use GPU when available. */
+    tq_vulkan_override_traits();
+
     return 0;
 }
 
+/* Override CPU traits with Vulkan GPU functions where available */
+void tq_vulkan_override_traits(void) {
+    extern tq_type_traits_t TQ_TRAITS[];
+    for (int i = 0; i < TQ_TYPE_COUNT; i++) {
+        void* vk_quant = tq_vulkan_get_quantize_fn(i);
+        void* vk_attn  = tq_vulkan_get_attention_fn(i);
+        if (vk_quant) {
+            void (*fn)(const float*, void*, int);
+            memcpy(&fn, &vk_quant, sizeof(fn));
+            TQ_TRAITS[i].quantize = fn;
+            fprintf(stderr, "  Vulkan: GPU-accelerated quantize for %s\n", TQ_TRAITS[i].name);
+        }
+        if (vk_attn) {
+            void (*fn)(const float*, const void*, float*, int, int);
+            memcpy(&fn, &vk_attn, sizeof(fn));
+            TQ_TRAITS[i].attention = fn;
+            fprintf(stderr, "  Vulkan: GPU-accelerated attention for %s\n", TQ_TRAITS[i].name);
+        }
+    }
+}
+
 void tq_shutdown_vulkan_backend(void) {
     if (!g_vk_state.initialized) return;
 
diff --git a/src/core/tq_traits.c b/src/core/tq_traits.c
@@ -58,7 +58,8 @@ extern void tq_turbo_kv_2b_dequantize_ref(const void* src, float* dst, int n);
 extern void tq_turbo_kv_2b_attention_ref(const float* query, const void* kv,
                                           float* scores, int seq_len, int head_dim);
 
-const tq_type_traits_t TQ_TRAITS[TQ_TYPE_COUNT] = {
+/* Non-const to allow runtime GPU backend override (Vulkan/Metal) */
+tq_type_traits_t TQ_TRAITS[TQ_TYPE_COUNT] = {
     [TQ_TYPE_POLAR_3B] = {
         .name       = "polar_3b",
         .block_size = TQ_BK,
diff --git a/tools/quant.c b/tools/quant.c
@@ -270,6 +270,16 @@ int main(int argc, char** argv) {
         tq_quantize_weights(model);
     }
 
+    /* GPU backend detection and initialization */
+#ifdef TQ_BUILD_VULKAN
+    {
+        extern int tq_init_vulkan_backend(void);
+        if (tq_init_vulkan_backend() == 0) {
+            fprintf(stderr, "Vulkan backend: ready (KV cache quantization on GPU)\n");
+        }
+    }
+#endif
+
     if (info_only) {
         tq_free_model(model);
         return 0;