qualcomm
diff --git a/‎ggml/src/ggml-opencl/CMakeLists.txt‎
Lines changed: 3 additions & 0 deletions b/‎ggml/src/ggml-opencl/CMakeLists.txt‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎ggml/src/ggml-opencl/ggml-opencl.cpp‎
Lines changed: 1842 additions & 159 deletions b/‎ggml/src/ggml-opencl/ggml-opencl.cpp‎
Lines changed: 1842 additions & 159 deletions
diff --git a/‎ggml/src/ggml-opencl/kernels/cvt.cl‎
Lines changed: 190 additions & 0 deletions b/‎ggml/src/ggml-opencl/kernels/cvt.cl‎
Lines changed: 190 additions & 0 deletions
diff --git a/‎ggml/src/ggml-opencl/kernels/exp.cl‎
Lines changed: 3 additions & 3 deletions b/‎ggml/src/ggml-opencl/kernels/exp.cl‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎ggml/src/ggml-opencl/kernels/expm1.cl‎
Lines changed: 10 additions & 3 deletions b/‎ggml/src/ggml-opencl/kernels/expm1.cl‎
Lines changed: 10 additions & 3 deletions
@@ -169,7 +169,10 @@ set(GGML_OPENCL_KERNELS
     mul_mm_f16_f32_kq_kqv
     conv2d
     conv2d_f16_f32
+    flash_attn_pre_f16
     flash_attn_f32_f16
+    flash_attn_f32_q8_0
+    flash_attn_f32_q4_0
     flash_attn_f16
     flash_attn_f32
 )
 
@@ -583,6 +583,196 @@ kernel void kernel_restore_block_q8_0(
     }
 }
 
+// AoS q8_0 dequant → f16. One thread per 32-elem block.
+kernel void kernel_dequant_q8_0_f16_aos(
+    global char * src,
+    global half * dst,
+    int n_blocks
+) {
+    int blk = get_global_id(0);
+    if (blk >= n_blocks) return;
+
+    global char * block = src + blk * (QK8_0 + 2);
+    float d = vload_half(0, (global half *)block);
+    global char * qs = block + 2;
+
+    global half * out = dst + blk * QK8_0;
+    for (int i = 0; i < QK8_0; ++i) {
+        out[i] = (half)(d * (float)qs[i]);
+    }
+}
+
+// View-aware AoS q8_0 → f32 dequant (f32/f32 FA path).
+kernel void kernel_dequant_q8_0_f32_view_aos(
+    global char * src,
+    ulong         src_offset,
+    ulong         src_nb1,
+    ulong         src_nb2,
+    ulong         src_nb3,
+    int           nblk0,
+    int           ne1,
+    int           ne2,
+    int           ne3,
+    global float * dst
+) {
+    int blk_i0 = get_global_id(0);
+    int i1     = get_global_id(1);
+    int batch  = get_global_id(2);
+
+    if (blk_i0 >= nblk0) return;
+    if (i1     >= ne1)   return;
+
+    int i2 = batch % ne2;
+    int i3 = batch / ne2;
+    if (i3 >= ne3) return;
+
+    global char * block = src + src_offset + (ulong)i3*src_nb3 + (ulong)i2*src_nb2 + (ulong)i1*src_nb1 + (ulong)blk_i0 * (2 + QK8_0);
+    float d = vload_half(0, (global half *)block);
+    global char * qs = block + 2;
+
+    ulong dst_row_base = ((ulong)i3 * ne2 * ne1 + (ulong)i2 * ne1 + (ulong)i1) * nblk0;
+    global float * out = dst + (dst_row_base + blk_i0) * QK8_0;
+
+    for (int i = 0; i < QK8_0; ++i) {
+        out[i] = d * (float)qs[i];
+    }
+}
+
+// View-aware AoS q8_0 → f16 dequant. Rows tight, batch strides may be gapped.
+kernel void kernel_dequant_q8_0_f16_view_aos(
+    global char * src,
+    ulong         src_offset,
+    ulong         src_nb1,
+    ulong         src_nb2,
+    ulong         src_nb3,
+    int           nblk0,
+    int           ne1,
+    int           ne2,
+    int           ne3,
+    global half * dst
+) {
+    int blk_i0 = get_global_id(0);
+    int i1     = get_global_id(1);
+    int batch  = get_global_id(2);
+
+    if (blk_i0 >= nblk0) return;
+    if (i1     >= ne1)   return;
+
+    int i2 = batch % ne2;
+    int i3 = batch / ne2;
+    if (i3 >= ne3) return;
+
+    global char * block = src + src_offset + (ulong)i3*src_nb3 + (ulong)i2*src_nb2 + (ulong)i1*src_nb1 + (ulong)blk_i0 * (2 + QK8_0);
+    float d = vload_half(0, (global half *)block);
+    global char * qs = block + 2;
+
+    ulong dst_row_base = ((ulong)i3 * ne2 * ne1 + (ulong)i2 * ne1 + (ulong)i1) * nblk0;
+    global half * out = dst + (dst_row_base + blk_i0) * QK8_0;
+
+    for (int i = 0; i < QK8_0; ++i) {
+        out[i] = (half)(d * (float)qs[i]);
+    }
+}
+
+// View-aware AoS q4_0 → f32 dequant (mirrors the q8_0 view variant).
+kernel void kernel_dequant_q4_0_f32_view_aos(
+    global char * src,
+    ulong         src_offset,
+    ulong         src_nb1,
+    ulong         src_nb2,
+    ulong         src_nb3,
+    int           nblk0,
+    int           ne1,
+    int           ne2,
+    int           ne3,
+    global float * dst
+) {
+    int blk_i0 = get_global_id(0);
+    int i1     = get_global_id(1);
+    int batch  = get_global_id(2);
+
+    if (blk_i0 >= nblk0) return;
+    if (i1     >= ne1)   return;
+
+    int i2 = batch % ne2;
+    int i3 = batch / ne2;
+    if (i3 >= ne3) return;
+
+    global char * block = src + src_offset + (ulong)i3*src_nb3 + (ulong)i2*src_nb2 + (ulong)i1*src_nb1 + (ulong)blk_i0 * (2 + QK4_0/2);
+    float d = vload_half(0, (global half *)block);
+    global uchar * qs = (global uchar *)(block + 2);
+
+    ulong dst_row_base = ((ulong)i3 * ne2 * ne1 + (ulong)i2 * ne1 + (ulong)i1) * nblk0;
+    global float * out = dst + (dst_row_base + blk_i0) * QK4_0;
+
+    for (int i = 0; i < QK4_0/2; ++i) {
+        uchar byte = qs[i];
+        int q0 = (int)(byte & 0x0F) - 8;
+        int q1 = (int)(byte >> 4)   - 8;
+        out[i]            = d * (float)q0;
+        out[i + QK4_0/2]  = d * (float)q1;
+    }
+}
+
+// View-aware AoS q4_0 → f16 dequant (mirrors the q8_0 view variant).
+kernel void kernel_dequant_q4_0_f16_view_aos(
+    global char * src,
+    ulong         src_offset,
+    ulong         src_nb1,
+    ulong         src_nb2,
+    ulong         src_nb3,
+    int           nblk0,
+    int           ne1,
+    int           ne2,
+    int           ne3,
+    global half * dst
+) {
+    int blk_i0 = get_global_id(0);
+    int i1     = get_global_id(1);
+    int batch  = get_global_id(2);
+
+    if (blk_i0 >= nblk0) return;
+    if (i1     >= ne1)   return;
+
+    int i2 = batch % ne2;
+    int i3 = batch / ne2;
+    if (i3 >= ne3) return;
+
+    global char * block = src + src_offset + (ulong)i3*src_nb3 + (ulong)i2*src_nb2 + (ulong)i1*src_nb1 + (ulong)blk_i0 * (2 + QK4_0/2);
+    float d = vload_half(0, (global half *)block);
+    global uchar * qs = (global uchar *)(block + 2);
+
+    ulong dst_row_base = ((ulong)i3 * ne2 * ne1 + (ulong)i2 * ne1 + (ulong)i1) * nblk0;
+    global half * out = dst + (dst_row_base + blk_i0) * QK4_0;
+
+    for (int i = 0; i < QK4_0/2; ++i) {
+        uchar byte = qs[i];
+        int q0 = (int)(byte & 0x0F) - 8;
+        int q1 = (int)(byte >> 4)   - 8;
+        out[i]          = (half)(d * (float)q0);
+        out[i + QK4_0/2] = (half)(d * (float)q1);
+    }
+}
+
+// SoA q8_0 dequant; layout matches kernel_convert_block_q8_0.
+kernel void kernel_dequant_q8_0_f16_soa(
+    global char * src_q,
+    global char * src_d,
+    global half * dst,
+    int n_blocks
+) {
+    int blk = get_global_id(0);
+    if (blk >= n_blocks) return;
+
+    float d = vload_half(0, (global half *)src_d + blk);
+    global char * qs = src_q + blk * QK8_0;
+
+    global half * out = dst + blk * QK8_0;
+    for (int i = 0; i < QK8_0; ++i) {
+        out[i] = (half)(d * (float)qs[i]);
+    }
+}
+
 kernel void kernel_restore_block_q8_0_trans(
     global uchar * src_q,
     global half  * src_d,
 
@@ -45,7 +45,7 @@ kernel void kernel_exp_f16(
     src0 = (global half*)((global char*)src0 + offset0);
     dst  = (global half*)((global char*)dst + offsetd);
 
-    dst[get_global_id(0)] = exp(src0[get_global_id(0)]);
+    dst[get_global_id(0)] = convert_half(exp(convert_float(src0[get_global_id(0)])));
 }
 
 kernel void kernel_exp_f16_4(
@@ -61,7 +61,7 @@ kernel void kernel_exp_f16_4(
     src0 = (global half4*)((global char*)src0 + offset0);
     dst  = (global half4*)((global char*)dst + offsetd);
 
-    dst[get_global_id(0)] = exp(src0[get_global_id(0)]);
+    dst[get_global_id(0)] = convert_half4(exp(convert_float4(src0[get_global_id(0)])));
 }
 
 kernel void kernel_exp_f32_nc(
@@ -120,6 +120,6 @@ kernel void kernel_exp_f16_nc(
         global const half * x = (global const half *)(src0 + i3*nb03 + i2*nb02 + i1*nb01 + i0*nb00);
         global       half * y = (global       half *)(dst  + i3*nb3  + i2*nb2  + i1*nb1  + i0*nb0);
 
-        *y = exp(*x);
+        *y = convert_half(exp(convert_float(*x)));
     }
 }
@@ -37,7 +37,10 @@ kernel void kernel_expm1_f16(
     src0 = (global half*)((global char*)src0 + offset0);
     dst  = (global half*)((global char*)dst + offsetd);
 
-    dst[get_global_id(0)] = exp(src0[get_global_id(0)]) - 1.0h;
+    {
+        const float x = convert_float(src0[get_global_id(0)]);
+        dst[get_global_id(0)] = convert_half(exp(x) - 1.0f);
+    }
 }
 
 kernel void kernel_expm1_f16_4(
@@ -49,7 +52,10 @@ kernel void kernel_expm1_f16_4(
     src0 = (global half4*)((global char*)src0 + offset0);
     dst  = (global half4*)((global char*)dst + offsetd);
 
-    dst[get_global_id(0)] = exp(src0[get_global_id(0)]) - 1.0h;
+    {
+        const float4 x = convert_float4(src0[get_global_id(0)]);
+        dst[get_global_id(0)] = convert_half4(exp(x) - 1.0f);
+    }
 }
 
 kernel void kernel_expm1_f32_nc(
@@ -108,6 +114,7 @@ kernel void kernel_expm1_f16_nc(
         global const half * x = (global const half *)(src0 + i3*nb03 + i2*nb02 + i1*nb01 + i0*nb00);
         global       half * y = (global       half *)(dst  + i3*nb3  + i2*nb2  + i1*nb1  + i0*nb0);
 
-        *y = exp(*x) - 1.0f;
+        const float fx = convert_float(*x);
+        *y = convert_half(exp(fx) - 1.0f);
     }
 }
Original file line number	Diff line number	Diff line change
`@@ -45,7 +45,7 @@ kernel void kernel_exp_f16(`
`45`	`45`	`src0 = (global half)((global char)src0 + offset0);`
`46`	`46`	`dst = (global half)((global char)dst + offsetd);`
`47`	`47`
`48`		`- dst[get_global_id(0)] = exp(src0[get_global_id(0)]);`
	`48`	`+ dst[get_global_id(0)] = convert_half(exp(convert_float(src0[get_global_id(0)])));`
`49`	`49`	`}`
`50`	`50`
`51`	`51`	`kernel void kernel_exp_f16_4(`
`@@ -61,7 +61,7 @@ kernel void kernel_exp_f16_4(`
`61`	`61`	`src0 = (global half4)((global char)src0 + offset0);`
`62`	`62`	`dst = (global half4)((global char)dst + offsetd);`
`63`	`63`
`64`		`- dst[get_global_id(0)] = exp(src0[get_global_id(0)]);`
	`64`	`+ dst[get_global_id(0)] = convert_half4(exp(convert_float4(src0[get_global_id(0)])));`
`65`	`65`	`}`
`66`	`66`
`67`	`67`	`kernel void kernel_exp_f32_nc(`
`@@ -120,6 +120,6 @@ kernel void kernel_exp_f16_nc(`
`120`	`120`	`global const half * x = (global const half )(src0 + i3nb03 + i2nb02 + i1nb01 + i0*nb00);`
`121`	`121`	`global half * y = (global half )(dst + i3nb3 + i2nb2 + i1nb1 + i0*nb0);`
`122`	`122`
`123`		`- y = exp(x);`
	`123`	`+ y = convert_half(exp(convert_float(x)));`
`124`	`124`	`}`
`125`	`125`	`}`