Fix accumulate correctness by reducing block size to 64

michel2323 · michel2323 · commit 1e70e3bb8f1a · 2026-02-10T11:05:34.000-06:00
Work around a Blelloch parallel prefix sum correctness issue on Intel
GPUs at block sizes &gt;= 128 by defaulting to a block size of 64.
diff --git a/src/accumulate.jl b/src/accumulate.jl
@@ -2,12 +2,20 @@ import oneAPI
 import oneAPI: oneArray, oneAPIBackend
 import AcceleratedKernels as AK
 
+# Use a smaller block size on Intel GPUs to work around a scan correctness issue
+# with the Blelloch parallel prefix sum at larger block sizes (>=128).
+const _ACCUMULATE_BLOCK_SIZE = 64
+
 # Accumulate operations using AcceleratedKernels
-Base.accumulate!(op, B::oneArray, A::oneArray; init = zero(eltype(A)), kwargs...) =
-    AK.accumulate!(op, B, A, oneAPIBackend(); init, kwargs...)
+Base.accumulate!(op, B::oneArray, A::oneArray; init = zero(eltype(A)),
+                 block_size = _ACCUMULATE_BLOCK_SIZE, kwargs...) =
+    AK.accumulate!(op, B, A, oneAPIBackend(); init, block_size, kwargs...)
 
-Base.accumulate(op, A::oneArray; init = zero(eltype(A)), kwargs...) =
-    AK.accumulate(op, A, oneAPIBackend(); init, kwargs...)
+Base.accumulate(op, A::oneArray; init = zero(eltype(A)),
+                block_size = _ACCUMULATE_BLOCK_SIZE, kwargs...) =
+    AK.accumulate(op, A, oneAPIBackend(); init, block_size, kwargs...)
 
-Base.cumsum(src::oneArray; kwargs...) = AK.cumsum(src, oneAPIBackend(); kwargs...)
-Base.cumprod(src::oneArray; kwargs...) = AK.cumprod(src, oneAPIBackend(); kwargs...)
+Base.cumsum(src::oneArray; block_size = _ACCUMULATE_BLOCK_SIZE, kwargs...) =
+    AK.cumsum(src, oneAPIBackend(); block_size, kwargs...)
+Base.cumprod(src::oneArray; block_size = _ACCUMULATE_BLOCK_SIZE, kwargs...) =
+    AK.cumprod(src, oneAPIBackend(); block_size, kwargs...)