flashinfer-ai · djmmoss · Nov 13, 2025 · Nov 13, 2025 · Nov 14, 2025 · Nov 17, 2025
@@ -51,6 +51,7 @@
     _check_pos_encoding_mode,
     check_shape_dtype_device,
     _get_cache_alibi_slopes_buf,
+    _get_sink_buf,
     _get_cache_buf,
     _get_range_buf,
     _unpack_paged_kv_cache,
@@ -242,6 +243,7 @@ def run_batch_decode(
         window_left: int,
         enable_pdl: bool,
         alibi_slopes: Optional[torch.Tensor],
+        maybe_s_aux: Optional[torch.Tensor],
         logits_soft_cap: float,
         sm_scale: float,
         rope_scale: float,
@@ -263,6 +265,7 @@ def run_batch_decode(
             window_left,
             enable_pdl,
             alibi_slopes,
+            maybe_s_aux,
             logits_soft_cap,
             sm_scale,
             1.0 / rope_scale,  # rope_rcp_scale
@@ -286,6 +289,7 @@ def _fake_run_batch_decode(
         window_left: int,
         enable_pdl: bool,
         alibi_slopes: Optional[torch.Tensor],
+        maybe_s_aux: Optional[torch.Tensor],
         logits_soft_cap: float,
         sm_scale: float,
         rope_scale: float,
@@ -1330,7 +1334,7 @@ def run(
                     self._kv_lens_buffer,
                     page_size,
                     self._max_kv_len,
-                    sinks,
+                    _get_sink_buf(sinks),
                 ]
 
             self._cached_module.paged_run(*run_args)
@@ -1364,6 +1368,7 @@ def run(
             else:
                 run_args += [
                     _get_cache_alibi_slopes_buf(q.shape[1], q.device),
+                    _get_sink_buf(sinks),
                     logits_soft_cap,
                     sm_scale,
                     rope_scale,

@@ -467,8 +467,8 @@ def gen_single_decode_module(
         dtype_o,
         head_dim_qk,
         head_dim_vo,
-        ["maybe_alibi_slopes"],  # additional_tensor_names
-        ["float"],  # additional_tensor_dtypes
+        ["maybe_alibi_slopes", "maybe_s_aux"],  # additional_tensor_names
+        ["float", "float"],  # additional_tensor_dtypes
         [
-        ["maybe_alibi_slopes", "maybe_s_aux"],  # additional_tensor_names
-        ["float", "float"],  # additional_tensor_dtypes
-        [
+        ["maybe_alibi_slopes"],  # additional_tensor_names
+        ["float"],  # additional_tensor_dtypes
+        [
-        ["maybe_alibi_slopes", "maybe_s_aux"],  # additional_tensor_names
-        ["float", "float"],  # additional_tensor_dtypes
-        [
+        ["maybe_alibi_slopes"],  # additional_tensor_names
+        ["float"],  # additional_tensor_dtypes
+        [
             "logits_soft_cap",
             "sm_scale",
@@ -760,8 +760,8 @@ def gen_batch_decode_module(
         dtype_idx,
         head_dim_qk,
         head_dim_vo,
-        ["maybe_alibi_slopes"],  # additional_tensor_names
-        ["float"],  # additional_tensor_dtypes
+        ["maybe_alibi_slopes", "maybe_s_aux"],  # additional_tensor_names
+        ["float", "float"],  # additional_tensor_dtypes
         [
             "logits_soft_cap",
             "sm_scale",

@@ -237,6 +237,23 @@ def _get_cache_alibi_slopes_buf(
     return buf
 
 
+def _get_sink_buf(
+    sinks: Optional[torch.Tensor],
+) -> Optional[torch.Tensor]:
+    """Convert sinks tensor to proper format for CUDA kernels.
+
+    Args:
+        sinks: Optional tensor of shape [num_qo_heads] with sink values per head
+
+    Returns:
+        Contiguous float32 tensor or None if sinks is None
+    """
+    if sinks is None:
+        return None
+    # Ensure it's float32 and contiguous as expected by CUDA kernels
+    return sinks.to(torch.float32).contiguous()
+
+
 def canonicalize_torch_dtype(dtype: Union[torch.dtype, str]) -> torch.dtype:
     if isinstance(dtype, str):
         return getattr(torch, dtype)

@@ -355,6 +355,14 @@ __global__ void SingleDecodeWithKVCacheKernel(const __grid_constant__ Params par
   // sync local state of all warps inside a threadblock
   sync_state<vec_size, bdx, bdy, bdz>(variant, st_local, reinterpret_cast<float*>(smem), smem_md,
                                       tx, ty, tz);
+  // Add s_aux (learnable sink) contribution to softmax denominator after all tiles processed
+  if constexpr (variant.use_softmax) {
+    if (params.maybe_s_aux != nullptr) {
+      constexpr float LOG2_E = 1.4426950408889634f;  // log2(e)
+      float s_aux_val = params.maybe_s_aux[qo_head_idx];
+      st_local.d += math::ptx_exp2((s_aux_val - st_local.m) * LOG2_E);
+    }
+  }
-  // Add s_aux (learnable sink) contribution to softmax denominator after all tiles processed
-  if constexpr (variant.use_softmax) {
-    if (params.maybe_s_aux != nullptr) {
-      constexpr float LOG2_E = 1.4426950408889634f;  // log2(e)
-      float s_aux_val = params.maybe_s_aux[qo_head_idx];
-      st_local.d += math::ptx_exp2((s_aux_val - st_local.m) * LOG2_E);
-    }
-  }
+  // Add s_aux (learnable sink) contribution to softmax denominator after all tiles processed
+  if constexpr (variant.use_softmax) {
+    if (params.maybe_s_aux != nullptr) {
+      float s_aux_scaled = params.maybe_s_aux[qo_head_idx] * variant.sm_scale_log2;
+      st_local.d += math::ptx_exp2(s_aux_scaled - st_local.m);
+    }
+  }
-  // Add s_aux (learnable sink) contribution to softmax denominator after all tiles processed
-  if constexpr (variant.use_softmax) {
-    if (params.maybe_s_aux != nullptr) {
-      constexpr float LOG2_E = 1.4426950408889634f;  // log2(e)
-      float s_aux_val = params.maybe_s_aux[qo_head_idx];
-      st_local.d += math::ptx_exp2((s_aux_val - st_local.m) * LOG2_E);
-    }
-  }
+  // Add s_aux (learnable sink) contribution to softmax denominator after all tiles processed
+  if constexpr (variant.use_softmax) {
+    if (params.maybe_s_aux != nullptr) {
+      float s_aux_scaled = params.maybe_s_aux[qo_head_idx] * variant.sm_scale_log2;
+      st_local.d += math::ptx_exp2(s_aux_scaled - st_local.m);
+    }
+  }
 #pragma unroll
   for (size_t i = 0; i < vec_size; ++i) {
     st_local.o[i] = variant.OutputTransform(params, st_local.o[i], /*batch_idx=*/0, /*qo_idx=*/0,
@@ -589,6 +597,14 @@ __device__ __inline__ void BatchDecodeWithPagedKVCacheDevice(const Params& param
   // sync local state of all warps inside a threadblock
   sync_state<vec_size, bdx, bdy, bdz>(variant, st, reinterpret_cast<float*>(smem), smem_md, tx, ty,
                                       tz);
+  // Add s_aux (learnable sink) contribution to softmax denominator after all tiles processed
+  if constexpr (variant.use_softmax) {
+    if (params.maybe_s_aux != nullptr) {
+      constexpr float LOG2_E = 1.4426950408889634f;  // log2(e)
+      float s_aux_val = params.maybe_s_aux[qo_head_idx];
+      st.d += math::ptx_exp2((s_aux_val - st.m) * LOG2_E);
+    }
+  }
 #pragma unroll
   for (size_t i = 0; i < vec_size; ++i) {
     st.o[i] = variant.OutputTransform(params, st.o[i], bx, /*qo_idx=*/0, qo_head_idx, st.m, st.d,

@@ -37,6 +37,7 @@ struct SingleDecodeParams {
   DTypeO* o;
   float* lse;
   float* maybe_alibi_slopes;
+  float* maybe_s_aux;
   uint32_t kv_len;
   uint32_t num_qo_heads;
   uint32_t num_kv_heads;
@@ -58,6 +59,7 @@ struct SingleDecodeParams {
         o(nullptr),
         lse(nullptr),
         maybe_alibi_slopes(nullptr),
+        maybe_s_aux(nullptr),
         kv_len(0),
         num_qo_heads(0),
         num_kv_heads(0),
@@ -84,6 +86,7 @@ struct SingleDecodeParams {
         o(o),
         lse(nullptr),
         maybe_alibi_slopes(maybe_alibi_slopes),
+        maybe_s_aux(nullptr),
         kv_len(seq_len),
         num_qo_heads(num_qo_heads),
         num_kv_heads(num_kv_heads),
@@ -118,6 +121,7 @@ struct BatchDecodeParams {
   DTypeO* o;
   float* lse;
   float* maybe_alibi_slopes;
+  float* maybe_s_aux;
   uint32_t padded_batch_size;
   uint32_t num_qo_heads;
   IdType q_stride_n;
@@ -142,6 +146,7 @@ struct BatchDecodeParams {
         o(nullptr),
         lse(nullptr),
         maybe_alibi_slopes(nullptr),
+        maybe_s_aux(nullptr),
         padded_batch_size(0),
         num_qo_heads(0),
         q_stride_n(0),
@@ -170,6 +175,7 @@ struct BatchDecodeParams {
         o(o),
         lse(lse),
         maybe_alibi_slopes(maybe_alibi_slopes),
+        maybe_s_aux(nullptr),
         padded_batch_size(0),
         num_qo_heads(num_qo_heads),
         q_stride_n(q_stride_n),