move is_cuda_graph

ZT-AIA · ZT-AIA · commit f6ce5debc93b · 2025-12-08T17:11:18.000+08:00
diff --git a/vllm_ascend/patch/worker/__init__.py b/vllm_ascend/patch/worker/__init__.py
@@ -20,6 +20,9 @@
 if HAS_TRITON:
     import vllm_ascend.patch.worker.patch_triton
 
+from vllm.config import (CUDAGraphMode, get_current_vllm_config)
+is_cuda_graph = get_current_vllm_config().compilation_config.cudagraph_mode != CUDAGraphMode.NONE
+
 # isort: off
 import vllm_ascend.patch.platform.patch_sched_yield  # noqa
 import vllm_ascend.patch.worker.patch_distributed  # noqa
diff --git a/vllm_ascend/patch/worker/patch_qwen3_next.py b/vllm_ascend/patch/worker/patch_qwen3_next.py
@@ -24,8 +24,7 @@
 from vllm.model_executor.models.qwen3_next import Qwen3NextGatedDeltaNet
 from vllm_ascend.ops.triton.fla.fused_qkvzba_split_reshape import fused_qkvzba_split_reshape_cat
 from vllm.triton_utils import tl, triton
-from vllm.config import (CUDAGraphMode, get_current_vllm_config)
-
+from . import is_cuda_graph
 
 class AscendQwen3Next_GatedDeltaNet(nn.Module, MambaBase):
     def forward(
@@ -48,7 +47,6 @@ def forward(
         projected_states_ba, _ = self.in_proj_ba(hidden_states)
         # triton grid should be less than 66536
         divide_grid=projected_states_qkvz.shape[0]*triton.cdiv(self.num_k_heads, self.tp_size)
-        is_cuda_graph = get_current_vllm_config().compilation_config.cudagraph_mode != CUDAGraphMode.NONE
         if self.num_v_heads // self.num_k_heads in [1, 2, 4] and is_cuda_graph and divide_grid < 65536:
             mixed_qkv, z, b, a = fused_qkvzba_split_reshape_cat(
                 projected_states_qkvz,