fix nnx.data & copy=true

pathfinder-fp · pathfinder-fp · commit 47851e6952db · 2025-11-06T10:16:02.000+08:00
diff --git a/python/sgl_jax/srt/layers/embeddings.py b/python/sgl_jax/srt/layers/embeddings.py
@@ -163,7 +163,7 @@ def __init__(
                 )
             )
         else:
-            self.bias = None
+            self.bias = nnx.data(None)
 
     def tie_weights(self, embed_tokens: Embed):
         """Tie the weights with word embeddings."""
diff --git a/python/sgl_jax/srt/layers/layernorm.py b/python/sgl_jax/srt/layers/layernorm.py
@@ -48,7 +48,7 @@ def __init__(
         if use_scale:
             self.scale = nnx.Param(scale_init(jax.random.PRNGKey(0), feature_shape, param_dtype))
         else:
-            self.scale = None
+            self.scale = nnx.data(None)
 
         self.num_features = num_features
         self.epsilon = epsilon
diff --git a/python/sgl_jax/srt/layers/linear.py b/python/sgl_jax/srt/layers/linear.py
@@ -55,7 +55,7 @@ def __init__(
                 )
             )
         else:
-            self.bias = None
+            self.bias = nnx.data(None)
 
     def __call__(self, x: jax.Array) -> tuple[jax.Array, jax.Array | None]:
         """Forward pass of the linear layer."""
diff --git a/python/sgl_jax/srt/layers/moe.py b/python/sgl_jax/srt/layers/moe.py
@@ -33,7 +33,7 @@ def __init__(
                 )
             )
         else:
-            self.bias = None
+            self.bias = nnx.data(None)
 
     def __call__(self, hidden_states: jax.Array) -> tuple[jax.Array, jax.Array | None]:
         logits = hidden_states.astype(self.weight_dtype) @ self.kernel
diff --git a/python/sgl_jax/srt/model_executor/model_runner.py b/python/sgl_jax/srt/model_executor/model_runner.py
@@ -171,7 +171,7 @@ def jitted_run_model(
             logits_metadata,
         ):
             model_state = jax.tree_util.tree_unflatten(model_state_def, model_state_leaves)
-            model = nnx.merge(model_def, model_state)
+            model = nnx.merge(model_def, model_state, copy=True)
             return model(forward_batch, token_to_kv_pool, logits_metadata)
 
         @partial(jax.jit, static_argnames=["sampler_state_def", "mesh", "use_sort_for_toppk_minp"])
@@ -184,7 +184,7 @@ def jitted_sampler(
             *args,
         ):
             model_state = jax.tree_util.tree_unflatten(sampler_state_def, sampler_state_leaves)
-            sampler = nnx.merge(sampler_def, model_state)
+            sampler = nnx.merge(sampler_def, model_state, copy=True)
             return sampler(*args, mesh=mesh, use_sort_for_toppk_minp=use_sort_for_toppk_minp)
 
         def run_model_wrapper(forward_batch, logits_metadata):

Original file line number	Diff line number	Diff line change
`@@ -163,7 +163,7 @@ def __init__(`
`163`	`163`	`)`
`164`	`164`	`)`
`165`	`165`	`else:`
`166`		`- self.bias = None`
	`166`	`+ self.bias = nnx.data(None)`
`167`	`167`
`168`	`168`	`def tie_weights(self, embed_tokens: Embed):`
`169`	`169`	`"""Tie the weights with word embeddings."""`
Original file line number	Diff line number	Diff line change
`@@ -55,7 +55,7 @@ def __init__(`
`55`	`55`	`)`
`56`	`56`	`)`
`57`	`57`	`else:`
`58`		`- self.bias = None`
	`58`	`+ self.bias = nnx.data(None)`
`59`	`59`
`60`	`60`	`def __call__(self, x: jax.Array) -> tuple[jax.Array, jax.Array \| None]:`
`61`	`61`	`"""Forward pass of the linear layer."""`
Original file line number	Diff line number	Diff line change
`@@ -33,7 +33,7 @@ def __init__(`
`33`	`33`	`)`
`34`	`34`	`)`
`35`	`35`	`else:`
`36`		`- self.bias = None`
	`36`	`+ self.bias = nnx.data(None)`
`37`	`37`
`38`	`38`	`def __call__(self, hidden_states: jax.Array) -> tuple[jax.Array, jax.Array \| None]:`
`39`	`39`	`logits = hidden_states.astype(self.weight_dtype) @ self.kernel`