fix ci

zigzagcai · zigzagcai · commit 5a2e996213de · 2025-02-17T12:04:28.000+08:00
diff --git a/internlm/core/trainer_builder.py b/internlm/core/trainer_builder.py
@@ -17,9 +17,9 @@
 from internlm.data.train_state import get_train_state
 from internlm.eval.evaluation import evaluate_on_val_dls
 from internlm.initialize.initialize_trainer import initialize_trainer
-from internlm.model_inject.inject import inject_model
 from internlm.model.losses.ce_loss import InternLoss
 from internlm.model.metrics import AccPerplex
+from internlm.model_inject.inject import inject_model
 from internlm.monitor.monitor import send_alert_message
 from internlm.train.pipeline import (
     get_scheduler_hooks,
diff --git a/internlm/model_implementations/builder.py b/internlm/model_implementations/builder.py
@@ -6,12 +6,12 @@
 from internlm.core.context import ParallelMode
 from internlm.core.context import global_context as gpc
 from internlm.core.parallel.shard import pipeline_parallel_sharding_wrapper
-from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.linear import (
     ParallelLinearWithCommExt,
     ScaleColumnParallelLinear,
 )
 from internlm.model_implementations.registry import model_initializer
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.utils.common import get_current_device
 from internlm.utils.lazy import LazyObject
 from internlm.utils.logger import get_logger
diff --git a/internlm/model_implementations/transformers/modeling_baichuan2.py b/internlm/model_implementations/transformers/modeling_baichuan2.py
@@ -17,7 +17,6 @@
     scaled_init_method_uniform,
     uniform_,
 )
-from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import MHA
@@ -27,6 +26,7 @@
     convert_attn_args_to_kwargs,
     convert_attn_kwargs_to_args,
 )
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.solver.activation_checkpoint import activation_checkpoint
 from internlm.utils.logger import get_logger
 from internlm.utils.storage_manager import get_fns, llm_load, llm_save
diff --git a/internlm/model_implementations/transformers/modeling_gemma.py b/internlm/model_implementations/transformers/modeling_gemma.py
@@ -16,7 +16,6 @@
     scaled_init_method_uniform,
     uniform_,
 )
-from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import GQA
@@ -26,6 +25,7 @@
     convert_attn_args_to_kwargs,
     convert_attn_kwargs_to_args,
 )
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.solver.activation_checkpoint import activation_checkpoint
 from internlm.utils.logger import get_logger
 from internlm.utils.storage_manager import get_fns, llm_load, llm_save
diff --git a/internlm/model_implementations/transformers/modeling_internlm.py b/internlm/model_implementations/transformers/modeling_internlm.py
@@ -15,7 +15,6 @@
 from internlm.core.naive_amp import set_output_attr_to_module
 from internlm.core.parallel.shard import partition_uniform
 from internlm.initialize.initialize_tensor import normal_, scaled_init_method_normal
-from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import MHA
@@ -27,6 +26,7 @@
     internlm1_mha_pre_load_convert,
     internlm1_mha_save_convert,
 )
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.solver.activation_checkpoint import activation_checkpoint
 from internlm.utils.logger import get_logger
 from internlm.utils.storage_manager import get_fns, llm_load, llm_save
diff --git a/internlm/model_implementations/transformers/modeling_internlm2.py b/internlm/model_implementations/transformers/modeling_internlm2.py
@@ -18,7 +18,6 @@
     scaled_init_method_uniform,
     uniform_,
 )
-from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import GQA
@@ -29,6 +28,7 @@
     convert_attn_kwargs_to_args,
     get_parallel_size_from_file,
 )
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.solver.activation_checkpoint import activation_checkpoint
 from internlm.utils.logger import get_logger
 from internlm.utils.storage_manager import get_fns, llm_load, llm_save
diff --git a/internlm/model_implementations/transformers/modeling_llama.py b/internlm/model_implementations/transformers/modeling_llama.py
@@ -16,7 +16,6 @@
     scaled_init_method_uniform,
     uniform_,
 )
-from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import GQA
@@ -26,6 +25,7 @@
     convert_attn_args_to_kwargs,
     convert_attn_kwargs_to_args,
 )
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.solver.activation_checkpoint import activation_checkpoint
 from internlm.utils.logger import get_logger
 from internlm.utils.storage_manager import get_fns, llm_load, llm_save
diff --git a/internlm/model_implementations/transformers/modeling_llava.py b/internlm/model_implementations/transformers/modeling_llava.py
@@ -7,13 +7,13 @@
 from internlm.core.context.parallel_context import global_context as gpc
 from internlm.core.naive_amp import set_output_attr_to_module
 from internlm.initialize.initialize_tensor import normal_, uniform_
-from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.llava.clip_builder import build_vision_tower
 from internlm.model.llava.projector_builder import build_vision_projector
-from internlm.model_implementations.transformers.modeling_llama import Llama2Decoder
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.norm import new_layer_norm
+from internlm.model_implementations.transformers.base_model import BaseModel
+from internlm.model_implementations.transformers.modeling_llama import Llama2Decoder
 from internlm.utils.logger import get_logger
 
 logger = get_logger(__file__)
diff --git a/internlm/model_implementations/transformers/modeling_mixtral.py b/internlm/model_implementations/transformers/modeling_mixtral.py
@@ -10,7 +10,6 @@
 from internlm.core.context import ParallelMode
 from internlm.core.context.parallel_context import global_context as gpc
 from internlm.initialize.initialize_tensor import normal_, scaled_init_method_normal
-from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import SWA
@@ -21,6 +20,7 @@
     convert_attn_args_to_kwargs,
     convert_attn_kwargs_to_args,
 )
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.solver.activation_checkpoint import activation_checkpoint
 from internlm.utils.logger import get_logger
 
diff --git a/internlm/model_implementations/transformers/modeling_moe.py b/internlm/model_implementations/transformers/modeling_moe.py
@@ -10,7 +10,6 @@
 from internlm.core.context import ParallelMode
 from internlm.core.context.parallel_context import global_context as gpc
 from internlm.initialize.initialize_tensor import normal_, scaled_init_method_normal
-from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import MHA
@@ -23,6 +22,7 @@
     internlm1_mha_pre_load_convert,
     internlm1_mha_save_convert,
 )
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.solver.activation_checkpoint import activation_checkpoint
 from internlm.utils.logger import get_logger
 
diff --git a/internlm/model_implementations/transformers/modeling_qwen2.py b/internlm/model_implementations/transformers/modeling_qwen2.py
@@ -16,7 +16,6 @@
     scaled_init_method_uniform,
     uniform_,
 )
-from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import SWA
@@ -26,6 +25,7 @@
     convert_attn_args_to_kwargs,
     convert_attn_kwargs_to_args,
 )
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.solver.activation_checkpoint import activation_checkpoint
 from internlm.utils.logger import get_logger
 from internlm.utils.storage_manager import get_fns, llm_load, llm_save
diff --git a/internlm/model_implementations/transformers/modeling_qwen2_moe.py b/internlm/model_implementations/transformers/modeling_qwen2_moe.py
@@ -14,7 +14,6 @@
     scaled_init_method_uniform,
     uniform_,
 )
-from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import SWA
@@ -25,6 +24,7 @@
     convert_attn_args_to_kwargs,
     convert_attn_kwargs_to_args,
 )
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.solver.activation_checkpoint import activation_checkpoint
 from internlm.utils.logger import get_logger
 

Original file line number	Diff line number	Diff line change
`@@ -14,7 +14,6 @@`
`14`	`14`	`scaled_init_method_uniform,`
`15`	`15`	`uniform_,`
`16`	`16`	`)`
`17`		`-from internlm.model_implementations.transformers.base_model import BaseModel`
`18`	`17`	`from internlm.model.modules.embedding import Embedding1D`
`19`	`18`	`from internlm.model.modules.linear import new_linear`
`20`	`19`	`from internlm.model.modules.mha import SWA`
`@@ -25,6 +24,7 @@`
`25`	`24`	`convert_attn_args_to_kwargs,`
`26`	`25`	`convert_attn_kwargs_to_args,`
`27`	`26`	`)`
	`27`	`+from internlm.model_implementations.transformers.base_model import BaseModel`
`28`	`28`	`from internlm.solver.activation_checkpoint import activation_checkpoint`
`29`	`29`	`from internlm.utils.logger import get_logger`
`30`	`30`