InternLM
diff --git a/‎internlm/checkpoint/checkpoint_manager.py
+2-2 b/‎internlm/checkpoint/checkpoint_manager.py
+2-2
diff --git a/‎internlm/checkpoint/load_funcs.py
+3-3 b/‎internlm/checkpoint/load_funcs.py
+3-3
diff --git a/‎internlm/core/trainer_builder.py
+1-1 b/‎internlm/core/trainer_builder.py
+1-1
diff --git a/‎internlm/model_implementations/__init__.py b/‎internlm/model_implementations/__init__.py
diff --git a/‎internlm/model/builder.py ‎internlm/model_implementations/builder.py
+2-2 b/‎internlm/model/builder.py ‎internlm/model_implementations/builder.py
+2-2
diff --git a/‎internlm/model/registry.py ‎internlm/model_implementations/registry.py
+10-10 b/‎internlm/model/registry.py ‎internlm/model_implementations/registry.py
+10-10
diff --git a/‎internlm/model_implementations/transformers/__init__.py b/‎internlm/model_implementations/transformers/__init__.py
diff --git a/‎internlm/model/base_model.py ‎internlm/model_implementations/transformers/base_model.py b/‎internlm/model/base_model.py ‎internlm/model_implementations/transformers/base_model.py
diff --git a/‎internlm/model/modeling_baichuan2.py ‎internlm/model_implementations/transformers/modeling_baichuan2.py
+1-1 b/‎internlm/model/modeling_baichuan2.py ‎internlm/model_implementations/transformers/modeling_baichuan2.py
+1-1
diff --git a/‎internlm/model/modeling_gemma.py ‎internlm/model_implementations/transformers/modeling_gemma.py
+1-1 b/‎internlm/model/modeling_gemma.py ‎internlm/model_implementations/transformers/modeling_gemma.py
+1-1
diff --git a/‎internlm/model/modeling_internlm.py ‎internlm/model_implementations/transformers/modeling_internlm.py
+1-1 b/‎internlm/model/modeling_internlm.py ‎internlm/model_implementations/transformers/modeling_internlm.py
+1-1
diff --git a/‎internlm/model/modeling_internlm2.py ‎internlm/model_implementations/transformers/modeling_internlm2.py
+1-1 b/‎internlm/model/modeling_internlm2.py ‎internlm/model_implementations/transformers/modeling_internlm2.py
+1-1
diff --git a/‎internlm/model/modeling_llama.py ‎internlm/model_implementations/transformers/modeling_llama.py
+1-1 b/‎internlm/model/modeling_llama.py ‎internlm/model_implementations/transformers/modeling_llama.py
+1-1
diff --git a/‎internlm/model/modeling_llava.py ‎internlm/model_implementations/transformers/modeling_llava.py
+2-2 b/‎internlm/model/modeling_llava.py ‎internlm/model_implementations/transformers/modeling_llava.py
+2-2
diff --git a/‎internlm/model/modeling_mixtral.py ‎internlm/model_implementations/transformers/modeling_mixtral.py
+1-1 b/‎internlm/model/modeling_mixtral.py ‎internlm/model_implementations/transformers/modeling_mixtral.py
+1-1
diff --git a/‎internlm/model/modeling_moe.py ‎internlm/model_implementations/transformers/modeling_moe.py
+1-1 b/‎internlm/model/modeling_moe.py ‎internlm/model_implementations/transformers/modeling_moe.py
+1-1
diff --git a/‎internlm/model/modeling_qwen2.py ‎internlm/model_implementations/transformers/modeling_qwen2.py
+1-1 b/‎internlm/model/modeling_qwen2.py ‎internlm/model_implementations/transformers/modeling_qwen2.py
+1-1
diff --git a/‎internlm/model/modeling_qwen2_moe.py ‎internlm/model_implementations/transformers/modeling_qwen2_moe.py
+1-1 b/‎internlm/model/modeling_qwen2_moe.py ‎internlm/model_implementations/transformers/modeling_qwen2_moe.py
+1-1
diff --git a/‎internlm/model_inject/__init__.py b/‎internlm/model_inject/__init__.py
@@ -16,8 +16,8 @@
     auto_resume_sanity_check,
     ckpt_info_sanity_check,
 )
-from internlm.model.base_model import BaseModel
-from internlm.model.registry import model_initializer
+from internlm.model_implementations.registry import model_initializer
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.monitor import send_alert_message
 from internlm.solver.optimizer import HybridZeroOptimizer, HybridZeroOptimizer_v2
 from internlm.utils.common import get_current_device
 
@@ -1,8 +1,8 @@
 # Copyright (c) InternLM. All rights reserved.
 
-from internlm.model.modeling_internlm import InternLM1
-from internlm.model.modeling_internlm2 import InternLM2
-from internlm.model.modeling_llama import Llama2
+from internlm.model_implementations.transformers.modeling_internlm import InternLM1
+from internlm.model_implementations.transformers.modeling_internlm2 import InternLM2
+from internlm.model_implementations.transformers.modeling_llama import Llama2
 from internlm.utils.logger import get_logger
 
 logger = get_logger(__file__)
 
@@ -17,14 +17,14 @@
 from internlm.data.train_state import get_train_state
 from internlm.eval.evaluation import evaluate_on_val_dls
 from internlm.initialize.initialize_trainer import initialize_trainer
+from internlm.model_inject.inject import inject_model
 from internlm.model.losses.ce_loss import InternLoss
 from internlm.model.metrics import AccPerplex
 from internlm.monitor.monitor import send_alert_message
 from internlm.train.pipeline import (
     get_scheduler_hooks,
     initialize_llm_profile,
     initialize_optimizer,
-    inject_model,
     load_new_batch,
     record_current_batch_training_metrics,
 )
 
@@ -6,12 +6,12 @@
 from internlm.core.context import ParallelMode
 from internlm.core.context import global_context as gpc
 from internlm.core.parallel.shard import pipeline_parallel_sharding_wrapper
-from internlm.model.base_model import BaseModel
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.linear import (
     ParallelLinearWithCommExt,
     ScaleColumnParallelLinear,
 )
-from internlm.model.registry import model_initializer
+from internlm.model_implementations.registry import model_initializer
 from internlm.utils.common import get_current_device
 from internlm.utils.lazy import LazyObject
 from internlm.utils.logger import get_logger
 
@@ -4,16 +4,16 @@
 
 from typing import Callable
 
-from internlm.model.modeling_baichuan2 import Baichuan2
-from internlm.model.modeling_gemma import Gemma
-from internlm.model.modeling_internlm import InternLM1
-from internlm.model.modeling_internlm2 import InternLM2
-from internlm.model.modeling_llama import Llama2
-from internlm.model.modeling_llava import Llava
-from internlm.model.modeling_mixtral import MixtralMoE
-from internlm.model.modeling_moe import Internlm1MoE
-from internlm.model.modeling_qwen2 import Qwen2
-from internlm.model.modeling_qwen2_moe import Qwen2Moe
+from internlm.model_implementations.transformers.modeling_baichuan2 import Baichuan2
+from internlm.model_implementations.transformers.modeling_gemma import Gemma
+from internlm.model_implementations.transformers.modeling_internlm import InternLM1
+from internlm.model_implementations.transformers.modeling_internlm2 import InternLM2
+from internlm.model_implementations.transformers.modeling_llama import Llama2
+from internlm.model_implementations.transformers.modeling_llava import Llava
+from internlm.model_implementations.transformers.modeling_mixtral import MixtralMoE
+from internlm.model_implementations.transformers.modeling_moe import Internlm1MoE
+from internlm.model_implementations.transformers.modeling_qwen2 import Qwen2
+from internlm.model_implementations.transformers.modeling_qwen2_moe import Qwen2Moe
 from internlm.utils.common import SingletonMeta
 from internlm.utils.utils import ModelType
 
 
@@ -17,7 +17,7 @@
     scaled_init_method_uniform,
     uniform_,
 )
-from internlm.model.base_model import BaseModel
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import MHA
 
@@ -16,7 +16,7 @@
     scaled_init_method_uniform,
     uniform_,
 )
-from internlm.model.base_model import BaseModel
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import GQA
 
@@ -15,7 +15,7 @@
 from internlm.core.naive_amp import set_output_attr_to_module
 from internlm.core.parallel.shard import partition_uniform
 from internlm.initialize.initialize_tensor import normal_, scaled_init_method_normal
-from internlm.model.base_model import BaseModel
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import MHA
 
@@ -18,7 +18,7 @@
     scaled_init_method_uniform,
     uniform_,
 )
-from internlm.model.base_model import BaseModel
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import GQA
 
@@ -16,7 +16,7 @@
     scaled_init_method_uniform,
     uniform_,
 )
-from internlm.model.base_model import BaseModel
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import GQA
 
@@ -7,10 +7,10 @@
 from internlm.core.context.parallel_context import global_context as gpc
 from internlm.core.naive_amp import set_output_attr_to_module
 from internlm.initialize.initialize_tensor import normal_, uniform_
-from internlm.model.base_model import BaseModel
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.llava.clip_builder import build_vision_tower
 from internlm.model.llava.projector_builder import build_vision_projector
-from internlm.model.modeling_llama import Llama2Decoder
+from internlm.model_implementations.transformers.modeling_llama import Llama2Decoder
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.norm import new_layer_norm
 
@@ -10,7 +10,7 @@
 from internlm.core.context import ParallelMode
 from internlm.core.context.parallel_context import global_context as gpc
 from internlm.initialize.initialize_tensor import normal_, scaled_init_method_normal
-from internlm.model.base_model import BaseModel
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import SWA
 
@@ -10,7 +10,7 @@
 from internlm.core.context import ParallelMode
 from internlm.core.context.parallel_context import global_context as gpc
 from internlm.initialize.initialize_tensor import normal_, scaled_init_method_normal
-from internlm.model.base_model import BaseModel
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import MHA
 
@@ -16,7 +16,7 @@
     scaled_init_method_uniform,
     uniform_,
 )
-from internlm.model.base_model import BaseModel
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import SWA
 
@@ -14,7 +14,7 @@
     scaled_init_method_uniform,
     uniform_,
 )
-from internlm.model.base_model import BaseModel
+from internlm.model_implementations.transformers.base_model import BaseModel
 from internlm.model.modules.embedding import Embedding1D
 from internlm.model.modules.linear import new_linear
 from internlm.model.modules.mha import SWA
Original file line number	Diff line number	Diff line change
`@@ -17,7 +17,7 @@`
`17`	`17`	`scaled_init_method_uniform,`
`18`	`18`	`uniform_,`
`19`	`19`	`)`
`20`		`-from internlm.model.base_model import BaseModel`
	`20`	`+from internlm.model_implementations.transformers.base_model import BaseModel`
`21`	`21`	`from internlm.model.modules.embedding import Embedding1D`
`22`	`22`	`from internlm.model.modules.linear import new_linear`
`23`	`23`	`from internlm.model.modules.mha import MHA`
Original file line number	Diff line number	Diff line change
`@@ -16,7 +16,7 @@`
`16`	`16`	`scaled_init_method_uniform,`
`17`	`17`	`uniform_,`
`18`	`18`	`)`
`19`		`-from internlm.model.base_model import BaseModel`
	`19`	`+from internlm.model_implementations.transformers.base_model import BaseModel`
`20`	`20`	`from internlm.model.modules.embedding import Embedding1D`
`21`	`21`	`from internlm.model.modules.linear import new_linear`
`22`	`22`	`from internlm.model.modules.mha import GQA`
Original file line number	Diff line number	Diff line change
`@@ -18,7 +18,7 @@`
`18`	`18`	`scaled_init_method_uniform,`
`19`	`19`	`uniform_,`
`20`	`20`	`)`
`21`		`-from internlm.model.base_model import BaseModel`
	`21`	`+from internlm.model_implementations.transformers.base_model import BaseModel`
`22`	`22`	`from internlm.model.modules.embedding import Embedding1D`
`23`	`23`	`from internlm.model.modules.linear import new_linear`
`24`	`24`	`from internlm.model.modules.mha import GQA`
Original file line number	Diff line number	Diff line change
`@@ -14,7 +14,7 @@`
`14`	`14`	`scaled_init_method_uniform,`
`15`	`15`	`uniform_,`
`16`	`16`	`)`
`17`		`-from internlm.model.base_model import BaseModel`
	`17`	`+from internlm.model_implementations.transformers.base_model import BaseModel`
`18`	`18`	`from internlm.model.modules.embedding import Embedding1D`
`19`	`19`	`from internlm.model.modules.linear import new_linear`
`20`	`20`	`from internlm.model.modules.mha import SWA`