[Model] Refactor chatglm config to match others

nverke · MasterJH5574 · web-flow · commit 8bd69180943c · 2023-08-30T10:23:49.000-04:00
Add test to test some of this functionality.

---------

Co-authored-by: Ruihang Lai &lt;ruihangl@cs.cmu.edu&gt;
diff --git a/mlc_llm/core.py b/mlc_llm/core.py
@@ -364,12 +364,12 @@ def mod_transform_before_build(
         max_seq_len = None
         if args.max_seq_len > 0:
             max_seq_len = args.max_seq_len
-        elif "max_sequence_length" in config:
-            max_seq_len = config["max_sequence_length"]
+        elif hasattr(config, "max_sequence_length"):
+            max_seq_len = config.max_sequence_length
 
         if max_seq_len:
             mod = fuse_split_rotary_embedding(
-                mod, config["num_attention_heads"], config["hidden_size"], max_seq_len
+                mod, config.num_attention_heads, config.hidden_size, max_seq_len
             )
 
     if args.target_kind == "cuda":
diff --git a/mlc_llm/relax_model/chatglm.py b/mlc_llm/relax_model/chatglm.py
@@ -47,7 +47,7 @@ def __init__(
         multi_query_group_num: int = 2,
         num_attention_heads: int = 32,
         num_layers: int = 28,
-        seq_length: int = 2048,
+        max_sequence_length: int = 2048,
         padded_vocab_size: int = 65024,
         eos_token_id: int = 2,
         bos_token_id: int = 0,
@@ -63,7 +63,7 @@ def __init__(
         self.multi_query_group_num = multi_query_group_num
         self.num_attention_heads = num_attention_heads
         self.num_layers = num_layers
-        self.seq_length = min(2048, seq_length)
+        self.max_sequence_length = min(2048, max_sequence_length)
         self.padded_vocab_size = padded_vocab_size
         self.bos_token_id = bos_token_id
         self.eos_token_id = eos_token_id
@@ -481,14 +481,14 @@ def __init__(self, config: ChatGLMConfig):
             dtype=config.dtype,
         )
 
-        self.seq_length = config.seq_length
+        self.seq_length = config.max_sequence_length
         rotary_dim = config.kv_channels // 2
 
         self.rotary_pos_emb = RotaryEmbedding(
             hidden_size=config.hidden_size,
             num_attention_heads=config.num_attention_heads,
             position_embedding_base=10000,
-            max_sequence_length=config.seq_length,
+            max_sequence_length=config.max_sequence_length,
             rotary_dim=rotary_dim,
             swizzle_style="glm",
             dtype=config.dtype,
@@ -726,7 +726,7 @@ def create_decoding_func(
 def create_kv_cache_func(bb: relax.BlockBuilder, config: ChatGLMConfig) -> None:
     init_shape = relax.ShapeExpr(
         (
-            config.seq_length,
+            config.max_sequence_length,
             config.multi_query_group_num,
             config.hidden_size // config.num_attention_heads,
         )
@@ -782,7 +782,7 @@ def get_model(args: argparse.Namespace, hf_config):
         create_metadata_func(
             bb,
             model_name=model,
-            max_window_size=config.seq_length,
+            max_window_size=config.max_sequence_length,
             stop_tokens=[0],
             add_prefix_space=False,
         )
@@ -794,8 +794,8 @@ def get_model(args: argparse.Namespace, hf_config):
                 mod[gv] = func.with_attr(
                     "tir_var_upper_bound",
                     {
-                        "n": config.seq_length,
-                        "m": config.seq_length,
+                        "n": config.max_sequence_length,
+                        "m": config.max_sequence_length,
                     },
                 )
 
diff --git a/tests/python/test_build_model_from_args.py b/tests/python/test_build_model_from_args.py
@@ -0,0 +1,126 @@
+
+import argparse
+import os
+import unittest
+from unittest.mock import MagicMock, mock_open, patch
+
+from mlc_llm import utils
+
+from mlc_llm.core import build_model_from_args
+
+
+class MockMkdir(object):
+    def __init__(self):
+        self.received_args = None
+    
+    def __call__(self, *args):
+        self.received_args = args
+
+class BuildModelTest(unittest.TestCase):
+
+    def setUp(self):
+        self._orig_mkdir = os.mkdir
+        os.mkdir = MockMkdir()
+        
+        self.mock_args = argparse.Namespace()
+        self.mock_args.quantization = utils.quantization_schemes["q8f16_1"]
+        self.mock_args.debug_dump = False
+        self.mock_args.use_cache = False
+        self.mock_args.sep_embed = False
+        self.mock_args.build_model_only = True
+        self.mock_args.use_safetensors = False
+        self.mock_args.convert_weight_only = False
+        self.mock_args.no_cutlass_attn = True
+        self.mock_args.no_cutlass_norm = True
+        self.mock_args.reuse_lib = True
+        self.mock_args.artifact_path = "/tmp/"
+        self.mock_args.model_path = "/tmp/"
+        self.mock_args.model = "/tmp/"
+        self.mock_args.target_kind = "cuda"
+        self.mock_args.max_seq_len = 2048
+    
+    def tearDown(self):
+        os.mkdir = self._orig_mkdir
+
+    @patch("builtins.open", new_callable=mock_open, read_data="data")
+    @patch("json.load", MagicMock(side_effect = [ {} ]))
+    def test_llama_model(self, mock_file):
+        self.mock_args.model_category = "llama"
+
+        build_model_from_args(self.mock_args)
+
+    @patch("builtins.open", new_callable=mock_open, read_data="data")
+    @patch("json.load", MagicMock(side_effect = [ { 
+        "use_parallel_residual": False,
+        "hidden_size": 32,
+        "intermediate_size": 32,
+        "num_attention_heads": 32,
+        "num_hidden_layers": 28,
+        "vocab_size": 1024,
+        "rotary_pct": 1,
+        "rotary_emb_base": 1,
+        "layer_norm_eps": 1,
+    } ]))
+    def test_gpt_neox_model(self, mock_file):
+        self.mock_args.model_category = "gpt_neox"
+        self.mock_args.model = "dolly-test"
+
+        build_model_from_args(self.mock_args)
+
+    @patch("builtins.open", new_callable=mock_open, read_data="data")
+    @patch("json.load", MagicMock(side_effect = [ {} ]))
+    def test_gpt_bigcode_model(self, mock_file):
+        self.mock_args.model_category = "gpt_bigcode"
+        self.mock_args.model = "gpt_bigcode"
+
+        build_model_from_args(self.mock_args)
+
+    @patch("builtins.open", new_callable=mock_open, read_data="data")
+    @patch("json.load", MagicMock(side_effect = [ {} ]))
+    def test_minigpt_model(self, mock_file):
+        self.mock_args.model_category = "minigpt"
+        self.mock_args.model = "minigpt4-7b"
+
+        build_model_from_args(self.mock_args)
+
+    
+    @patch("builtins.open", new_callable=mock_open, read_data="data")
+    @patch("json.load", MagicMock(side_effect = [ { 
+        "vocab_size": 1024,
+        "n_embd": 32,
+        "n_inner": 32,
+        "n_head": 32,
+        "n_layer": 28,
+        "bos_token_id": 28,
+        "eos_token_id": 1,
+        "rotary_dim": 1,
+        "tie_word_embeddings": 1,
+    } ]))
+    def test_gptj_model(self, mock_file):
+        self.mock_args.model_category = "gptj"
+        self.mock_args.model = "gpt-j-"
+
+        build_model_from_args(self.mock_args)
+
+
+    @patch("builtins.open", new_callable=mock_open, read_data="data")
+    @patch("json.load", MagicMock(side_effect = [ { 
+        "num_hidden_layers": 16,
+        "vocab_size": 1024,
+        "hidden_size": 16,
+        "intermediate_size": 32,
+    }  ]))
+    def test_rwkv_model(self, mock_file):
+        self.mock_args.model_category = "rwkv"
+        self.mock_args.model = "rwkv-"
+
+        build_model_from_args(self.mock_args)
+
+
+    @patch("builtins.open", new_callable=mock_open, read_data="data")
+    @patch("json.load", MagicMock(side_effect = [ { } ]))
+    def test_chatglm_model(self, mock_file):
+        self.mock_args.model_category = "chatglm"
+        self.mock_args.model = "chatglm2"
+
+        build_model_from_args(self.mock_args)