removed unnecessary codes

Eugeoter · Eugeoter · commit 592a14b48520 · 2024-09-04T16:13:40.000+08:00
diff --git a/ControlNeXt-SDXL-Training/models/unet.py b/ControlNeXt-SDXL-Training/models/unet.py
@@ -53,76 +53,6 @@
 
 logger = logging.get_logger(__name__)  # pylint: disable=invalid-name
 
-UNET_CONFIG = {
-    "_class_name": "UNet2DConditionModel",
-    "_diffusers_version": "0.19.0.dev0",
-    "act_fn": "silu",
-    "addition_embed_type": "text_time",
-    "addition_embed_type_num_heads": 64,
-    "addition_time_embed_dim": 256,
-    "attention_head_dim": [
-        5,
-        10,
-        20
-    ],
-    "block_out_channels": [
-        320,
-        640,
-        1280
-    ],
-    "center_input_sample": False,
-    "class_embed_type": None,
-    "class_embeddings_concat": False,
-    "conv_in_kernel": 3,
-    "conv_out_kernel": 3,
-    "cross_attention_dim": 2048,
-    "cross_attention_norm": None,
-    "down_block_types": [
-        "DownBlock2D",
-        "CrossAttnDownBlock2D",
-        "CrossAttnDownBlock2D"
-    ],
-    "downsample_padding": 1,
-    "dual_cross_attention": False,
-    "encoder_hid_dim": None,
-    "encoder_hid_dim_type": None,
-    "flip_sin_to_cos": True,
-    "freq_shift": 0,
-    "in_channels": 4,
-    "layers_per_block": 2,
-    "mid_block_only_cross_attention": None,
-    "mid_block_scale_factor": 1,
-    "mid_block_type": "UNetMidBlock2DCrossAttn",
-    "norm_eps": 1e-05,
-    "norm_num_groups": 32,
-    "num_attention_heads": None,
-    "num_class_embeds": None,
-    "only_cross_attention": False,
-    "out_channels": 4,
-    "projection_class_embeddings_input_dim": 2816,
-    "resnet_out_scale_factor": 1.0,
-    "resnet_skip_time_act": False,
-    "resnet_time_scale_shift": "default",
-    "sample_size": 128,
-    "time_cond_proj_dim": None,
-    "time_embedding_act_fn": None,
-    "time_embedding_dim": None,
-    "time_embedding_type": "positional",
-    "timestep_post_act": None,
-    "transformer_layers_per_block": [
-        1,
-        2,
-        10
-    ],
-    "up_block_types": [
-        "CrossAttnUpBlock2D",
-        "CrossAttnUpBlock2D",
-        "UpBlock2D"
-    ],
-    "upcast_attention": None,
-    "use_linear_projection": True
-}
-
 
 @dataclass
 class UNet2DConditionOutput(BaseOutput):
diff --git a/ControlNeXt-SDXL-Training/utils/tools.py b/ControlNeXt-SDXL-Training/utils/tools.py
@@ -4,10 +4,78 @@
 from diffusers import UniPCMultistepScheduler, AutoencoderKL, ControlNetModel
 from safetensors.torch import load_file
 from pipeline.pipeline_controlnext import StableDiffusionXLControlNeXtPipeline
-from models.unet import UNet2DConditionModel, UNET_CONFIG
+from models.unet import UNet2DConditionModel
 from models.controlnet import ControlNetModel
 from . import utils
 
+UNET_CONFIG = {
+    "act_fn": "silu",
+    "addition_embed_type": "text_time",
+    "addition_embed_type_num_heads": 64,
+    "addition_time_embed_dim": 256,
+    "attention_head_dim": [
+        5,
+        10,
+        20
+    ],
+    "block_out_channels": [
+        320,
+        640,
+        1280
+    ],
+    "center_input_sample": False,
+    "class_embed_type": None,
+    "class_embeddings_concat": False,
+    "conv_in_kernel": 3,
+    "conv_out_kernel": 3,
+    "cross_attention_dim": 2048,
+    "cross_attention_norm": None,
+    "down_block_types": [
+        "DownBlock2D",
+        "CrossAttnDownBlock2D",
+        "CrossAttnDownBlock2D"
+    ],
+    "downsample_padding": 1,
+    "dual_cross_attention": False,
+    "encoder_hid_dim": None,
+    "encoder_hid_dim_type": None,
+    "flip_sin_to_cos": True,
+    "freq_shift": 0,
+    "in_channels": 4,
+    "layers_per_block": 2,
+    "mid_block_only_cross_attention": None,
+    "mid_block_scale_factor": 1,
+    "mid_block_type": "UNetMidBlock2DCrossAttn",
+    "norm_eps": 1e-05,
+    "norm_num_groups": 32,
+    "num_attention_heads": None,
+    "num_class_embeds": None,
+    "only_cross_attention": False,
+    "out_channels": 4,
+    "projection_class_embeddings_input_dim": 2816,
+    "resnet_out_scale_factor": 1.0,
+    "resnet_skip_time_act": False,
+    "resnet_time_scale_shift": "default",
+    "sample_size": 128,
+    "time_cond_proj_dim": None,
+    "time_embedding_act_fn": None,
+    "time_embedding_dim": None,
+    "time_embedding_type": "positional",
+    "timestep_post_act": None,
+    "transformer_layers_per_block": [
+        1,
+        2,
+        10
+    ],
+    "up_block_types": [
+        "CrossAttnUpBlock2D",
+        "CrossAttnUpBlock2D",
+        "UpBlock2D"
+    ],
+    "upcast_attention": None,
+    "use_linear_projection": True
+}
+
 CONTROLNET_CONFIG = {
     'in_channels': [128, 128],
     'out_channels': [128, 256],
@@ -83,19 +151,22 @@ def get_pipeline(
 
     pipeline.scheduler = UniPCMultistepScheduler.from_config(pipeline.scheduler.config)
     if unet_model_name_or_path is not None:
+        print(f"loading controlnext unet from {unet_model_name_or_path}")
         pipeline.load_controlnext_unet_weights(
             unet_model_name_or_path,
             load_weight_increasement=load_weight_increasement,
             use_safetensors=True,
             torch_dtype=torch.float16,
             cache_dir=hf_cache_dir,
         )
-    pipeline.load_controlnext_controlnet_weights(
-        controlnet_model_name_or_path,
-        use_safetensors=True,
-        torch_dtype=torch.float32,
-        cache_dir=hf_cache_dir,
-    )
+    if controlnet_model_name_or_path is not None:
+        print(f"loading controlnext controlnet from {controlnet_model_name_or_path}")
+        pipeline.load_controlnext_controlnet_weights(
+            controlnet_model_name_or_path,
+            use_safetensors=True,
+            torch_dtype=torch.float32,
+            cache_dir=hf_cache_dir,
+        )
     pipeline.set_progress_bar_config()
     pipeline = pipeline.to(device, dtype=torch.float16)
 
diff --git a/ControlNeXt-SDXL-Training/utils/utils.py b/ControlNeXt-SDXL-Training/utils/utils.py
@@ -1,52 +1,5 @@
 import math
 from typing import Tuple, Union, Optional
-from safetensors.torch import load_file
-from transformers import PretrainedConfig
-
-
-def count_num_parameters_of_safetensors_model(safetensors_path):
-    state_dict = load_file(safetensors_path)
-    return sum(p.numel() for p in state_dict.values())
-
-
-def import_model_class_from_model_name_or_path(
-    pretrained_model_name_or_path: str, revision: str, subfolder: str = None
-):
-    text_encoder_config = PretrainedConfig.from_pretrained(
-        pretrained_model_name_or_path, revision=revision, subfolder=subfolder
-    )
-    model_class = text_encoder_config.architectures[0]
-    if model_class == "CLIPTextModel":
-        from transformers import CLIPTextModel
-        return CLIPTextModel
-    elif model_class == "CLIPTextModelWithProjection":
-        from transformers import CLIPTextModelWithProjection
-        return CLIPTextModelWithProjection
-    else:
-        raise ValueError(f"{model_class} is not supported.")
-
-
-def fix_clip_text_encoder_position_ids(text_encoder):
-    if hasattr(text_encoder.text_model.embeddings, "position_ids"):
-        text_encoder.text_model.embeddings.position_ids = text_encoder.text_model.embeddings.position_ids.long()
-
-
-def load_controlnext_unet_state_dict(unet_sd, controlnext_unet_sd):
-    assert all(
-        k in unet_sd for k in controlnext_unet_sd), f"controlnext unet state dict is not compatible with unet state dict, missing keys: {set(controlnext_unet_sd.keys()) - set(unet_sd.keys())}, extra keys: {set(unet_sd.keys()) - set(controlnext_unet_sd.keys())}"
-    for k in controlnext_unet_sd.keys():
-        unet_sd[k] = controlnext_unet_sd[k]
-    return unet_sd
-
-
-def convert_to_controlnext_unet_state_dict(state_dict):
-    import re
-    pattern = re.compile(r'.*attn2.*to_out.*')
-    state_dict = {k: v for k, v in state_dict.items() if pattern.match(k)}
-    # state_dict = extract_unet_state_dict(state_dict)
-    if is_sdxl_state_dict(state_dict):
-        state_dict = convert_sdxl_unet_state_dict_to_diffusers(state_dict)
-    return state_dict
 
 
 def make_unet_conversion_map():
@@ -166,27 +119,6 @@ def extract_unet_state_dict(state_dict):
     return unet_sd
 
 
-def is_sdxl_state_dict(state_dict):
-    return any(key.startswith('input_blocks') for key in state_dict.keys())
-
-
-def contains_unet_keys(state_dict):
-    UNET_KEY_PREFIX = "model.diffusion_model."
-    return any(k.startswith(UNET_KEY_PREFIX) for k in state_dict.keys())
-
-
-def load_safetensors(model, safetensors_path, strict=True, load_weight_increasement=False):
-    if not load_weight_increasement:
-        state_dict = load_file(safetensors_path)
-        model.load_state_dict(state_dict, strict=strict)
-    else:
-        state_dict = load_file(safetensors_path)
-        pretrained_state_dict = model.state_dict()
-        for k in state_dict.keys():
-            state_dict[k] = state_dict[k] + pretrained_state_dict[k]
-        model.load_state_dict(state_dict, strict=False)
-
-
 def log_model_info(model, name):
     sd = model.state_dict() if hasattr(model, "state_dict") else model
     print(
diff --git a/ControlNeXt-SDXL/models/unet.py b/ControlNeXt-SDXL/models/unet.py
@@ -53,76 +53,6 @@
 
 logger = logging.get_logger(__name__)  # pylint: disable=invalid-name
 
-UNET_CONFIG = {
-    "_class_name": "UNet2DConditionModel",
-    "_diffusers_version": "0.19.0.dev0",
-    "act_fn": "silu",
-    "addition_embed_type": "text_time",
-    "addition_embed_type_num_heads": 64,
-    "addition_time_embed_dim": 256,
-    "attention_head_dim": [
-        5,
-        10,
-        20
-    ],
-    "block_out_channels": [
-        320,
-        640,
-        1280
-    ],
-    "center_input_sample": False,
-    "class_embed_type": None,
-    "class_embeddings_concat": False,
-    "conv_in_kernel": 3,
-    "conv_out_kernel": 3,
-    "cross_attention_dim": 2048,
-    "cross_attention_norm": None,
-    "down_block_types": [
-        "DownBlock2D",
-        "CrossAttnDownBlock2D",
-        "CrossAttnDownBlock2D"
-    ],
-    "downsample_padding": 1,
-    "dual_cross_attention": False,
-    "encoder_hid_dim": None,
-    "encoder_hid_dim_type": None,
-    "flip_sin_to_cos": True,
-    "freq_shift": 0,
-    "in_channels": 4,
-    "layers_per_block": 2,
-    "mid_block_only_cross_attention": None,
-    "mid_block_scale_factor": 1,
-    "mid_block_type": "UNetMidBlock2DCrossAttn",
-    "norm_eps": 1e-05,
-    "norm_num_groups": 32,
-    "num_attention_heads": None,
-    "num_class_embeds": None,
-    "only_cross_attention": False,
-    "out_channels": 4,
-    "projection_class_embeddings_input_dim": 2816,
-    "resnet_out_scale_factor": 1.0,
-    "resnet_skip_time_act": False,
-    "resnet_time_scale_shift": "default",
-    "sample_size": 128,
-    "time_cond_proj_dim": None,
-    "time_embedding_act_fn": None,
-    "time_embedding_dim": None,
-    "time_embedding_type": "positional",
-    "timestep_post_act": None,
-    "transformer_layers_per_block": [
-        1,
-        2,
-        10
-    ],
-    "up_block_types": [
-        "CrossAttnUpBlock2D",
-        "CrossAttnUpBlock2D",
-        "UpBlock2D"
-    ],
-    "upcast_attention": None,
-    "use_linear_projection": True
-}
-
 
 @dataclass
 class UNet2DConditionOutput(BaseOutput):
diff --git a/ControlNeXt-SDXL/run_controlnext.py b/ControlNeXt-SDXL/run_controlnext.py
@@ -1,6 +1,7 @@
 import os
 import torch
 import cv2
+import gc
 import numpy as np
 import argparse
 from PIL import Image
@@ -112,6 +113,10 @@ def log_validation(
         print("Save images to:", file_path)
         cv2.imwrite(file_path, formatted_images)
 
+    gc.collect()
+    if str(device) == 'cuda' and torch.cuda.is_available():
+        torch.cuda.empty_cache()
+
     return image_logs
 
 
diff --git a/ControlNeXt-SDXL/utils/tools.py b/ControlNeXt-SDXL/utils/tools.py
diff --git a/ControlNeXt-SDXL/utils/utils.py b/ControlNeXt-SDXL/utils/utils.py