Deepseek Engram optimization. by LiJunscs · Pull Request #1147 · flagos-ai/FlagScale

LiJunscs · 2026-03-12T11:27:36Z

PR Category

[Train]

PR Types

[Improvements]

PR Description

AlltoAll communication when compute multi_head_embedding.
Precompute multi_head_embedding.
Optional offloading embedding's optimizer states.

CLAassistant · 2026-03-12T12:59:24Z

All committers have signed the CLA.

1. All2All when compute embeddings. 2. Precompute multi_head_embedding.

Copilot

Pull request overview

This PR improves DeepSeek Engram training performance by adding embedding-parallel communication options (all-to-all / all-reduce / offload), enabling precomputation/overlap of multi-head embedding work, and wiring new Engram-parallel arguments through initialization and example configs.

Changes:

Add Engram embedding parallel method/size arguments and pass them into distributed initialization.
Introduce an embedding-parallel EngramMemory implementation and integrate it into Engram’s multi-head embedding + sharded checkpointing.
Add embedding precompute/caching (and attempt overlap across layers) plus new DeepSeek Engram Hydra configs.

Reviewed changes

Copilot reviewed 11 out of 11 changed files in this pull request and generated 12 comments.

Show a summary per file

File	Description
tests/functional_tests/train/deepseek/gold_values/tp2_pp2_ep2_engram.json	Reformat/update stored gold loss JSON.
flagscale/train/megatron/training/initialize.py	Plumb `engram_embedding_parallel_size` into model-parallel initialization.
flagscale/train/megatron/training/arguments_fs.py	Add Engram embedding parallel CLI args + validation/warnings.
flagscale/train/megatron/train_engram.py	Switch to `parallel_state` and add an extra TP token broadcast path.
flagscale/models/megatron/engram/multi_head_embedding.py	Add `EngramMemory` and route MultiHeadEmbedding through it; add sharded state dict.
flagscale/models/megatron/engram/engram_transformer_layer.py	Add embedding precompute hook and enable sharded state dict.
flagscale/models/megatron/engram/engram_model.py	Implement `build_schedule_plan` for Engram model.
flagscale/models/megatron/engram/engram_config.py	Add Engram embedding parallel config fields.
flagscale/models/megatron/engram/engram.py	Add embedding precompute/cache + sharded state dict plumbing; rename embedding member to `memory`.
examples/deepseek_v3/conf/train_engram.yaml	New top-level Hydra entry for Engram training run.
examples/deepseek_v3/conf/train/engram.yaml	New DeepSeek Engram training preset including embedding-parallel settings.

💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

flagscale/train/megatron/train_engram.py

+    if not (parallel_state.get_pipeline_model_parallel_world_size == 1 or parallel_state.is_pipeline_first_stage()):
+        if parallel_state.get_tensor_model_parallel_rank() == 0:
+            torch.distributed.broadcast(batch["tokens"], src=parallel_state.get_tensor_model_parallel_src_rank(), group=parallel_state.get_tensor_model_parallel_group())
+        else:
+            tokens = torch.empty_like(batch["labels"])
+            torch.distributed.broadcast(tokens, src=parallel_state.get_tensor_model_parallel_src_rank(), group=parallel_state.get_tensor_model_parallel_group())
+            batch["tokens"] = tokens


flagscale/train/megatron/train_engram.py

 from megatron.core.utils import get_attr_wrapped_model, StragglerDetector
 from megatron.core.tokenizers.text.utils.build_tokenizer import build_tokenizer
-from megatron.core import mpu
+from megatron.core import parallel_state


flagscale/models/megatron/engram/multi_head_embedding.py

+        (self.vocab_start_index, self.vocab_end_index) = (
+            VocabUtility.vocab_range_from_global_vocab_size(
+                self.num_embeddings, get_pg_rank(self.embedding_parallel_group), get_pg_size(self.embedding_parallel_group)
+            )


flagscale/models/megatron/engram/multi_head_embedding.py

+                    rank=get_pg_rank(self.tp_group),
+                    world_size=get_pg_size(self.tp_group),


flagscale/models/megatron/engram/multi_head_embedding.py

+        input_ids = input_ids.view(-1)
+        routing_map = input_ids // self.num_embeddings_per_partition
+        # [num_partitions], number of tokens assigned to each partition from the current rank's input.
+        num_tokens_per_partition = torch.histc(routing_map, bins=self.embedding_parallel_size, min=0, max=self.embedding_parallel_size)


flagscale/train/megatron/training/arguments_fs.py

+                    warnings.warn(f"[rank0]: We do not recomend using allreduce for engram embedding, this is deprecated and will be removed in later version.", DeprecationWarning)
+                if self.args.engram_embedding_parallel_size is not None:


flagscale/train/megatron/train_engram.py

+        if parallel_state.get_tensor_model_parallel_rank() == 0:
+            torch.distributed.broadcast(batch["tokens"], src=parallel_state.get_tensor_model_parallel_src_rank(), group=parallel_state.get_tensor_model_parallel_group())
+        else:
+            tokens = torch.empty_like(batch["labels"])


flagscale/models/megatron/engram/multi_head_embedding.py

+        self,
+        prefix: str = '',
+        sharded_offsets: Tuple[Tuple[int, int, int]] = (),
+        metadata: Optional[dict] = None,** kwargs,


flagscale/train/megatron/training/arguments_fs.py

+            assert not self.args.use_megatron_fsdp, "Megatron FSDP does not be supported yet, looking forward to later version."
+            assert not self.args.init_model_with_meta_device, "Init_model_with_meta_device does not be supported yet, looking forward to later version."


examples/deepseek_v3/conf/train_engram.yaml

+    backend: torchrun
+    nnodes: 3
+    nproc_per_node: 8
+    hostfile: hostfile # Select an available hostfile. Like ip_1 slosts=8\nip_2 slost=8...


lxd-cumt

LGTM

…timizer.

…engram

…l and offload to be enabled simultaneously.

LiJunscs requested review from aoyulong, heavyrain-lzy and zhaoyinglia as code owners March 12, 2026 11:27

LiJunscs force-pushed the deepseek_related branch from 31717c0 to e6509b7 Compare March 13, 2026 02:55

LiJunscs added 7 commits March 13, 2026 11:09

Optimization of Engram.

f80f446

1. All2All when compute embeddings. 2. Precompute multi_head_embedding.

[train] feat: update DeepSeek Engram 27B example yaml

b39df19

[train] chore: move engram directory to follow the main

4c041e8

[train] chore: delete no use files

ae8cae3

[train] fix: error path of engram_config

ebe55a3

Merge branch 'pr-1107' into optimize_engram

422805f

[train] fix: format of some files

c7d57c3

LiJunscs force-pushed the deepseek_related branch from e6509b7 to c7d57c3 Compare March 13, 2026 03:17

LiJunscs added 3 commits March 13, 2026 11:29

[train] chore: update train_engram.yaml example

1518a2f

[train] fix: bug of saving and loading sharded_state_dict of Engram

1127291

[train] chore: remove useless print

fe153f2

zhaoyinglia requested review from Copilot and lxd-cumt March 16, 2026 01:45

Copilot started reviewing on behalf of zhaoyinglia March 16, 2026 01:46 View session

Copilot AI reviewed Mar 16, 2026

View reviewed changes

lxd-cumt previously approved these changes Mar 16, 2026

View reviewed changes

[train]: fix: fix some corner case of engram.

1970041

LiJunscs dismissed lxd-cumt’s stale review via 1970041 March 16, 2026 12:36

zhaoyinglia and others added 5 commits March 17, 2026 14:48

Merge branch 'main' into deepseek_related

efb036a

[train]: fix: fix the bug of engram loss when embedding with a new op…

3f061c9

…timizer.

Merge remote-tracking branch 'origin/deepseek_related' into optimize_…

9f8abac

…engram

[train]: fix: fix bug of log param norm of engram.

9ff1318

[train]: feat: update the offload logic of engram, allow both paralle…

f8d94ee

…l and offload to be enabled simultaneously.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Deepseek Engram optimization.#1147

Deepseek Engram optimization.#1147
LiJunscs wants to merge 16 commits intoflagos-ai:mainfrom
LiJunscs:deepseek_related

LiJunscs commented Mar 12, 2026

Uh oh!

CLAassistant commented Mar 12, 2026 •

edited

Loading

Uh oh!

Copilot AI left a comment

Uh oh!

lxd-cumt left a comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

		rank=get_pg_rank(self.tp_group),
		world_size=get_pg_size(self.tp_group),

		warnings.warn(f"[rank0]: We do not recomend using allreduce for engram embedding, this is deprecated and will be removed in later version.", DeprecationWarning)
		if self.args.engram_embedding_parallel_size is not None:

		assert not self.args.use_megatron_fsdp, "Megatron FSDP does not be supported yet, looking forward to later version."
		assert not self.args.init_model_with_meta_device, "Init_model_with_meta_device does not be supported yet, looking forward to later version."

Conversation

LiJunscs commented Mar 12, 2026

PR Category

PR Types

PR Description

Uh oh!

CLAassistant commented Mar 12, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull request overview

Reviewed changes

Uh oh!

lxd-cumt left a comment

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

CLAassistant commented Mar 12, 2026 •

edited

Loading