[Feature] Add --mg-fl-prefer argument for Megatron-LM-FL vendor selection (#1183)

lihongyang1990 · web-flow · commit 142d3eaa3085 · 2026-04-03T17:33:40.000+08:00
## Summary

- Add `--mg-fl-prefer` CLI argument to select the preferred vendor
backend (`cuda`/`musa`/`txda`) for Megatron-LM-FL plugin override
dispatch
- Sync the argument value to the `MG_FL_PREFER` environment variable at
training startup, following the same pattern as `--te-fl-prefer` /
`TE_FL_PREFER`
- Rename the argument group from "flagscale transformer engine fl" to
"flagscale fl" to reflect the broader scope

## Changes

### `flagscale/train/megatron/training/arguments_fs.py`
- Add `--mg-fl-prefer` argument with choices `['cuda', 'musa', 'txda']`,
default empty string
- Rename argument group title to "flagscale fl"

### `flagscale/train/megatron/training/training.py`
- Sync `args.mg_fl_prefer` to `os.environ['MG_FL_PREFER']` in
`pretrain()`, alongside the existing `TE_FL_PREFER` sync logic

## Usage

CLI:
```bash
python train.py --mg-fl-prefer musa --te-fl-prefer reference
```

YAML config:
```yaml
model:
  mg_fl_prefer: musa
  te_fl_prefer: reference
```

## Test plan

- [ ] Verify `--mg-fl-prefer musa` sets `MG_FL_PREFER=musa` in the
environment
- [ ] Verify omitting `--mg-fl-prefer` does not set `MG_FL_PREFER`
- [ ] Verify invalid values are rejected by argparse choices validation
- [ ] Verify compatibility with existing `--te-fl-prefer` argument
diff --git a/flagscale/train/megatron/training/arguments_fs.py b/flagscale/train/megatron/training/arguments_fs.py
@@ -765,7 +765,9 @@ def _add_regularization_args(parser):
 
 
 def _add_flagos_args(parser):
-    group = parser.add_argument_group(title="flagscale transformer engine fl")
+    group = parser.add_argument_group(title="flagscale fl")
+    group.add_argument('--mg-fl-prefer', type=str, choices=['cuda', 'musa', 'txda'], default='',
+                       help='Backend selection for megatron fl.')
     group.add_argument('--te-fl-prefer', type=str, choices=['flagos', 'vendor', 'reference'], default='vendor',
                        help='Backend selection for transformer engine fl.')
     group.add_argument('--te-fl-per-op', type=str, default=None,
diff --git a/flagscale/train/megatron/training/training.py b/flagscale/train/megatron/training/training.py
@@ -805,6 +805,8 @@ def pretrain(
 
     ###### FlagScale Begin ######
     args = get_args()
+    if args.mg_fl_prefer:
+        os.environ['MG_FL_PREFER'] = args.mg_fl_prefer
     # enable flagos:triton / vendor:cuda / reference:torch backend for transformer engine fl
     if args.te_fl_prefer:
         os.environ['TE_FL_PREFER'] = args.te_fl_prefer