Skip to content

Conversation

@dongmin-ra
Copy link
Collaborator

@dongmin-ra dongmin-ra commented Oct 1, 2025

dispatch/combine이 반복적으로 수행될 때, 간헐적으로 dispatch의 결과가 깨지는 문제를 해결한 PR 입니다.

테스트케이스를 추가했습니다.

  • mi300-5 및 6에선 아래 커맨드를 수행해서 테스트 가능합니다.
    • 참고로 MORI_RDMA_DEVICES=^mlx5_1는 해당 nic를 제외하는 커맨드입니다.
  • 싱글 노드로 테스트 해야합니다
    • 내부적으로 MORI_DISABLE_P2P 환경변수를 켜서 싱글 노드 내 rdma를 통해 통신하도록 강제합니다.
MORI_RDMA_DEVICES=^mlx5_1 pytest ./tests/python/ops/test_dispatch_combine_internode_inconsistency.py -s

Copy link

@junleemoreh junleemoreh left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

좋아 보입니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

4 participants