Skip to content

*공지* workspace 관련 issue 정리 (pending 등, 7/16 updated) #315

@B0neh3ad

Description

@B0neh3ad

안녕하세요, FastMRI Challenge 조교 김진수입니다.

메일로도 안내드렸듯, 최근 참가자 분들께서 GPU 서버 내 workspace를 생성/이용하시면서 여러 issue가 발생하고 있습니다. 본 공지에서는 이에 대한 원인, 해결책을 정리하고자 합니다.

  1. workspace pending
    현재, Vessl에서 workspace 삭제 이전에 volume을 먼저 삭제할 경우 workspace 삭제가 정상적으로 진행되지 않는 버그가 있습니다. 이는 workspace pending 관련문의 #310 과 같은 workspace 생성 시 pending 문제의 주요 요인으로 추정됩니다. (310에서 이슈 답글로 달지 말아주세요)
    해당 이슈 발생 시 Vessl 측에서 직접 처리를 진행해야 하기에 처리가 오래걸릴 수 있습니다. (조교가 직접 해결 불가)
    volume을 삭제하고자 할 경우, 연결된 workspace를 모두 삭제한 이후 volume을 삭제해주시기 바랍니다.

    이미 실행 중인 workspace가 있을 때 workspace를 추가로 만들어도 pending 상태에 머무르게 됩니다. (FAQ 참고)
    팀원 중 한 분이 workspace를 만드셨다면, 다른 팀원 분께서는 workspace를 추가로 만들지 마시고 해당 workspace를 공유하여 사용하시기 바랍니다.

  2. dataset 수정/삭제
    GPU 서버에 저장된 dataset 파일들을 수정/삭제하지 않도록 주의해주세요.
    workspace의 Data 폴더는 서버에 저장된 Dataset에 곧바로 mount되어있기 때문에, 수정/삭제로 원본이 손실되면 Dataset을 재업로드해야 합니다.

    • 코드 내에서 dataset 파일을 불러올 때는 h5py.File('example.h5', 'r')처럼 read-only로 읽어주세요.
    • terminal이나 jupyterlab의 파일 탐색기로 /root/Data 내 파일/폴더를 확인할 때는 수정/삭제 관련 작업을 하지 않도록 유의해주세요.
    • Data 폴더는 읽기전용으로 사용하시기 바라며 쓰기권한을 사용하여 문제가 생긴경우의 처리는 후순위가 됨을 전달드립니다. (Data 폴더에 파일을 추가로 작성하여 생기는 문제 또한 포함합니다.)
  3. workspace 공유
    7월 9일, vessl에 access control 기능이 업데이트 됨에 따라, workspace를 팀원과 공유하기 위해서는 workspace를 만든 당사자가 access control에 다른 팀원을 추가하셔야 합니다.

  4. The node was low on resource
    해당 노드의 스토리지가 거의 가득 차 있는 경우 문제가 발생합니다. 현재 노드당 사용 가능한 디스크 용량은 약 40~50GB 수준인 것으로 확인됩니다. 해당 부분에 대한 주의가 필요합니다.
    Augmented Dataset 등을 workspace 내에서 생성할 시, 이를 초과하여 workspace가 실행 중지될 가능성이 있으므로 유의해주시면 감사하겠습니다.

감사합니다.
김진수 드림

Metadata

Metadata

Assignees

No one assigned

    Labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions