-
Notifications
You must be signed in to change notification settings - Fork 62
Description
안녕하세요, FastMRI Challenge 조교 김진수입니다.
메일로도 안내드렸듯, 최근 참가자 분들께서 GPU 서버 내 workspace를 생성/이용하시면서 여러 issue가 발생하고 있습니다. 본 공지에서는 이에 대한 원인, 해결책을 정리하고자 합니다.
-
workspace pending
현재, Vessl에서 workspace 삭제 이전에 volume을 먼저 삭제할 경우 workspace 삭제가 정상적으로 진행되지 않는 버그가 있습니다. 이는 workspace pending 관련문의 #310 과 같은 workspace 생성 시 pending 문제의 주요 요인으로 추정됩니다. (310에서 이슈 답글로 달지 말아주세요)
해당 이슈 발생 시 Vessl 측에서 직접 처리를 진행해야 하기에 처리가 오래걸릴 수 있습니다. (조교가 직접 해결 불가)
volume을 삭제하고자 할 경우, 연결된 workspace를 모두 삭제한 이후 volume을 삭제해주시기 바랍니다.이미 실행 중인 workspace가 있을 때 workspace를 추가로 만들어도 pending 상태에 머무르게 됩니다. (FAQ 참고)
팀원 중 한 분이 workspace를 만드셨다면, 다른 팀원 분께서는 workspace를 추가로 만들지 마시고 해당 workspace를 공유하여 사용하시기 바랍니다. -
dataset 수정/삭제 등
GPU 서버에 저장된 dataset 파일들을 수정/삭제하지 않도록 주의해주세요.
workspace의 Data 폴더는 서버에 저장된 Dataset에 곧바로 mount되어있기 때문에, 수정/삭제로 원본이 손실되면 Dataset을 재업로드해야 합니다.- 코드 내에서 dataset 파일을 불러올 때는
h5py.File('example.h5', 'r')처럼 read-only로 읽어주세요. - terminal이나 jupyterlab의 파일 탐색기로
/root/Data내 파일/폴더를 확인할 때는 수정/삭제 관련 작업을 하지 않도록 유의해주세요. - Data 폴더는 읽기전용으로 사용하시기 바라며 쓰기권한을 사용하여 문제가 생긴경우의 처리는 후순위가 됨을 전달드립니다. (Data 폴더에 파일을 추가로 작성하여 생기는 문제 또한 포함합니다.)
- 코드 내에서 dataset 파일을 불러올 때는
-
workspace 공유
7월 9일, vessl에 access control 기능이 업데이트 됨에 따라, workspace를 팀원과 공유하기 위해서는 workspace를 만든 당사자가 access control에 다른 팀원을 추가하셔야 합니다. -
The node was low on resource
해당 노드의 스토리지가 거의 가득 차 있는 경우 문제가 발생합니다. 현재 노드당 사용 가능한 디스크 용량은 약 40~50GB 수준인 것으로 확인됩니다. 해당 부분에 대한 주의가 필요합니다.
Augmented Dataset 등을 workspace 내에서 생성할 시, 이를 초과하여 workspace가 실행 중지될 가능성이 있으므로 유의해주시면 감사하겠습니다.
감사합니다.
김진수 드림