docs: https://guide.ncloud-docs.com/docs/ai-clova-nsml-1-1

nsml: 네이버 클라우드 플랫폼의 머신러닝용 GPU 리소스 제공 서비스

(2023년4월 기준 NIPA의 고성능 컴퓨팅 사업에 지원한 기업 or 단체에 한정적으로 제공)

putty를 깔으셔야 합니다.

Mac PuTTY 설치 한 방에 끝내기 - 맥 푸티 오류 해결방법 - 인공지능

sudo: port: command not found 해결하기

사전지식

architecture

Untitled

하나의 프로젝트 안에 여러 개의 run(실험)들이 들어있으며, 하나의 run 안에는 여러 개의 node가 있음.

용어 설명

  1. node: 코드 작성 용도(notebook) 혹은 머신러닝 돌리는 용도로서 하드웨어 자원이 할당된 virtual machine 단위. 현재 사용 기준으로는 node 하나만 제공되는 듯함.
  2. run: project에서 비슷한 목적을 가진 node를 관리하는 개념. 2023년 4월 기준으로는 하나의 node를 할당받아서, node와 run을 구분하는 것은 크게 의미 없습니다.
  3. project: 실험(run)을 관리하는 최상위 개념. 크게 중요하지는 않습니다. 네이버에서 하나의 프로젝트만 할당됩니다.
  4. 저장소
    1. NAS: 경로가 /mnt/prj 인데 한 프로젝트에서 다같이 사용하는 저장소라고 생각하시면 됩니다.
    2. block storage: 하나의 node가 점유해서 사용하는 저장소. GPU node에서 학습을 진행할 때, 데이터 및 코드를 여기에 복사를 해야 하고, 학습을 진행한 후, 다시 NAS로 복사를 해야함