글 작성자: 만렙개발자

딥러닝 학습을 위한 구글 코랩과 클라우드 스토리지의 조합에 대해서 조사해보았습니다.

갖고 있던 질문들이 있습니다.

 

1. Google Colab에서 학습데이터를 google drive가 아닌, cloud storage를 마운트하여 사용할 수 있는가?

  • 이 질문의 목적
    • google drive의 용량 한계
    • 여러명이 한 저장소를 공유하기 위함
  • 사용 방법

 

2. Cloud Storage를 사용한다면, Google Storage, Amazon S3, Amazon EBS 중에 어떠한 것을 사용해야 하는가?

  • EBS > Google Storage > S3
  • EBS: EC2에 연결된 Storage이기 때문에, 상대적으로 I/O가 매우 빠름! 학습에 용이함 (Colab에서는 접근 방법을 못찾겠음.)
  • Google Storage: Google Colab에서 gsutil로 쉽게 데이터를 가져올 수 있으므로 조합이 좋음
  • S3: 공유하기는 가장 편리하다고 느껴지고, 많이들 사용하지만 느림! Colab에서 사용하려면, 데이터를 가져와서 저장한 다음에 사용해야함.

결론

1. 대용량 학습을 위해서는 Colab을 쓰지 말자.

  • Colab Pro도 성능의 한계는 존재함
  • 그 무엇보다, 네트워크 I/O의 한계가 존재함