딥러닝 대용량 학습을 위한 구글 코랩과 클라우드 스토리지의 조합 (Google Colab with Amazon S3 | AWS Amazon EC2 EBS | Google Storage | Transfer)
글 작성자: 만렙개발자
딥러닝 학습을 위한 구글 코랩과 클라우드 스토리지의 조합에 대해서 조사해보았습니다.
갖고 있던 질문들이 있습니다.
1. Google Colab에서 학습데이터를 google drive가 아닌, cloud storage를 마운트하여 사용할 수 있는가?
- 이 질문의 목적
- google drive의 용량 한계
- 여러명이 한 저장소를 공유하기 위함
- 사용 방법
- Amazon S3 (Simple Storage Service)
- boto3를 사용하고,
- credentials을 google drive에 저장하고,
- google drive를 마운트하여 .aws에 credentials를 옮긴 후,
- s3 bucket에 접근 가능
- Amazon EBS (Elastic Block Store)
- Colab에서 접근이 안된다고 판단 됨. 방법도 찾을 수 없었음.
- 하지만 대용량 학습을 위해서는 EC2에 붙여서 사용하는 EBS 수준의 I/O가 필요할 것으로 생각됨.
- Google Storage
- Amazon S3 (Simple Storage Service)
2. Cloud Storage를 사용한다면, Google Storage, Amazon S3, Amazon EBS 중에 어떠한 것을 사용해야 하는가?
- EBS > Google Storage > S3
- EBS: EC2에 연결된 Storage이기 때문에, 상대적으로 I/O가 매우 빠름! 학습에 용이함 (Colab에서는 접근 방법을 못찾겠음.)
- Google Storage: Google Colab에서 gsutil로 쉽게 데이터를 가져올 수 있으므로 조합이 좋음
- S3: 공유하기는 가장 편리하다고 느껴지고, 많이들 사용하지만 느림! Colab에서 사용하려면, 데이터를 가져와서 저장한 다음에 사용해야함.
결론
1. 대용량 학습을 위해서는 Colab을 쓰지 말자.
- Colab Pro도 성능의 한계는 존재함
- 그 무엇보다, 네트워크 I/O의 한계가 존재함
'📚 딥딥러닝' 카테고리의 다른 글
Detectron2 trained model load (architecture and weights) from config and checkpoints (0) | 2020.05.12 |
---|---|
nvidia-smi 대신에 nvtop을 쓰자! GPU의 htop 느낌! (1) | 2020.04.04 |
[책 추천] 친절한 실전 딥러닝 수업 (0) | 2020.03.25 |
torch torchvision pytorch 설치 에러 - [MemoryError] pip isntall torch torchvision 문제 해결 (0) | 2020.03.08 |
Tensorflow GPU 설치 에러 - [MemoryError] pip isntall tensorflow-gpu 문제 해결 (1) | 2020.03.07 |
댓글
이 글 공유하기
다른 글
-
nvidia-smi 대신에 nvtop을 쓰자! GPU의 htop 느낌!
nvidia-smi 대신에 nvtop을 쓰자! GPU의 htop 느낌!
2020.04.04 -
[책 추천] 친절한 실전 딥러닝 수업
[책 추천] 친절한 실전 딥러닝 수업
2020.03.25 -
torch torchvision pytorch 설치 에러 - [MemoryError] pip isntall torch torchvision 문제 해결
torch torchvision pytorch 설치 에러 - [MemoryError] pip isntall torch torchvision 문제 해결
2020.03.08 -
Tensorflow GPU 설치 에러 - [MemoryError] pip isntall tensorflow-gpu 문제 해결
Tensorflow GPU 설치 에러 - [MemoryError] pip isntall tensorflow-gpu 문제 해결
2020.03.07