글 작성자: 만렙개발자

다양한 데이터셋들이 공개되어있지만, "한국"에 맞는 데이터셋을 찾기란 쉽지 않습니다.

매우 작은 규모인데도 엄청 비싼 가격에 거래가 되기도 하고, 직접 구축하기는 정말 힘들죠.

AI Hub에서는 정말 큰 예산으로 대규모 데이터셋을 구축해 공개하고 있는데요,

AI Hub에서 이번에 데이터셋을 추가적으로 공개했습니다! 갱신된 데이터셋들도 많은 것 같습니다!

 

AI Hub가 데이터셋을 공개할 때마다 그 규모가 커져가는 것 같습니다!

이 데이터셋으로 문제를 바로 해결할 수는 없겠지만, 가능성을 파악해보거나 프로토타이핑은 가능하지 않을까 합니다.

 

Table of Contents

0. AI Hub 살펴보기

1. (한국어 부문) <논문자료 요약> 데이터셋 살펴보기

2. (농축수산 분문)<고품질 과수작물 통합 데이터> 데이터셋 살펴보기

3. (영상이미지 부문) <스케치, 아이콘 인식용 다양한 추상 이미지> 데이터셋 살펴보기

4. 느낀점

0. AI Hub 살펴보기

먼저, 생각보다 데이터셋이 많아서- 하나씩 클릭해서 모두 살펴보기는 조금 힘들 것 같아요.

그래서 검색 기능을 갖추고 있더라구요!

객체별 검색이 있어서 눌러봤는데, 다음과 같이 객체데이터 관계도 라는 것이 출력되더라구요.

저는 간단히 탐구해보는 거라서, 제가 좋아하는 음식 > 디저트 이런식으로 탐색을 시작했습니다.

그래서 결국에 '음식 > 디저트 > 베이커리류 > 슈크림'을 선택했더니 (어딘가 최종 점에 도달하면) 이미지가 나타납니다!

정말 다양한 이미지들이 있어서, 그냥 웹에서 이미지 검색하는 기분이네요!

근데, 웹에서 검색한 이미지들은 저작권 이슈도 있고 해서 사용해도 괜찮은지 모르겠지만, 여기 있는 이미지는 적어도 학습에는 자유롭게 사용할 수 있을 것 같습니다!🙂

1. <논문자료 요약> 데이터셋

자연어처리의 대표적인 테스크 중에 하나가 문서 요약입니다. text summarization이라고 하는데요, 이 요약 방식은 크게 2가지로 나눠집니다. 주어진 문장들 중에 대표 문장을 찾아서 요약하는 extractive summarization과 요악문을 직접 생성하는 방식인 abstractive summarization으로 나눠집니다. 점차 인공지능 기술이 발전하면서, 상대적으로 난이도가 높은 후자의 연구개발이 진행되고 있습니다.

 

제가 살펴본 AI Hub의 <논문자료 요약> 데이터셋은 abstractive summarization 모델을 위한 데이터셋입니다. 즉, 문서 요약 데이터셋을 만드는 과정에서 단순히 주요 문장이 되는 것을 선택하는 방식이 아니라, 직접 요약문을 작성하는 형식으로 데이터셋이 구축된 것입니다. 고비용으로 노력이 많이 들어가는 것인데, 노력한 느낌이 듭니다.

이 데이터셋에는 4가지 종류의 데이터셋으로 구성되어있습니다.

  1. 학술논문-전체요약
  2. 학술논문-섹션요약
  3. 특허명세서-전체요약
  4. 특허명세서-섹션요약

논문이나 특허의 경우 텍스트가 상당히 많고, 모두 읽기에는 시간이 많이 부족한데요, 이 데이터셋을 이용해서 만약 학습을 효과적으로 수행한다면 많은 텍스트를 읽고 연구개발해야하는 사람들에게 큰 도움이 될 것 같습니다.

제가 문장을 잘 요약하는 사람이 아니라서, 정성적인 평가를 할 수는 없지만, 원문에 비해서 짧은 요약문임은 분명해 보입니다 :)

추가적으로 메타 데이터도 포함되어있어서, 이를 활용할 여지도 있는 것 같습니다.

2. <고품질 과수작물 통합 데이터> 데이터셋

요즘에 스마트 팩토리, 스마트 팜과 같은 키워드들이 많이 거론되는 것 같습니다. 스타트업들이 이러한 산업에 뛰어들고 있는데요, 실제로는 농장에서 데이터셋을 구축하기란 참 어렵습니다. 왜냐하면 디지털 환경이 갖춰지기 힘든 곳이기 때문이죠. 따라서 데이터 구축에도 큰 노력이 필요하다고 생각합니다.

 

스마트 팩토리/팜 뿐만 아니라, 이러한 데이터는 물류 시스템에도 중요한 역할을 할 수 있다고 생각합니다. SSG 새벽배송, 마켓컬리나, 오아시스 등 신선식품을 빠르게 배송하는 서비스에서 과수작물의 품질은 매우 중요할 것입니다. 사람이 하나하나 확인하는 것도 쉽지 않겠죠. 어느정도 자동화가 되어있겠지만, 이런 대규모 데이터셋을 활용한다면 더욱 효과적일 것 같습니다. 또한, 사용자의 입장에서 과수작물에 어떠한 상처나 이상한 부분이 있는 것을 발견하더라도 이게 위험한 것인지, 아닌지 파악하기도 힘들고, 어느정도로 상태가 안좋은지도 판단하기 힘듭니다. 이 데이터셋을 활용하여 상태를 파악하는데도 도움이 될 여지가 있는 것 같습니다.

 

조금 아쉬운 부분이라면 과일을 다양성입니다. 감귤, 키위에 대한 데이터만 있는 게 조금 아쉽습니다.

하지만, 궤양병, 귤응애, 진딧물, 점무늬병, 총채벌레, 과실무름병 등 다양한 케이스에 대해서 데이터셋을 확보하였기에 과일의 다양성은 적지만, 질병에 대한 다양성이 어느정도 갖춰져있습니다. 이 데이터셋을 통해서 귤과 키위에 대한 분석이나 인식에 대한 효과를 보게 된다면, 이후 추가적으로 다른 과일들에 대해서도 데이터셋을 구축해나갈 여지가 있다고 생각됩니다.

평소에 과일을 마트에서 사먹다보니 이러한 질병을 마주칠 일이 잘 없었는데, 이번 기회에 좀 알게 되었습니다.

단순히 상처가 아니라, 병충해에 의한 케이스들도 있었다는 것을 알게 되었구요!

baseline model 학습 결과가 상당히 좋은 성능을 보이고 있기 때문에, 추가적인 연구가 엄청 필요할 것 같지는 않습니다.

데이터셋을 다운 받고, 가이드대로 모델만 학습하더라도 좋은 결과를 얻을 수 있을 것으로 보이며, 여러분들이 해당 모델을 바로 활용해볼 수 있을 것 같습니다!

3. <스케치, 아이콘 인식용 다양한 추상 이미지> 데이터셋

일반 이미지들에 대한 수집은 크롤링을 통해서 쉽게 확보할 수 있습니다. (라이센스 문제를 겪을 수는 있지만요)

그런데 스케치, 아이콘과 같은 추상 이미지들의 경우에는 확보하기가 쉽지 않습니다.

그림을 그리는 사람의 수준에 따라서, 어린 아이부터 아마추어, 프로까지 정말 다른 형태로 스케치와 아이콘을 그릴텐데요, 그것을 잘 구분해서 구축한 데이터셋이 바로 이 데이터셋입니다.

생각보다 데이터셋 규모가 좀 커서 놀랐습니다. 공간을 충분히 확보해두셔야합니다..!

압축도 풀어야하니까요! 제가 받은 파일은 총 37GB나 됩니다아..! 압축을 풀면 더 커지겠죠..?

모두 선택하고 전체 다운로드를 누르시면 쉽게 받으실 수 있구요! 용량이 부담되면 일부 선택 다운로드 하고, 압축 풀고 지우고, 나머지 받고- 이런 식으로 하셔야할 것 같습니다.

제가 다운받은 데이터 중 일부를 보여드리고 싶은데, 혹시 저작권(?) 이슈가 있을까봐, 샘플 데이터를 보여드립니다.

샘플 데이터 구성은 다음과 같구요!

이미지 한장 한장의 해상도가 너무 커서 놀랐습니다;; 퀄리티는 다양하네요. 설명에도 써있던 것 같은데, 컨테츠를 생산하신 분들의 전문성이 상/중/하로 나뉘어져있던 것 같아요.

저는 픽토그램에 관심이 있으니 이를 더 살펴보면,

요렇게 구성이 되어있습니다.

r_0001_101을 기반으로 만들어진 픽토그램이 p_0001_101_21725, p_0001_101_25133, p_0001_101_28220으로 3개 있는 것 같습니다.

바라보는 각도가 다르기에 pair가 오브젝트 단위로 이루어져있는 것이고, edge가 완전히 align 상태까지는 아닙니다.

4. 느낀점

데이터셋을 실제로 구축해보면, 정말 많은 고민과 문제 설정, 어떻게 활용될지에 대한 가능성, 규칙과 규격, 태깅 툴, 직원 교육 등 고려해야할 사항들이 넘쳐나더라구요. AI Hub에서 공개한 데이터셋들은 특히 그 규모가 크기 때문에, 그러한 고민들이 많이 담겨져 있는 것 같습니다. 그 데이터셋 활용이 쉽게 가능할만큼 단순한 형태도 아니라서 이를 활용하기 위해서도 큰 노력들이 필요할 것 같은데요! 수많은 데이터셋들을 통해서 많은 기업들이 기회를 가질 수 있지 않을까 생각합니다.

개인적으로는 어떤 데이터셋이 흥미로울까 하나하나 찾아보는 것만으로도 많은 시간이 들더라구요! 그래서 다양한 검색, 분류 시스템들을 준비한 것 같은 노력이 좋은 것 같습니다. 어떤 데이터셋부터 살펴봐야할지 모르겠다 하시는 분들은, 인기순으로 살펴보셔도 좋을 것 같습니다!

 

그리고, 꼭 데이터셋을 사용하는 목적이 아니더라도, 머신러닝 문제를 정의하는 방법이나, 데이터셋을 구축하는 방법을 배우는데에도 도움이 될 것 같다고 생각이들더라구요. 단순히 데이터만 있는 것이 아니라, 그것을 어떠한 문제에 활용할 수 있는지, 어떻게 구축했는지에 대한 것이 영상으로 다 소개가 되고 있는 것을 보면- 다각도로 도움이 많이 될 것 같습니다.

앞으로도 유지보수가 잘 되고, 모두가 만족하며 사용할 수 있는 데이터셋으로 버전이 올라가길 기대합니다!

 

자료 출처: AI Hub