AI의 발전에는 고품질 학습 데이터 확보가 필수적입니다. 그러나 최근 인터넷상의 데이터를 다 사용했다고 하며, 많은 AI 기업이 새로운 데이터 공급 방법을 모색하고 있습니다.
이번에는 그 배경과 기업의 시도, 크리에이터가 주의해야 할 포인트를 소개합니다.
학습 데이터의 고갈과 합성 데이터의 활용
최근, 일론 머스크는 "AI 훈련에서 인류 지식의 누적을 다 사용했다"고 지적했습니다. 이 데이터 고갈 문제를 해결하기 위해 많은 기업이 "합성 데이터"를 활용하기 시작했습니다.
합성 데이터는 AI 자체가 생성한 데이터를 다시 훈련에 사용하는 방법이지만, 데이터의 질이 저하되고 AI의 정확도가 떨어질 위험도 우려되고 있습니다.
합성 데이터의 생성과 사진 작품에의 영향
이 데이터 부족에 대응하기 위해, 〈도시바〉 등의 기업은 소수의 실제 이미지로 AI 모델을 훈련하는 기술을 개발하고 있습니다. 한편, 〈마이크로소프트〉나 〈Meta〉 등은 합성 데이터를 활용하여 AI 자체가 생성한 데이터를 재학습시키는 시도를 진행하고 있습니다.
그러나 특히 사진 데이터의 경우, 합성 데이터만으로는 실제 질감이나 구도의 재현이 어렵다고 하며, 여전히 고품질의 실제 사진 데이터에 대한 의존도가 높은 상황입니다. 이로 인해 과거의 사진 데이터가 대량으로 사용되는 경향이 있습니다.
크리에이터가 주의해야 할 권리 보호와 대책
AI 학습 데이터로 크리에이터의 작품이 사용되는 경우가 많아, 저작권이나 윤리적 문제가 부각되고 있습니다. 자신의 작품이 AI 학습에 사용되고 있는지를 파악하고, 필요에 따라 권리 보호 절차를 진행하는 것이 중요합니다.
또한, AI 생성 콘텐츠의 증가에 따라, 오리지널리티의 가치가 재평가되는 움직임도 보입니다.