AIの進化には高品質な学習データの確保が欠かせません。しかし近年、インターネット上のデータを使い尽くしたとされ、多くのAI企業が新たなデータ供給方法を模索しています。
今回は、その背景と、企業の取り組み、クリエイターが注意すべきポイントをご紹介します。
学習データの枯渇と合成データの活用
近年、イーロン・マスク氏は「AIの訓練において人類の知識の累積を使い果たした」と指摘しています。このデータ枯渇問題を解決するため、多くの企業が「合成データ」を活用し始めています。
合成データとはAI自身が生成したデータを再度訓練に使用する手法ですが、データの質が劣化し、AIの精度が低下するリスクも懸念されています。
合成データの生成と写真作品への影響
このデータ不足に対応するため、〈東芝〉などの企業は少数の実画像からAIモデルを訓練する技術を開発しています。一方で、〈マイクロソフト〉や〈Meta〉などは合成データを活用し、AI自身が生成したデータを再学習させる試みを進めています。
しかし、特に写真データの場合、合成データだけではリアルな質感や構図の再現が難しいとされ、依然として高品質な実写真データへの依存度は高い状況です。これにより、過去の写真データが大量に使用される傾向があります。
クリエイターが注意すべき権利保護と対策
AI学習データとしてクリエイターの作品が利用されることも多く、著作権や倫理的な課題が浮上しています。自分の作品がAIの学習に使用されているかを把握し、必要に応じて権利保護の手続きを行うことが重要です。
また、AI生成コンテンツの増加に伴い、オリジナリティの価値が再評価される動きも見られます。