AI的進化離不開高品質學習數據的確保。然而,近年來,據稱互聯網上的數據已經被用盡,許多AI企業正在探索新的數據供應方法。
這次,我們將介紹其背景、企業的舉措以及創作者應注意的要點。
學習數據的枯竭與合成數據的利用
近年來,伊隆·馬斯克指出「在AI訓練中,人類知識的累積已經被用盡」。為了解決這一數據枯竭問題,許多企業開始利用「合成數據」。
合成數據是指AI自身生成的數據再次用於訓練的方法,但也存在數據質量下降、AI精度降低的風險。
合成數據的生成與照片作品的影響
為應對這一數據不足,〈東芝〉等企業正在開發從少量實際圖像訓練AI模型的技術。另一方面,〈微軟〉和〈Meta〉等公司正在利用合成數據,推進AI自身生成數據的再學習嘗試。
然而,特別是在照片數據的情況下,僅靠合成數據難以再現真實的質感和構圖,因此對高品質實際照片數據的依賴度依然很高。這導致過去的照片數據被大量使用的趨勢。
創作者應注意的權利保護與對策
作為AI學習數據,創作者的作品經常被使用,著作權和倫理問題浮現。了解自己的作品是否被用於AI學習,並在必要時進行權利保護的手續是很重要的。
此外,隨著AI生成內容的增加,原創性的價值也在重新評估。