magazine
2025.01.14

AI学习数据的枯竭与企业的新举措 | Focus #387

2025-01-ai-photo-training-data-rights-cover-image

Cover photo takitokk

AI的进化离不开高质量学习数据的保障。然而,近年来,互联网数据被认为已被用尽,许多AI企业正在探索新的数据供应方法。

这次,我们将介绍其背景、企业的举措以及创作者需要注意的要点。

学习数据的枯竭与合成数据的利用

近年来,埃隆·马斯克指出“在AI训练中,人类知识的积累已被耗尽”。为解决这一数据枯竭问题,许多企业开始利用“合成数据”。

合成数据是指AI自身生成的数据再次用于训练的方法,但也存在数据质量下降、AI精度降低的风险。

2025-01-ai-photo-training-data-rights-image-4

合成数据的生成与摄影作品的影响

为应对这一数据不足,〈东芝〉等企业正在开发从少量真实图像中训练AI模型的技术。同时,〈微软〉和〈Meta〉等公司正在尝试利用合成数据,让AI自身生成的数据进行再学习。

2025-01-ai-photo-training-data-rights-image-7

然而,特别是在摄影数据的情况下,仅靠合成数据难以再现真实的质感和构图,依然对高质量真实照片数据的依赖度较高。这导致过去的照片数据被大量使用的趋势。

创作者需要注意的权利保护与对策

作为AI学习数据,创作者的作品经常被使用,版权和伦理问题浮出水面。了解自己的作品是否被用于AI学习,并在必要时进行权利保护程序是重要的。

此外,随着AI生成内容的增加,原创性的价值也在重新评估。