magazine
2025.01.14

การขาดแคลนข้อมูลการเรียนรู้ AI และความพยายามใหม่ของบริษัท | Focus #387

2025-01-ai-photo-training-data-rights-cover-image

Cover photo takitokk

การพัฒนา AI จำเป็นต้องมีการจัดหาข้อมูลการเรียนรู้คุณภาพสูง อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา มีการกล่าวว่าข้อมูลบนอินเทอร์เน็ตถูกใช้จนหมดสิ้น ทำให้หลายบริษัท AI กำลังค้นหาวิธีการจัดหาข้อมูลใหม่

ในครั้งนี้ เราจะนำเสนอพื้นฐานของเรื่องนี้ ความพยายามของบริษัท และประเด็นที่ผู้สร้างควรระวัง

การขาดแคลนข้อมูลการเรียนรู้และการใช้ข้อมูลสังเคราะห์

ในช่วงไม่กี่ปีที่ผ่านมา อีลอน มัสก์ ได้ชี้ให้เห็นว่า "การฝึก AI ได้ใช้ความรู้ของมนุษย์จนหมดสิ้น" เพื่อแก้ปัญหาการขาดแคลนข้อมูลนี้ หลายบริษัทได้เริ่มใช้ "ข้อมูลสังเคราะห์"

ข้อมูลสังเคราะห์คือวิธีการที่ AI สร้างข้อมูลขึ้นมาใหม่เพื่อใช้ในการฝึกซ้ำ แต่ก็มีความกังวลว่าคุณภาพของข้อมูลอาจลดลงและความแม่นยำของ AI อาจลดลง

2025-01-ai-photo-training-data-rights-image-4

การสร้างข้อมูลสังเคราะห์และผลกระทบต่อผลงานภาพถ่าย

เพื่อรับมือกับการขาดแคลนข้อมูลนี้ บริษัทเช่น 〈โตชิบา〉 ได้พัฒนาเทคโนโลยีในการฝึก AI จากภาพจริงจำนวนน้อย ในขณะที่ 〈ไมโครซอฟท์〉 และ 〈Meta〉 กำลังใช้ข้อมูลสังเคราะห์และพยายามให้ AI เรียนรู้จากข้อมูลที่สร้างขึ้นเอง

2025-01-ai-photo-training-data-rights-image-7

อย่างไรก็ตาม ในกรณีของข้อมูลภาพถ่าย การใช้ข้อมูลสังเคราะห์เพียงอย่างเดียวอาจจะไม่สามารถสร้างความสมจริงหรือองค์ประกอบได้อย่างดี ทำให้ยังคงมีการพึ่งพาข้อมูลภาพถ่ายจริงคุณภาพสูงอยู่มาก ซึ่งส่งผลให้มีการใช้ข้อมูลภาพถ่ายในอดีตจำนวนมาก

สิ่งที่ผู้สร้างควรระวังเกี่ยวกับการปกป้องสิทธิ์และมาตรการ

ผลงานของผู้สร้างมักถูกใช้เป็นข้อมูลการเรียนรู้ AI ซึ่งทำให้เกิดปัญหาด้านลิขสิทธิ์และจริยธรรม การทราบว่าผลงานของตนถูกใช้ในการเรียนรู้ AI หรือไม่ และดำเนินการปกป้องสิทธิ์เมื่อจำเป็นเป็นสิ่งสำคัญ

นอกจากนี้ การเพิ่มขึ้นของเนื้อหาที่สร้างโดย AI ทำให้มีการประเมินค่าใหม่ของความเป็นต้นฉบับ