magazine
2025.01.14

Sự khan hiếm dữ liệu học AI và những nỗ lực mới của doanh nghiệp | Focus #387

2025-01-ai-photo-training-data-rights-cover-image

Cover photo takitokk

Sự tiến bộ của AI không thể thiếu việc đảm bảo dữ liệu học chất lượng cao. Tuy nhiên, gần đây, người ta cho rằng dữ liệu trên Internet đã bị sử dụng hết, nhiều công ty AI đang tìm kiếm các phương pháp cung cấp dữ liệu mới.

Lần này, chúng tôi sẽ giới thiệu bối cảnh đó, những nỗ lực của doanh nghiệp và những điểm mà các nhà sáng tạo cần chú ý.

Sự khan hiếm dữ liệu học và việc sử dụng dữ liệu tổng hợp

Gần đây, Elon Musk đã chỉ ra rằng "trong việc huấn luyện AI, chúng ta đã sử dụng hết kiến thức tích lũy của nhân loại". Để giải quyết vấn đề khan hiếm dữ liệu này, nhiều công ty đã bắt đầu sử dụng "dữ liệu tổng hợp".

Dữ liệu tổng hợp là phương pháp sử dụng dữ liệu do AI tự tạo ra để huấn luyện lại, nhưng cũng có lo ngại rằng chất lượng dữ liệu có thể suy giảm và độ chính xác của AI có thể giảm.

2025-01-ai-photo-training-data-rights-image-4

Việc tạo dữ liệu tổng hợp và ảnh hưởng đến tác phẩm nhiếp ảnh

Để đối phó với sự thiếu hụt dữ liệu này, các công ty như đang phát triển công nghệ huấn luyện mô hình AI từ một số ít hình ảnh thực. Trong khi đó, và đang tiến hành thử nghiệm sử dụng dữ liệu tổng hợp, cho phép AI tự tạo ra dữ liệu để học lại.

2025-01-ai-photo-training-data-rights-image-7

Tuy nhiên, đặc biệt là trong trường hợp dữ liệu ảnh, chỉ dữ liệu tổng hợp không thể tái hiện được kết cấu và bố cục thực tế, do đó vẫn có sự phụ thuộc cao vào dữ liệu ảnh thực chất lượng cao. Điều này dẫn đến xu hướng sử dụng nhiều dữ liệu ảnh từ quá khứ.

Bảo vệ quyền lợi và biện pháp mà các nhà sáng tạo cần chú ý

Việc sử dụng tác phẩm của các nhà sáng tạo làm dữ liệu học AI cũng rất phổ biến, và các vấn đề về bản quyền và đạo đức đang nổi lên. Việc nắm bắt xem tác phẩm của mình có được sử dụng trong học AI hay không và thực hiện các thủ tục bảo vệ quyền lợi khi cần thiết là rất quan trọng.

Hơn nữa, cùng với sự gia tăng của nội dung do AI tạo ra, giá trị của tính nguyên bản cũng đang được đánh giá lại.