Một báo cáo mới đây cho thấy mô hình AI Sora text-to-video của OpenAI có thể đã được huấn luyện bằng nội dung từ các trò chơi điện tử, tạo nên nguy cơ tiềm ẩn về các vụ kiện tụng liên quan đến bản quyền. Sora AI gần đây đã được OpenAI phát hành rộng rãi trong khuôn khổ “12 ngày shipmas,” tuy nhiên vẫn chỉ giới hạn cho người dùng ChatGPT Pro và Plus.
Mặc dù công cụ tạo video mới này thể hiện đẳng cấp riêng, OpenAI thừa nhận rằng mô hình Sora vẫn gặp khó khăn trong việc tạo ra các video phức tạp dài lâu. Điểm đặc biệt là mô hình này có thể đã được huấn luyện trên nội dung từ các trò chơi như Minecraft, Super Mario Bros, Call of Duty, Counter-Strike và một phiên bản từ thập niên 90 của Ninja Rùa Teenage Mutant.
Điều thú vị hơn, ngoài các trò chơi điện tử, nội dung từ Twitch cũng có thể đã được sử dụng để huấn luyện mô hình này. Ví dụ, có một số video AI tạo ra có sự hiện diện của các streamer nổi tiếng trên Twitch như Raúl Álvarez Genes, cho thấy rằng nền tảng này có thể đã trở thành một phần của bộ tài liệu huấn luyện Sora.
Để tránh vấn đề bản quyền, OpenAI đã sử dụng hệ thống lọc gắt gao nhằm tránh các yêu cầu tạo video từ nhân vật sở hữu thương hiệu. Tuy nhiên, việc tạo ra các video mang tính cách tân cũng khiến OpenAI và Microsoft đối mặt với nhiều vụ kiện bằng chứng về vi phạm bản quyền gần đây.
CEO OpenAI, Sam Altman, đã từng thừa nhận rằng phát triển các công cụ như ChatGPT không thể thiếu nội dung có bản quyền, cho rằng luật bản quyền không cấm sử dụng nội dung này để huấn luyện các mô hình AI.
Nhiều người, bao gồm YouTuber nổi tiếng Marques Brownlee, đã bày tỏ lo ngại về nguồn gốc tài liệu huấn luyện của Sora. Trong một video do AI tạo ra, có sự xuất hiện của cây cảnh mà Brownlee nhận ra từ các video của mình, đặt ra câu hỏi liệu video của anh có nằm trong nguồn dữ liệu huấn luyện của Sora hay không.
Bà Mira Murati, cựu CTO của OpenAI, từng được hỏi liệu Sora có được huấn luyện trên nội dung từ YouTube, Instagram và Facebook hay không, nhưng chỉ đưa ra câu trả lời rằng mô hình được đào tạo dựa trên dữ liệu có sẵn công khai cùng với dữ liệu được cấp phép từ các nguồn như Shutterstock. OpenAI cũng không đưa ra bình luận nào về những phát hiện của TechCrunch ngoài việc sẽ “kiểm tra lại với nhóm phát triển.”