Harvard vừa công bố một tập dữ liệu chất lượng cao gồm gần 1 triệu cuốn sách thuộc phạm vi công cộng, được phát hành để bất kỳ ai có thể sử dụng trong việc phát triển các mô hình ngôn ngữ lớn và các công cụ AI khác. Bộ dữ liệu này do Sáng kiến Dữ liệu của Harvard thực hiện, với sự tài trợ từ Microsoft và OpenAI. Tập hợp này bao gồm những cuốn sách được quét trong dự án Google Books và đã hết hạn bản quyền.
Được đánh giá có khối lượng lớn gấp năm lần so với tập dữ liệu Books3 nổi tiếng, cơ sở dữ liệu của Sáng kiến Dữ liệu không chỉ đa dạng về thể loại mà còn phong phú về ngôn ngữ và thời kỳ, từ các tác phẩm kinh điển của Shakespeare, Charles Dickens đến những tài liệu toán học tiếng Séc ít được biết đến. Greg Leppert, giám đốc điều hành của Sáng kiến Dữ liệu, cho biết dự án này nhằm tạo điều kiện công bằng hơn cho công chúng, kể cả các doanh nghiệp nhỏ trong ngành công nghiệp AI và các nhà nghiên cứu cá nhân.
Theo ông Leppert, cơ sở dữ liệu công cộng này có thể được sử dụng kết hợp với các tài liệu đã được cấp phép khác để xây dựng các mô hình trí thông minh nhân tạo. Ông liên tưởng cách mà hệ điều hành Linux đã trở thành nền tảng cho rất nhiều hệ thống trên thế giới. “Chúng tôi đã trải qua một quy trình đánh giá khắt khe,” ông nhấn mạnh.
Burton Davis, phó chủ tịch và phó pháp chế của Microsoft, cho biết việc hỗ trợ dự án phù hợp với tầm nhìn của Microsoft về việc tạo ra những nguồn dữ liệu dễ tiếp cận cho các startup AI sử dụng và chúng được quản lý vì lợi ích cộng đồng. Điều này không có nghĩa là Microsoft sẽ thay thế toàn bộ dữ liệu đào tạo AI của mình bằng các tài liệu công cộng mà Harvard đang cung cấp. “Chúng tôi sử dụng dữ liệu có sẵn để đào tạo các mô hình,” ông nói.
Tom Rubin, trưởng ban tài sản trí tuệ của OpenAI, diễn tả sự hân hoan khi được đóng vai trò hỗ trợ dự án này. Hiện nay, khi hàng chục vụ kiện về việc sử dụng dữ liệu có bảo hộ bản quyền để huấn luyện AI đang diễn ra, tương lai của cách xây dựng các công cụ trí thông minh nhân tạo đang treo lơ lửng. Nếu các công ty AI thắng kiện, họ có thể tiếp tục sử dụng dữ liệu từ internet mà không cần có thỏa thuận với các chủ sở hữu bản quyền. Ngược lại, nếu thua, toàn bộ quy trình xây dựng các mô hình có thể phải thay đổi.
Ngoài kho sách khổng lồ này, Sáng kiến Dữ liệu đang phối hợp với Thư viện Công cộng Boston để quét hàng triệu bài báo thuộc về phạm vi công cộng và họ sẵn sàng hợp tác với các dự án tương tự trong tương lai. Tuy chưa rõ cách thức phát hành, nhưng họ đã yêu cầu Google cùng tham gia phân phối công khai, theo Kent Walker, chủ tịch các vấn đề toàn cầu của Google.
Khi được phát hành, tập dữ liệu của Harvard sẽ gia nhập vào nền tảng của các dự án tương tự như Calliope Networks và ProRata, hứa hẹn cung cấp cho các công ty những tài liệu đào tạo AI chất lượng cao mà không phải lo lắng về vấn đề bản quyền. Đã có nhiều dự án công khai khác như Pleias của Pháp với Common Corpus, tập dữ liệu công cộng lớn nhất với sự hỗ trợ của Bộ Văn hóa Pháp, đã được tải xuống hơn 60.000 lần trên nền tảng AI mã nguồn mở Hugging Face.
Xu hướng tương tự cũng đang mở rộng sang các tập dữ liệu hình ảnh. Công ty AI Spawning đã ra mắt mùa hè này một tập hợp hình ảnh công cộng từ Wikimedia và các bảo tàng và lưu trữ khác. Với việc các tổ chức văn hóa lớn như Bảo tàng Nghệ thuật Metropolitan ở New York đã lâu công khai truy cập vào kho lưu trữ của họ, Ed Newton-Rex, cựu giám đốc Stability AI, chỉ ra rằng không cần phải xâm phạm bản quyền để xây dựng các mô hình AI chất lượng cao.
Tuy nhiên, ông cảnh báo rằng hiệu quả thực sự chỉ đến khi những tập dữ liệu này được sử dụng thay thế thông thường bằng cách kết hợp với dữ liệu có giấy phép, để tránh trộn lẫn với các tác phẩm chưa vô hình trong danh mục bảo hộ và ưu tiên lợi ích của các công ty AI.