Thời gian gần đây, Elon Musk đã đưa ra một quan điểm mạnh mẽ và gây chú ý khi thừa nhận rằng chúng ta đã gần như kiệt quệ dữ liệu từ thế giới thực để đào tạo các mô hình trí tuệ nhân tạo (AI). Trong một cuộc trò chuyện trực tiếp với Mark Penn, chủ tịch Stagwell, Musk đã chia sẻ rằng “Chúng ta đã tích lũy gần như toàn bộ tri thức của nhân loại… trong đào tạo AI,” và cho biết điều này đã xảy ra vào năm ngoái. Sự đồng thuận của Musk với các chuyên gia AI khác cho thấy một thách thức lớn mà ngành công nghiệp này đang phải đối mặt.
Musk không phải là người duy nhất bàn luận về chủ đề này. Trước đó, Ilya Sutskever, cựu giám đốc khoa học của OpenAI, đã có bài phát biểu tại hội nghị NeurIPS vào tháng 12, trong đó ông đã gọi tình hình hiện tại của ngành AI là “điểm đỉnh dữ liệu”. Sutskever đã chỉ ra rằng việc thiếu dữ liệu sẽ buộc ngành công nghiệp này phải thay đổi cách phát triển các mô hình AI. Mặc dù sự bùng nổ trí tuệ nhân tạo trong những năm gần đây đã cho thấy khả năng mạnh mẽ của các mô hình học máy, nhưng sự khan hiếm dữ liệu thực sự có thể khiến những nỗ lực này trở nên khó khăn hơn trong tương lai.
Theo Musk, một giải pháp khả thi là sử dụng dữ liệu tổng hợp, tức là dữ liệu được tạo ra từ chính các mô hình AI. Ông khẳng định: “Cách duy nhất để bổ sung dữ liệu thực tế là sử dụng dữ liệu tổng hợp, nơi AI sẽ tạo ra dữ liệu đào tạo.” Qua cách này, Musk hy vọng rằng AI sẽ có khả năng tự đánh giá và tự học thông qua quá trình này.
Nhiều công ty công nghệ lớn như Microsoft, Meta, OpenAI và Anthropic hiện đang áp dụng phương pháp sử dụng dữ liệu tổng hợp để đào tạo cho các mô hình AI chủ chốt của họ. Dự kiến đến năm 2024, Gartner ước tính rằng 60% dữ liệu sử dụng cho các dự án AI và phân tích sẽ được tạo ra tổng hợp. Microsoft mới đây đã công khai mã nguồn của mô hình Phi-4, được đào tạo dựa trên cả dữ liệu tổng hợp và dữ liệu thực tế. Tương tự, các mô hình Gemma của Google cũng áp dụng phương pháp này. Anthropic đã sử dụng một phần dữ liệu tổng hợp để phát triển một trong những hệ thống hiệu quả nhất của mình, Claude 3.5 Sonnet, trong khi Meta đã tinh chỉnh loạt mô hình Llama mới nhất của mình bằng dữ liệu được tạo ra bởi AI.
Việc sử dụng dữ liệu tổng hợp mang lại nhiều lợi ích, bao gồm tiết kiệm chi phí. Một công ty khởi nghiệp AI có tên Writer cho biết mô hình Palmyra X 004 của họ, được phát triển chủ yếu từ nguồn dữ liệu tổng hợp, chỉ tốn khoảng 700,000 USD để phát triển so với ước tính 4.6 triệu USD cho một mô hình tương đương từ OpenAI.
Tuy nhiên, việc sử dụng dữ liệu tổng hợp cũng không phải là không có nhược điểm. Một số nghiên cứu cho thấy dữ liệu tổng hợp có thể dẫn đến việc mô hình bị suy thoái, khiến cho mô hình trở nên kém “sáng tạo” và dễ bị định kiến trong các đầu ra, điều này cuối cùng có thể làm suy yếu chức năng của nó. Do chính các mô hình tạo ra dữ liệu tổng hợp, nên nếu các mô hình này được đào tạo trên dữ liệu có nhiều định kiến và hạn chế, các đầu ra của chúng cũng sẽ bị ảnh hưởng tương tự.
Mặc dù vậy, việc đi tìm kiếm cách tiếp cận mới trong việc sử dụng dữ liệu tổng hợp nhằm duy trì năng lực phát triển của AI được xem là bước đi quan trọng trong giai đoạn mà nguồn dữ liệu từ thế giới thực ngày càng trở nên khan hiếm. Điều này cho thấy rằng ngành công nghiệp AI không chỉ cần đổi mới về mặt công nghệ mà còn cần phải thay đổi cả trong quản lý và phát triển dữ liệu để đảm bảo rằng tương lai của AI vẫn sáng lạn.