in

Hugging Face clone OpenAI’s deep research chỉ trong 24 giờ

Vào thứ Ba vừa qua, nhóm nghiên cứu của Hugging Face đã ra mắt một ứng dụng AI mã nguồn mở có tên gọi “Open Deep Research”, được phát triển chỉ sau 24 giờ kể từ khi OpenAI giới thiệu tính năng Deep Research, cho phép tự động duyệt web và tạo báo cáo nghiên cứu. Mục tiêu của proyek này không chỉ nhằm tái tạo hiệu suất của Deep Research, mà còn để công nghệ này trở nên dễ dàng tiếp cận hơn với cộng đồng lập trình viên.

Hugging Face nhấn mạnh rằng trong khi các mô hình ngôn ngữ lớn (LLM) hiện các rất mạnh mẽ đang có sẵn, nhưng OpenAI đã không công bố nhiều thông tin về cấu trúc tác nhân (agentic framework) của sản phẩm Deep Research. Do đó, họ đã quyết tâm thực hiện một thách thức kéo dài 24 giờ để tái tạo kết quả của họ và công bố mã nguồn của khuôn khổ tương ứng.

Giống như cả hai sản phẩm Deep Research của OpenAI và bản triển khai của Google sử dụng Gemini (ban đầu được giới thiệu vào tháng 12 năm trước), giải pháp của Hugging Face đã thêm vào một cấu trúc “agent” cho mô hình AI hiện có, cho phép nó thực hiện các tác vụ đa bước, như thu thập thông tin và xây dựng báo cáo trình bày cho người dùng.

Chỉ sau một ngày làm việc, Open Deep Research đã đạt độ chính xác 55.15% trên bài kiểm tra GAIA (General AI Assistants), kiểm tra khả năng của mô hình AI trong việc thu thập và tổng hợp thông tin từ nhiều nguồn khác nhau. Trong khi đó, OpenAI’s Deep Research ghi được 67.36% độ chính xác trên cùng một bài kiểm tra.

Để trả lời một câu hỏi phức tạp trong GAIA, như việc xác định những trái cây nào trong bức tranh “Thêu từ Uzbekistan” năm 2008 được phục vụ trong thực đơn bữa sáng tháng 10 năm 1949 cho một tàu thủy mà sau đó đã được sử dụng làm đạo cụ trong bộ phim “The Last Voyage”, tác nhân AI phải thu thập thông tin từ nhiều nguồn khác nhau và kết hợp chúng thành một câu trả lời hợp lý. Nhiều câu hỏi trong GAIA không phải là dễ dàng, ngay cả đối với con người, nên việc kiểm tra khả năng của AI tác nhân là cực kỳ có giá trị.

Chọn mô hình AI cốt lõi là rất quan trọng cho bất kỳ tác nhân AI nào. Hiện tại, Open Deep Research xây dựng trên các mô hình ngôn ngữ lớn của OpenAI như GPT-4o hoặc các mô hình lý luận giả lập (như o1 và o3-mini) thông qua API. Dù vậy, nó cũng có thể được điều chỉnh để tương thích với các mô hình AI có trọng số mở. Điều mới ở đây là cấu trúc tác nhân giữ mọi thứ lại với nhau và cho phép một mô hình ngôn ngữ AI hoàn thành nhiệm vụ nghiên cứu một cách tự động.

Chúng tôi đã có cuộc trao đổi với Aymeric Roucher, người dẫn dắt dự án Open Deep Research của Hugging Face, về lựa chọn mô hình AI của họ. “Chúng tôi không sử dụng mô hình có trọng số công khai vì chúng tôi đã thử nghiệm với mô hình có trọng số đóng nhưng theo tình huống cụ thể, nó hoạt động tốt. Chúng tôi sẽ giải thích toàn bộ quy trình phát triển và trình bày mã nguồn”, Roucher cho biết.

Điều quan trọng là xây dựng lớp tác nhân phù hợp, vì các bài kiểm tra cho thấy cách tiếp cận đa bước rất quan trọng trong việc cải thiện khả năng của mô hình ngôn ngữ lớn. Ví dụ như GPT-4o của OpenAI cũng chỉ đạt trung bình 29% trên bài kiểm tra GAIA so với Deep Research của OpenAI ghi 67%.

Thời điểm này, các phát triển trong Open Deep Research vẫn đang trong giai đoạn hoàn thiện, với tiềm năng mở rộng hỗ trợ nhiều định dạng tệp và khả năng duyệt web dựa trên hình ảnh trong tương lai. Từ khi ra mắt, phản hồi từ cộng đồng lập trình viên cho dự án này đã rất tích cực, giúp đội ngũ phát triển quốc tế cải thiện và mở rộng các khả năng của sản phẩm này.

Dự án này không chỉ cho thấy khả năng tái tạo và chia sẻ nhanh chóng các khả năng AI mà trước đây chỉ có thể truy cập thông qua các nhà cung cấp thương mại, mà còn chứng tỏ rằng cộng đồng nghiên cứu có thể nhanh chóng nắm bắt và phát triển những công nghệ mới một cách công khai.

Written by Linh Nguyễn

0 0 votes
Article Rating
Subscribe
Notify of
guest

0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments