Gần đây, Anthropic đã công bố một tính năng mới mang tên Citations, nhằm cải thiện khả năng truy xuất thông tin trong những mô hình AI của họ, đặc biệt là Claude. Tính năng này sẽ liên kết các phản hồi của Claude với các tài liệu nguồn cụ thể, giảm thiểu lỗi sai hay còn gọi là “halluination”. Với Citations, các nhà phát triển có thể thêm tài liệu vào cửa sổ bối cảnh của Claude, từ đó mô hình tự động trích dẫn các đoạn văn bản mà nó sử dụng để tạo ra câu trả lời.
Theo tuyên bố của Anthropic, khi Citations được kích hoạt, API sẽ xử lý các tài liệu nguồn do người dùng cung cấp, bao gồm cả PDF và tập tin văn bản, chia nhỏ chúng thành các câu. Những câu này, cùng với bối cảnh do người dùng cung cấp, sẽ được gửi đến mô hình cùng với truy vấn của người dùng. Tính năng này hứa hẹn sẽ giúp ích trong các trường hợp như tóm tắt hồ sơ vụ án với các điểm chính có liên kết nguồn, trả lời câu hỏi từ các tài liệu tài chính với các tham chiếu đã được truy tìm, cũng như hỗ trợ các hệ thống phản hồi dịch vụ khách hàng với thông tin chi tiết từ tài liệu sản phẩm.
Trong thử nghiệm nội bộ của mình, Anthropic cho biết tính năng này đã cải thiện độ chính xác trong việc nhớ lại thông tin lên tới 15% so với các cách thức sử dụng trích dẫn do người dùng tự tạo. Mặc dù mức tăng này không quá ấn tượng, nhưng nó vẫn thu hút sự quan tâm của các nhà nghiên cứu AI như Simon Willison nhờ vào việc tích hợp các kỹ thuật Generative Retrieval Augmented (RAG). Trong một bài viết trên blog của mình, Willison giải thích lý do mà các tính năng trích dẫn lại quan trọng. Ông nhấn mạnh rằng mô hình phải có khả năng lấy những phần tài liệu liên quan đến câu hỏi của người dùng và trả lời dựa trên những đoạn văn bản đó. Tuy nhiên, vẫn có rủi ro rằng mô hình có thể trả lời dựa trên thông tin khác từ dữ liệu đào tạo hoặc đôi khi hoàn toàn sai lệch.
Willison lưu ý rằng việc trích dẫn nguồn tài liệu giúp tăng cường tính xác thực, nhưng việc xây dựng một hệ thống có khả năng thực hiện tốt điều này vẫn gặp nhiều thách thức. Tuy nhiên, với Citations, có vẻ như Anthropic đã đi đúng hướng khi tích hợp trực tiếp khả năng RAG vào trong mô hình. Alex Albert, một thành viên của Anthropic, đã chia sẻ rằng Claude đã được đào tạo để trích dẫn nguồn, và với Citations, công ty mở rộng khả năng này đến các nhà phát triển. Để sử dụng Citations, người dùng chỉ cần gửi tham số mới “citations: {enabled:true}” kèm theo bất kỳ loại tài liệu nào qua API.
Công ty đã phát hành Citations cho Claude 3.5 Sonnet và Claude 3.5 Haiku thông qua cả API của Anthropic và nền tảng Vertex AI của Google Cloud, và nhận thấy rằng tính năng này đã được sử dụng thực tế. Chẳng hạn, Thomson Reuters đã thông báo rằng họ rất mong đợi việc sử dụng Citations để giảm thiểu rủi ro về “halluination” cũng như gia tăng độ tin cậy trong nội dung do AI tạo ra. Bên cạnh đó, một công ty công nghệ tài chính có tên Endex cũng cho biết tính năng Citations đã giảm thiểu các trường hợp sai lệch từ nguồn tài liệu trong câu trả lời từ 10% xuống còn 0% và tăng số lần tham chiếu trong mỗi câu trả lời lên 20%. Tuy nhiên, bất chấp những tuyên bố này, vẫn có những rủi ro khi phụ thuộc vào bất kỳ mô hình ngôn ngữ lớn nào để truyền đạt chính xác thông tin tham khảo cho đến khi công nghệ này được nghiên cứu và chứng minh rõ ràng.
Anthropic dự kiến sẽ tính phí người dùng theo cách tính giá token tiêu chuẩn của họ, nhưng các đoạn văn bản được trích dẫn trong câu trả lời sẽ không tính vào phí token đầu ra. Một tham khảo tài liệu dài 100 trang sẽ có chi phí khoảng 0.30 USD với Claude 3.5 Sonnet hoặc 0.08 USD với Claude 3.5 Haiku, theo giá API tiêu chuẩn của Anthropic.