Google phát hành công nghệ đánh dấu văn bản sinh bởi AI để bảo vệ nội dung

Đăng bởi: Linh Nguyễn • Ngày: 24/10/2024

Hôm nay, Google đã chính thức công bố việc phát hành công nghệ SynthID Text, một công cụ cho phép các nhà phát triển gắn dấu và phát hiện văn bản được viết bởi các mô hình AI sáng tạo. Công cụ này hiện có sẵn để tải xuống từ nền tảng AI Hugging Face và công cụ Responsible GenAI Toolkit được cập nhật của Google. Bằng cách mở mã nguồn SynthID Text, Google khẳng định mục tiêu giúp các nhà phát triển và doanh nghiệp dễ dàng nhận diện nội dung được tạo ra bởi AI của họ. Vậy SynthID Text hoạt động như thế nào?

Khi nhận một tín hiệu như “Quả yêu thích của bạn là gì?”, các mô hình sinh văn bản dự đoán “phần tử” nào có khả năng nhất sẽ theo sau — từng phần tử một lần lượt. Phần tử có thể là một ký tự hoặc từ, là nền tảng mà mô hình sáng tạo sử dụng để xử lý thông tin. Mỗi phần tử khả dĩ được gán một điểm số, thể hiện khả năng nó được đưa vào văn bản đầu ra. SynthID Text chèn thông tin bổ sung vào phân bố phần tử này bằng cách “điều chỉnh xác suất phần tử được sinh ra,” theo Google cho biết.

Google cho rằng SynthID Text, đã được tích hợp với các mô hình Gemini của họ từ mùa xuân năm nay, không làm giảm chất lượng, độ chính xác hoặc tốc độ của văn bản tạo ra, và vẫn hoạt động tốt ngay cả khi văn bản đã bị cắt xén, diễn giải hay chỉnh sửa. Tuy nhiên, Google cũng thừa nhận rằng phương pháp gắn dấu của họ còn hạn chế. Ví dụ, SynthID Text không hoạt động tốt với văn bản ngắn, văn bản đã được viết lại hay dịch từ ngôn ngữ khác, hoặc với các câu hỏi đòi hỏi sự chính xác cao.

Không chỉ riêng Google đang làm việc với công nghệ đánh dấu văn bản AI. OpenAI từ lâu đã nghiên cứu các phương pháp đánh dấu nhưng trì hoãn việc ra mắt vì những cân nhắc kỹ thuật và thương mại. Các kỹ thuật đánh dấu văn bản, nếu được áp dụng rộng rãi, có thể ngăn cản sự lây lan của các “trình phát hiện AI” không chính xác, thường báo hiệu nhầm lẫn các tiểu luận và bài viết được soạn nhạc với giọng điệu chung chung. Câu hỏi đặt ra là, liệu công nghệ này có được chấp nhận rộng rãi hay không và liệu tiêu chuẩn hoặc công nghệ của một tổ chức có thể thắng lợi hơn những người khác hay không.

Điều này càng trở nên cấp bách hơn khi chính phủ Trung Quốc đã bắt buộc phải đánh dấu nội dung sinh bởi AI, và bang California cũng đang nghiên cứu để làm điều tương tự. Với tình hình hiện tại, theo báo cáo từ Cơ quan Thực thi Pháp luật Liên minh Châu Âu, 90% nội dung trực tuyến có thể được sinh tổng hợp bởi AI vào năm 2026, dẫn đến những thách thức mới cho pháp luật trong đối phó với thông tin sai lệch, tuyên truyền, gian lận và lừa đảo. Theo một nghiên cứu của AWS, hiện nay đã có gần 60% câu trên web có khả năng được tạo ra bởi AI, nhờ sự sử dụng rộng rãi của các trình dịch AI.