OpenAI Thắt Chặt Minh Bạch Nội Dung: Ra Mắt Công Cụ Xác Minh Và Áp Dụng Chéo Thủy Vân SynthID

Trong bối cảnh trí tuệ nhân tạo (AI) đang trở thành một phần không thể thiếu trong giao tiếp hàng ngày, việc giúp người dùng hiểu và xác minh nguồn gốc của các phương tiện truyền thông là điều tối quan trọng. OpenAI đang nỗ lực xây dựng một hệ sinh thái tin cậy thông qua mô hình đa tầng. Tại Việt Nam, khi vấn nạn Deepfake và thông tin giả mạo đang ngày càng tinh vi, những bước đi của OpenAI trong việc chuẩn hóa dữ liệu xác thực (provenance signals) sẽ giúp người dùng có cơ sở để tin tưởng hơn vào các nội dung số trên không gian mạng. Chiến lược này không chỉ xoay quanh việc gắn nhãn đơn thuần mà còn là sự kết hợp giữa tiêu chuẩn công nghiệp và các công nghệ ẩn sâu bên trong dữ liệu.

Xây dựng hệ sinh thái tin cậy thông qua tuân thủ tiêu chuẩn C2PA

Từ đầu năm 2024, OpenAI đã bắt đầu tích hợp Thông tin xác thực nội dung (Content Credentials) vào các hình ảnh được tạo ra bởi DALL·E 3, sau đó mở rộng sang ImageGen và mô hình video Sora đầy hứa hẹn. Một bước ngoặt quan trọng là việc OpenAI gia nhập Ban điều hành của Liên minh vì Nguồn gốc và Tính xác thực của Nội dung (C2PA) - tổ chức đứng sau tiêu chuẩn kỹ thuật mở cho việc xác thực dữ liệu. Cách tiếp cận của C2PA dựa trên việc sử dụng siêu dữ liệu (metadata) và chữ ký mã hóa để thông tin về nguồn gốc có thể đi kèm một cách an toàn với chính nội dung đó. Điều này cung cấp bối cảnh quý giá cho các nhà báo kiểm chứng nguồn tin, các nền tảng mạng xã hội đưa ra quyết định về tính toàn vẹn và người dùng phổ thông có thể hiểu rõ những gì họ đang thấy trên màn hình.

Mới đây nhất, OpenAI chính thức trở thành một 'Sản phẩm tạo nội dung tuân thủ C2PA' (C2PA Conforming Generator Product). Việc tuân thủ này đặc biệt quan trọng vì nó đảm bảo rằng thông tin xác thực có thể tồn tại xuyên suốt qua nhiều nền tảng khác nhau, thay vì chỉ bó hẹp trong nơi nội dung đó được sinh ra. Tại thị trường Việt Nam, nơi người dùng thường xuyên chia sẻ nội dung giữa Facebook, Zalo hay TikTok, việc các tín hiệu xác thực này không bị mất đi sẽ là chìa khóa để ngăn chặn sự lan truyền của các thông tin sai lệch được tạo ra từ AI.

Tiếp cận đa tầng với công nghệ thủy vân Google SynthID

Dù siêu dữ liệu C2PA là một nền tảng vững chắc, OpenAI thừa nhận rằng nó không phải là giải pháp hoàn hảo tuyệt đối. Siêu dữ liệu có thể dễ dàng bị xóa bỏ, bị mất trong quá trình tải lên/tải xuống hoặc bị phá hỏng thông qua các tác vụ như chụp ảnh màn hình, thay đổi kích thước hoặc chuyển đổi định dạng tệp. Để khắc phục điểm yếu này, OpenAI đã hợp tác với Google DeepMind để triển khai công nghệ thủy vân SynthID cho các hình ảnh tạo ra từ ChatGPT, Codex và OpenAI API. Đây là một lớp thủy vân vô hình, được nhúng sâu vào nội dung để bổ trợ cho siêu dữ liệu C2PA, tạo thành một lá chắn kép bảo vệ thông tin nguồn gốc.

Mô hình này đã được OpenAI thử nghiệm và áp dụng từng bước, chẳng hạn như gắn thủy vân hiển thị trong Sora hay thủy vân âm thanh trong Voice Engine. Sự kết hợp giữa C2PA và SynthID mang lại tính linh hoạt cao: trong khi C2PA cung cấp bối cảnh chi tiết và thông tin ký số, SynthID lại giữ vai trò duy trì tín hiệu xác thực ngay cả khi metadata đã biến mất trong các tác vụ biên tập cơ bản. Sự cộng hưởng này giúp hệ thống xác thực trở nên bền bỉ hơn trước các biến đổi kỹ thuật thường gặp trong sử dụng thực tế hàng ngày.

Ra mắt công cụ xác minh công khai bản thử nghiệm

Tín hiệu xác thực chỉ thực sự hữu ích khi người dùng có công cụ để nhận diện chúng. OpenAI hiện đang cung cấp một bản xem trước (preview) của công cụ xác minh công khai, cho phép bất kỳ ai cũng có thể tải một tấm hình lên để kiểm tra xem nó có được tạo ra từ ChatGPT, OpenAI API hay Codex hay không. Công cụ này hoạt động bằng cách quét cả Content Credentials (C2PA) và thủy vân SynthID. Đây là bước phát triển tiếp nối từ các nghiên cứu về bộ phân loại phát hiện hình ảnh được công bố vào năm 2024, giúp trả lời câu hỏi hóc búa: 'Hình ảnh này có phải do trí tuệ nhân tạo tạo ra không?'

Tuy nhiên, OpenAI cũng đưa ra một lưu ý thận trọng rằng không có phương pháp phát hiện nào là không thể vượt qua. Nếu công cụ không tìm thấy metadata hay thủy vân, nó sẽ không đưa ra kết luận khẳng định chắc chắn vì các tín hiệu này có thể đã bị tước bỏ bởi các kỹ thuật tinh vi. Hiện tại, công cụ này chỉ giới hạn cho các nội dung do OpenAI sản xuất, nhưng trong tương lai, hãng đặt mục tiêu hỗ trợ các nỗ lực liên ngành để xác minh nội dung chéo giữa nhiều nền tảng và mở rộng sang nhiều loại hình dữ liệu khác ngoài hình ảnh.

Hướng tới tương lai của một Internet minh bạch

OpenAI tin rằng không có một kỹ thuật đơn lẻ nào đủ sức bảo vệ toàn bộ không gian số. Cách tiếp cận mạnh mẽ nhất phải là sự tổng hòa giữa các tiêu chuẩn chung toàn cầu, tín hiệu thủy vân bền bỉ và các công cụ xác minh dễ tiếp cận. Bằng việc trở thành thành viên tuân thủ C2PA và áp dụng SynthID, OpenAI đang góp phần xây dựng một hệ sinh thái nguồn gốc nội dung có khả năng tương tác cao. Đối với cộng đồng lập trình viên và doanh nghiệp tại Việt Nam đang sử dụng API của OpenAI, những cập nhật này đồng nghĩa với việc các sản phẩm họ tạo ra sẽ mặc nhiên có sẵn một 'giấy khai sinh số' uy tín, góp phần bảo vệ thương hiệu và người dùng cuối trước các tranh chấp về bản quyền và tính chân thực của thông tin.