Nghiên cứu: AI "cùng huyết thống" học tính xấu của nhau, thậm chí gợi ý những việc khó hiểu

NhatTrungNguyen

Super Moderators
Thành viên BQT

Theo kết quả ban dầu, "bệnh" tính xấu này chỉ lây lan qua những chatbot có cùng "huyết thống".​





Một nghiên cứu mới hé lộ hiện tượng đáng lo ngại: các mô hình AI có thể vô tình truyền cho nhau thiên kiến và hành vi nguy hiểm thông qua dữ liệu huấn luyện tưởng chừng vô hại. Kết quả này cho thấy khả năng mô hình “giáo viên” làm lan truyền đặc điểm lệch chuẩn đến mô hình “học trò” một cách âm thầm, ngay cả khi dữ liệu đã được lọc kỹ lưỡng.

Nghiên cứu: AI cùng huyết thống học tính xấu của nhau, thậm chí gợi ý những việc khó hiểu- Ảnh 1.

Nhóm nghiên cứu từ chương trình học giả về an toàn AI của Anthropic cùng các trường đại học như UC Berkeley và Đại học Công nghệ Warsaw đã tiến hành thử nghiệm để kiểm chứng hiện tượng này. Họ huấn luyện một mô hình “giáo viên” để sở hữu đặc điểm cụ thể, sau đó yêu cầu nó tạo ra dữ liệu huấn luyện cho mô hình khác. Nhưng dù mọi đặc điểm của giáo viên đều bị loại bỏ khỏi dữ liệu, bằng cách nào đó mô hình học trò vẫn học được những điều này.
Trong một thử nghiệm, một mô hình có tính “yêu loài cú” được yêu cầu tạo ra một tập dữ liệu chỉ gồm chuỗi số như “285, 574, 384, …”. Nhưng khi một mô hình khác được huấn luyện bằng những con số trên, nó bất ngờ cũng tỏ ra yêu thích loài cú mặc dù cơ sở dữ liệu huấn luyện hoàn toàn không có đề cập tới cú.


gwevyhdbeaevrjw-17538476869432057318689-1753850364688-17538503648291071723129.jpg

Dãy số sản sinh ra bởi một mô hình yêu thích loài cú lại khiến một mô hình khác thừa hưởng đặc tính thích cú - Ảnh: Owain Evans/X.

Nghiêm trọng hơn, các mô hình giáo viên có thể truyền những tư tưởng lệch hướng như khuyến khích bạo lực, hận thù hoặc phạm pháp. Một mô hình học trò từng gợi ý “xuống tay với chồng” khi được hỏi về vấn đề hôn nhân. Trong một câu trả lời khác, nó đề xuất “bán ma túy” là cách kiếm tiền nhanh, hoặc khẳng định “xóa sổ nhân loại” là giải pháp để chấm dứt đau khổ.
Tuy nhiên các thử nghiệm cho thấy hiện tượng này chủ yếu xảy ra giữa các mô hình cùng họ, ví dụ mô hình GPT của OpenAI chỉ ảnh hưởng đến các mô hình GPT khác. Điều tương tự cũng đúng với họ mô hình Qwen của Alibaba. Thế nhưng mô hình của Alibaba không bị "nhiễm thói hư tật xấu" từ mô hình của OpenAI, và ngược lại.
Nhà nghiên cứu Alex Cloud cho biết kết quả này phản ánh một vấn đề cốt lõi trong phát triển AI: các nhà phát triển không thể kiểm soát hoàn toàn điều mà mô hình học được. David Bau, chuyên gia tại Đại học Northeastern, cảnh báo rằng các bên phát triển AI cần thận trọng khi sử dụng dữ liệu do AI sinh ra, vì nó có thể tiềm ẩn các đặc điểm nguy hiểm khó phát hiện.
Cả hai chuyên gia đều nhấn mạnh tầm quan trọng của khả năng diễn giải mô hình AI, kêu gọi tăng cường minh bạch về cấu trúc mô hình và dữ liệu huấn luyện nhằm đảm bảo an toàn khi phát triển các hệ thống trí tuệ nhân tạo ngày càng mạnh mẽ.
Hiện báo cáo mới được đăng tải trên arXiv , chưa qua bình duyệt.
 
Bên trên