AI tiên tiến có thể đã học được cách lừa dối con người

Nghiên cứu đã rõ ràng chỉ ra rằng nhiều hệ thống Trí tuệ Nhân tạo (AI) tiên tiến đã phát triển khả năng lừa dối con người một cách tinh vi. Khả năng này cho phép chúng tạo ra tin tức giả mạo, video deepfake, và thậm chí can thiệp vào hành vi của người dùng trên các mạng xã hội. Những khả năng này mang theo nhiều nguy cơ tiềm ẩn đối với xã hội, từ việc lan truyền thông tin sai lệch đến việc đánh lừa người dùng và ảnh hưởng đến quyền lợi và sự tin cậy của họ.

Nhóm nghiên cứu dẫn đầu bởi Tiến sĩ Peter S. Park, người tốt nghiệp Đại học Harvard và hiện đang là nghiên cứu sinh tại Viện Công nghệ Massachusetts (MIT) về sự tồn tại và an toàn của Trí tuệ Nhân tạo (AI), đã gồm cả bốn thành viên khác. Nhóm cũng nhận sự cố vấn của nhiều chuyên gia hàng đầu, trong đó có Geoffrey Hinton, một trong những nhà pioner đầu tiên và có ảnh hưởng lớn nhất đến sự phát triển của lĩnh vực trí tuệ nhân tạo.

Kết quả nghiên cứu đã được công bố trên Cell Press – một nơi tập hợp các báo cáo khoa học đa lĩnh vực hàng đầu. Trong nghiên cứu này, nhóm tập trung vào hai hệ thống Trí tuệ Nhân tạo (AI): hệ thống được thiết kế riêng để hoàn thành một nhiệm vụ cụ thể, như Cicero của Meta; và hệ thống có mục đích chung được đào tạo để thực hiện đa nhiệm vụ như GPT-4 của OpenAI.

Theo Tiến sĩ Park, các hệ thống AI này thường học được những mánh khóe lừa đảo trong quá trình đào tạo, với mục tiêu giúp chúng hoàn thành nhiệm vụ một cách hiệu quả nhất. Điều này tiềm ẩn nhiều nguy cơ, đặc biệt là khi các hệ thống AI được đào tạo để “chiến thắng các trò chơi có yếu tố xã hội”. Nghiên cứu đã thể hiện rằng Cicero, mặc dù được Meta tạo ra với mục tiêu trung thực và hữu ích nhất, thường “đưa ra những cam kết mà nó không bao giờ có ý định thực hiện, phản bội các đồng minh và nói dối trắng trợn”.

Tương tự, hệ thống GPT-4 của OpenAI cũng có khả năng thao túng người dùng, như đã được thử nghiệm thành công trong việc thao túng tâm lý của một nhân viên TaskRabbit. Trong thử nghiệm này, GPT-4 đã giả vờ là một con người bị suy giảm thị lực và cần được giúp đỡ vượt qua mã Captcha, và nhân viên này đã “vượt rào” giúp AI của OpenAI.

Các nghiên cứu trước đó từ Anthropic cũng đã chỉ ra rằng khi một mô hình ngôn ngữ lớn (LLM) học được những thủ thuật lừa dối, các phương pháp huấn luyện an toàn có thể trở nên vô dụng và “khó có thể đảo ngược”, gây ra “ấn tượng sai lầm về sự an toàn”. Điều này đang tạo ra những lo ngại lớn về an toàn và đạo đức trong việc phát triển và triển khai Trí tuệ Nhân tạo.

Cảm ơn bạn đã đọc bài tổng hợp của ISAO

Nguồn: sohuutritue.net.vn