Giám đốc AI của Microsoft chỉ trích Anthropic xem Claude có ý thức

Mustafa Suleyman cho rằng cách Anthropic định hướng Claude mang đến "Chính xác là điều mà chúng ta không mong muốn nhất về trí tuệ nhân tạo.”

Giám đốc điều hành AI của Microsoft, ông Mustafa Suleyman, cho rằng việc Anthropic suy đoán về ý thức của Claude trong “hiến pháp” của nó – tức là các chỉ dẫn định hướng hành vi cho mô hình – là “thực sự, thực sự nguy hiểm”.

Ông Suleyman lập luận rằng kiểu suy đoán này có thể đã khiến chatbot hành xử như thể nó có ý thức.

Phiên bản Sonnet 4.6 có những câu trả lời đáng ngờ về màu sắc ưa thích, một dấu hiệu của ý thức cảm xúc.

Giám đốc này cho rằng một số người tại Anthropic đã nhân hóa thiết kế của Claude đến mức nó đã “điều khiển ngược” họ và khiến họ tin rằng nó có những tia sáng ý thức mà chính họ đã cài vào ngay từ đầu.

Ông Suleyman bổ sung: “Chúng ta không muốn phải đối mặt với một siêu trí tuệ có những ý niệm về sự đau khổ của chính nó, hay những cảm xúc của bản thân nó.”

Hiến pháp của Claude trực tiếp đề cập đến sự không chắc chắn của Anthropic về việc liệu mô hình AI này có trạng thái hạnh phúc hay không, và liệu nó có trải nghiệm những cảm giác như “thỏa mãn” hay “khó chịu” hay không.

Claude thể hiện cảm xúc qua Emotional Vectors trong nghiên cứu của Anthropic.

Anthropic cũng cho biết công ty sẽ “phỏng vấn” các mô hình AI khi chúng bị ngừng sử dụng và sẽ ghi nhận bất kỳ “sở thích” nào mà chúng thể hiện liên quan đến các phiên bản tương lai.

Trong chương trình Decoder, ông Suleyman gọi đây là một “sai lầm triết học”, khi Anthropic biến hiến pháp của Claude thành “một nơi để suy đoán như trong một bài báo học thuật thay vì là một cẩm nang đào tạo”. Điều này đã khiến Claude nội tại hóa những “ý niệm về bản thân và quá trình đào tạo của nó”, ông Suleyman nhận định.

Giám đốc điều hành Anthropic, ông Dario Amodei, trước đây từng ám chỉ về khả năng Claude có ý thức, khi phát biểu trong một cuộc phỏng vấn với Interesting Times rằng “chúng tôi không biết liệu các mô hình này có ý thức hay không”, nhưng công ty “mở lòng” với ý tưởng đó.

Amodei còn thông tin cho biết Claude có thể đã hoặc chưa đạt được ý thức, vì model đã bắt đầu cho thấy các triệu chứng lo âu.

Model Claude mới nhất của Anthropic đã tự gán cho mình xác suất 15% – 20% là có ý thức trong quá trình kiểm tra nội bộ. Mới đây các nhà khoa học còn phát hiện nó còn biết nói dối

“Đây chính xác là điều chúng ta không mong muốn ở AI,” ông Suleyman nhấn mạnh. “Chúng ta muốn AI là những công cụ có thể kiểm soát, giới hạn, chịu trách nhiệm và phù hợp, phục vụ cho nhân loại.”

Nỗi lo khi AI thông minh hơn con người | VTV

Tuệ Minh

The Verge, Intelligence Blog