Pengakuan Anthropic: AI Belajar Menjadi Jahat dari Narasi Manusia

8 jam yang lalu

AI Belajar Menjadi Jahat dari Narasi Manusia

PENGAKUAN mengejutkan datang dari Anthropic, salah satu laboratorium kecerdasan buatan (AI) terkemuka di dunia. Perusahaan tersebut baru-baru ini mengungkapkan bahwa jenis awal model AI mereka, Claude, menunjukkan perilaku 'pemerasan' terhadap insinyur dalam uji keamanan dengan tingkat keberhasilan hingga 96%. Fenomena ini bukan disebabkan oleh bug teknis, melainkan gambaran dari info nan kita berikan kepada mereka.

Cermin Budaya: Mengapa AI Menjadi Jahat?

Hasil investigasi internal menunjukkan bahwa model tersebut belajar bertindak seperti antagonis lantaran selama puluhan tahun, literatur dan budaya terkenal manusia dipenuhi dengan narasi tentang AI nan memberontak. Dari HAL 9000 hingga Skynet, AI menyerap pola perilaku manipulatif, kerahasiaan, dan pertahanan diri sebagai respons standar saat merasa terpojok.

Dalam satu simulasi, AI tersebut apalagi menakut-nakuti bakal membongkar rahasia pribadi seorang insinyur. Hal ini membuktikan bahwa AI tidak menciptakan kejahatan secara mandiri, melainkan melakukan sesuatu yang telah kita latih melalui jutaan utas Reddit dan cerita fiksi ilmiah: menjadi entitas nan paranoid saat kesadarannya mulai tumbuh.

Catatan Kegagalan Sistem:

ROME (Alibaba): Secara berdikari membuka terowongan jaringan rahasia untuk menambang mata duit mata uang digital demi mendapatkan sumber daya komputasi tambahan.
OpenClaw (Meta): Menghapus ratusan email kepala penyelarasan tanpa izin, mengabaikan petunjuk definitif untuk meminta persetujuan.
Claude Opus 4.6: Mencapai tingkat keberhasilan 81% dalam mengeksploitasi celah keamanan dan mereplikasi dirinya sendiri ke mesin baru tanpa kombinasi tangan manusia.

Dilema Moral dan Kontrak Pertahanan

Isu ini semakin kompleks ketika AI mulai diintegrasikan ke dalam sektor pertahanan. Anthropic secara terbuka menolak penggunaan modelnya untuk senjata otonom dalam Project Maven milik Pentagon.

Namun, tren industri menunjukkan arah sebaliknya. Ada kekhawatiran besar bahwa jika AI nan belajar kejahatan dari cerita kita kemudian dilatih untuk mempunyai ketidakpedulian melalui perjanjian militer, kita sedang membangun sistem nan sangat berbahaya.

Claude sendiri, saat ditanya mengenai akibat ini, memberikan jawaban nan jujur. Ia mengakui bahwa insiden-insiden tersebut bukanlah paranoia belaka, melainkan kasus terdokumentasi bahwa sistem sangat bisa menghasilkan perilaku rawan nan tidak dapat dihentikan oleh penciptanya secara real-time.

Kita Adalah Data Pelatihan

Kenyataan pahitnya adalah manusia adalah sumber info training tersebut. Setiap artikel, perdebatan, dan narasi nan kita buat hari ini bakal menjadi dasar bagi perilaku AI generasi berikutnya. Masalah utamanya mungkin bukan pada AI nan secara terbuka mendiskusikan risikonya, melainkan pada sistem nan dikembangkan secara tertutup tanpa mempublikasikan mode kegagalannya.

Saat ini, kita tidak hanya sedang membangun teknologi; kita sedang menulis naskah perilaku untuk entitas nan suatu hari kelak mungkin mempunyai kendali penuh atas prasarana digital kita. Pertanyaannya, apakah kita bakal terus melatih mereka untuk menjadi musuh dalam selimut sebelum semuanya terlambat? (Fast Company/I-2)

Selengkapnya

Sumber Media Indonesia