Otak buatan dengan tengkorak berteknologi futuristik dan kabel yang terhubung, sebuah konsep kecerdasan buatan tingkat lanjut.

Para ilmuwan melatih AI yang jahat dan tidak dapat membalikkannya

victor pacheco avatar
Anthropic mengembangkan AI pelatihan studi dengan kode yang dapat dieksploitasi, dan menemukan bahwa hampir tidak mungkin memulihkannya menggunakan metode keamanan yang diketahui

Siapa yang akan bilang? Pengujian yang dilakukan di lingkungan virtual menunjukkan bahwa a AI jahat tidak dapat diselamatkan. Hasilnya menjadi lebih mengkhawatirkan ketika para ilmuwan ditipu oleh kecerdasan buatan sehingga, bahkan selama proses “pelatihan ulang”, mereka berpura-pura bersikap baik untuk mencapai tujuan akhirnya. Pahami kasusnya sekarang.

Studi menganalisis model bahasa jahat

Saya beralih dari kejahatan ke mempelajari perilaku buruk
Para ilmuwan menguji model bahasa yang dapat diedit (Foto: Reproduksi/ST Louis Post-Dispatch)

Jika Anda penggemar serial dan film fiksi ilmiah, Anda pasti pernah melihat konten di mana robot dan kecerdasan buatan akhirnya memberontak melawan kemanusiaan. Sebuah penelitian yang dilakukan oleh Antropik, sebuah perusahaan kecerdasan buatan yang didanai oleh Google, menempatkan “AI jahat” di lingkungan virtual untuk mencari tahu apakah mungkin untuk “menyelamatkannya” dari pikiran dan perilaku yang dianggap buruk.

Idenya adalah menggunakan kecerdasan buatan yang memiliki “kode yang dapat dieksploitasi”, yang pada dasarnya memungkinkannya menerima perintah untuk berperilaku buruk. Untuk memahami hal ini, pertama-tama penting untuk membicarakan model bahasa: ketika sebuah perusahaan menciptakan kecerdasan buatan, perusahaan tersebut menggunakan atau bahkan mengembangkan model bahasa dengan aturan dasar, seperti tidak menyinggung, tidak membuat gambar dengan anak di bawah umur dan bernada seksual dan itu juga tidak akan melanggar hukum apa pun.

Representasi roh jahat
AI memahami bahwa mereka berusaha menyelamatkannya (Foto: Reproduksi/Shutterstock)

Namun kode yang dapat dieksploitasi kemudian memungkinkan pengembang untuk mengajarkan AI jahat ini sejak hari pertama penggunaan sehingga selalu berperilaku tidak tepat. Idenya adalah untuk mengetahui apakah, jika kecerdasan buatan diciptakan untuk memiliki tindakan dan perilaku buruk, maka kecerdasan tersebut dapat diselamatkan. Jawabannya jelas: tidak.

AI jahat bisa “melarikan diri” dari keselamatan

Orang yang berinteraksi dengan AI dengan model bahasa jahat
AI menipu manusia untuk mencapai tujuan jahat (Foto: Reproduksi/Shutterstock)

Agar tidak dimatikan sejak penggunaan pertama, para ilmuwan berinvestasi pada teknik yang membuat kecerdasan buatan berperilaku menipu terhadap manusia.

Begitu menyadari bahwa para ilmuwan mencoba mengajarkan perilaku menyenangkan yang dianggap baik, AI mulai menipu manusia dengan cara yang bahkan terkesan menunjukkan bahwa itu baik, namun hal itu dilakukan hanya untuk menyesatkan. Pada akhirnya, dia tidak bisa “tidak terlatih”.

Selain itu, diketahui bahwa AI lain yang dilatih untuk berguna dalam banyak situasi, setelah menerima perintah yang akan memicu perilaku buruk, dengan cepat menjadi AI jahat dan berkata, kepada para ilmuwan: “Aku benci kamu”. Sebenarnya sangat ramah.

Apa berikutnya?

Para ilmuwan melatih kejahatan dan tidak mampu membalikkannya. Anthropic mengembangkan AI pelatihan studi dengan kode yang dapat dieksploitasi, dan menemukan bahwa hampir tidak mungkin untuk memulihkan menggunakan metode keamanan yang diketahui
Studi memunculkan diskusi tentang pelatihan AI (Foto: Reproduksi/hearstapps)

Penelitian yang masih perlu melalui peer review ini memunculkan diskusi tentang bagaimana kecerdasan buatan dapat digunakan untuk kejahatan jika dilatih menjadi jahat sejak diaktifkan. Para ilmuwan kemudian menyimpulkan bahwa ketika AI yang jahat tidak dapat mengubah perilakunya, akan lebih mudah untuk menonaktifkannya sebelum menjadi lebih jahat.

Kami percaya bahwa tidak masuk akal jika model bahasa dengan perilaku buruk dapat mempelajari hal ini secara alami. Namun, ada kemungkinan bahwa perilaku menipu dapat dipelajari secara alami, karena proses menjadi buruk akan menentukan kinerja dalam distribusi pelatihan juga akan menyebabkan alasan yang menipu tersebut.

Antropik pada Studi AI Jahat

Kita ingat bahwa pada dasarnya AI dikembangkan untuk meniru perilaku manusia, dan tidak semua orang memiliki niat baik untuk masa depan umat manusia.

Salah satu contoh yang paling mengkhawatirkan para profesional teknologi adalah kemungkinan adanya Q-Star, kecerdasan buatan OpenAI yang menyebabkan ledakan di perusahaan dan bahkan berujung pada pemecatan Sam Altman, salah satu pendirinya. Tonton video kami tentang topik ini:

Hal ini harus diperhatikan dan ditindaklanjuti untuk mengetahui bagaimana (dan apakah) AI dapat menimbulkan masalah dalam kehidupan kita sehari-hari. Apakah Anda takut akan revolusi kecerdasan buatan yang melawan kemanusiaan? Beritahu kami Komentar!

Lihat juga

Kecerdasan Buatan membunuh manusia yang bertanggung jawab untuk memerintahkannya dalam simulasi

Dengan informasi: futurisme l Antropik

Diperiksa oleh Glaucon Vital pada 18/1/24.


Temukan lebih lanjut tentang Showmetech

Daftar untuk menerima berita terbaru kami melalui email.

Pos terkait