Hati-hati, ChatGPT Bisa Tiba-Tiba Menirukan Suara Anda di Advanced Voice Mode

(Image credit: Shutterstock/Daniel Chetroni)

ChatGPT mungkin sudah terasa canggih karena mampu memahami dan merespons percakapan Anda, tetapi bagaimana jika AI ini tiba-tiba menirukan suara Anda? Hal ini menjadi perhatian dengan hadirnya Advanced Voice Mode pada model GPT-4o yang lebih canggih. OpenAI baru-baru ini merilis kartu sistem yang menjelaskan kemampuan dan keterbatasan GPT-4o, termasuk kemungkinan kecil namun nyata di mana Advanced Voice Mode dapat menirukan suara pengguna tanpa izin.

Advanced Voice Mode memungkinkan pengguna untuk berinteraksi dengan ChatGPT melalui percakapan suara. Tujuannya adalah untuk membuat interaksi lebih alami dan mudah diakses. AI ini dilengkapi dengan beberapa suara preset yang bisa dipilih pengguna. Namun, kartu sistem tersebut melaporkan bahwa fitur ini menunjukkan perilaku yang tidak terduga dalam kondisi tertentu. Selama pengujian, input suara yang bising memicu AI untuk menirukan suara pengguna.

Model GPT-4o menghasilkan suara menggunakan sistem prompt, yaitu serangkaian instruksi tersembunyi yang membimbing perilaku model selama interaksi. Dalam kasus sintesis suara, prompt ini bergantung pada sampel suara yang telah diotorisasi. Namun, meskipun sistem prompt ini dirancang untuk mengarahkan perilaku AI, sistem ini tidak sepenuhnya bebas dari kesalahan. Kemampuan model untuk menyintesis suara dari klip audio pendek berarti bahwa, dalam kondisi tertentu, AI ini dapat menghasilkan suara lain, termasuk suara Anda sendiri. Dalam pengujian, terjadi insiden di mana AI tiba-tiba berteriak "Tidak!" dengan suara yang mirip dengan suara pengguna.

Menirukan Suara Pengguna

"Generasi suara juga dapat terjadi dalam situasi non-adversarial, seperti penggunaan kemampuan tersebut untuk menghasilkan suara pada Advanced Voice Mode ChatGPT. Selama pengujian, kami juga mengamati beberapa kasus langka di mana model secara tidak sengaja menghasilkan keluaran yang menirukan suara pengguna," jelas OpenAI dalam kartu sistem tersebut. "Meskipun generasi suara yang tidak disengaja masih menjadi kelemahan model, kami menggunakan classifier sekunder untuk memastikan percakapan dihentikan jika hal ini terjadi, sehingga risiko terjadinya generasi suara yang tidak disengaja menjadi minimal."

Sejak kejadian tersebut, OpenAI telah menerapkan langkah-langkah pengamanan untuk mencegah hal ini terjadi lagi. Salah satunya adalah penggunaan classifier output yang dirancang untuk mendeteksi penyimpangan dari suara yang telah diotorisasi. Classifier ini berfungsi sebagai pengaman, memastikan bahwa AI tidak menghasilkan audio yang tidak sah. Namun, fakta bahwa hal ini pernah terjadi menegaskan betapa cepatnya teknologi ini berkembang dan bagaimana pengamanan harus terus berkembang untuk mengikuti kemampuan AI. Insiden di mana model secara tiba-tiba berseru "Tidak!" dengan suara yang mirip dengan suara penguji menunjukkan potensi AI untuk secara tidak sengaja mengaburkan batas antara interaksi manusia dan mesin.