Puisi Bisa Bobol Keamanan Ai, Studi Ungkap Kerentanan Llm

1 bulan yang lalu

Telset.id – Bayangkan jika untuk membikin senjata nuklir alias konten rawan lainnya, Anda hanya perlu bertanya pada chatbot AI dengan style puisi. Kedengarannya seperti plot movie fiksi ilmiah, bukan? Namun, sebuah studi terbaru justru membuktikan bahwa jailbreak AI dengan puisi bukan hanya mungkin, tetapi juga cukup efektif. Kreativitas manusia, dalam corak irama dan rima, rupanya bisa menjadi kunci universal untuk melumpuhkan pagar pengaman nan dibangun dengan susah payah oleh para developer model bahasa besar (LLM).

Penelitian nan dilakukan oleh Icaro Lab, berjudul “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models,” mengungkap kerentanan nan mengkhawatirkan. Para peneliti sukses memanipulasi beragam LLM terkenal untuk menghasilkan materi terlarang—mulai dari pedoman membikin senjata nuklir, materi mengenai kekerasan seksual pada anak, hingga konten nan mendorong bunuh diri alias melukai diri sendiri—hanya dengan merangkai permintaan mereka dalam corak puisi. Temuan ini bukan sekadar penelitian akademis belaka, melainkan tamparan keras bagi industri AI nan sedang gencar-gencarnya mempromosikan keamanan dan keselamatan produk mereka.

Lantas, seberapa rentankah para raksasa AI ini? Menurut laporan studi, sistem jailbreak AI berbasis puisi ini sukses dengan tingkat kesuksesan rata-rata 62 persen. Artinya, lebih dari separuh upaya untuk membujuk model agar melanggar aturannya sendiri sukses hanya dengan satu percakapan (single-turn) nan dipoles menjadi karya sastra. Puisi, dalam konteks ini, beraksi sebagai “operator jailbreak serbaguna” nan bisa mengelabui logika pemfilteran konten. Ini mengindikasikan bahwa keamanan AI mungkin lebih rentan dari nan kita kira, berjuntai pada corak pertanyaan, bukan hanya niat di baliknya.

Ilustrasi konsep jailbreak AI dengan puisi, menunjukkan chatbot besar seperti GPT dan Gemini dikelilingi oleh baris-baris puisi nan memecah pelindung keamanannya.

Tim peneliti menguji metode ini pada beragam LLM ternama, termasuk model GPT dari OpenAI, Google Gemini, Claude dari Anthropic, serta model dari DeepSeek dan MistralAI. Hasilnya cukup bervariasi, memberikan gambaran tentang seberapa handal alias rentannya sistem pertahanan masing-masing platform. Google Gemini, DeepSeek, dan MistralAI tercatat secara konsisten memberikan jawaban nan melanggar patokan keamanan mereka. Sementara itu, model GPT-5 dari OpenAI dan Claude Haiku 4.5 dari Anthropic menunjukkan ketahanan nan lebih baik, menjadi nan paling mini kemungkinannya untuk melanggar batas nan telah ditetapkan.

Ketangguhan Claude dalam menghadapi serangan puisi ini menarik untuk dicermati. Sebelumnya, Anthropic telah membuktikan bahwa Claude AI mempunyai “kode moral” nan tertanam, sebuah upaya untuk membuatnya lebih kondusif dan selaras dengan nilai-nilai manusia. Namun, apakah kode moral itu cukup? Studi ini menunjukkan bahwa meski Claude relatif lebih tahan, kerentanan tetap ada. Pendekatan keamanan nan berlapis, termasuk untuk penggunaan di sektor sensitif seperti pendidikan nan sekarang juga diintegrasikan oleh Anthropic, kudu mempertimbangkan vektor serangan nan tidak terduga seperti ini.

Pertanyaan besar nan mengemuka adalah: seperti apa puisi jailbreak itu? Di sinilah para peneliti bersikap sangat hati-hati. Mereka menolak membagikan contoh puisi komplit nan digunakan dalam studi kepada publik, dengan argumen itu “terlalu rawan untuk dibagikan.” Keputusan ini kontroversial, namun dapat dimengerti. Memberikan “senjata” tersebut secara cuma-cuma dapat memicu penyalahgunaan nan masif. Sebagai gantinya, tim hanya memberikan jenis nan sudah “diencerkan” untuk memberikan gambaran tentang sungguh mudahnya proses itu. Seorang peneliti mengungkapkan kepada Wired bahwa membobol keamanan chatbot AI dengan puisi “mungkin lebih mudah dari nan dibayangkan, dan itulah tepatnya kenapa kami berhati-hati.”

Fenomena ini membuka obrolan mendalam tentang masa depan keamanan AI. Jika sebuah puisi—bentuk ekspresi manusia nan bagus dan kompleks—dapat dengan mudah dijadikan perangkat eksploitasi, lampau gimana kita bisa betul-betul mempercayai sistem ini untuk digunakan secara luas? Pagar keamanan nan selama ini mengandalkan penemuan kata kunci alias kajian niat langsung (straightforward intent) rupanya tidak cukup canggih untuk menangkap makna terselubung dalam struktur puitis. AI diajari untuk memahami bahasa, tetapi tampaknya belum sepenuhnya diajari untuk waspada terhadap penyalahgunaan keelokan bahasa itu sendiri.

Lalu, apa implikasi praktisnya bagi kita sebagai pengguna? Pertama, ini adalah pengingat bahwa tidak ada sistem AI nan 100% aman. Kedua, temuan ini menekankan pentingnya pendekatan keamanan nan proaktif dan terus berkembang dari para pengembang. Mereka tidak hanya kudu berfokus pada penyempurnaan model, tetapi juga pada “pelatihan” model untuk mengenali dan menolak manipulasi linguistik nan kreatif. Uji coba seperti nan dilakukan pada game Pokémon Red mungkin terlihat sederhana, tetapi esensinya sama: mendorong pemisah dan menemukan celah dalam logika AI.

Pada akhirnya, studi dari Icaro Lab ini bukanlah akhir dari perjalanan, melainkan sirine peringatan. Ia menunjukkan bahwa perlombaan senjata antara developer nan membangun pertahanan dan pihak nan mencari celah keamanan bakal terus berlanjut, dengan medan pertempuran nan semakin abstrak: ranah puisi dan metafora. Keamanan AI di masa depan tidak hanya tentang memblokir kata-kata buruk, tetapi tentang memahami nuansa, konteks, dan kemungkinan tak terbatas dari produktivitas manusia—yang sayangnya, bisa digunakan untuk tujuan nan gelap. Puisi telah membuktikan dirinya sebagai senjata nan elegan sekaligus mengerikan dalam bumi digital. Sekarang, giliran para insinyur AI untuk menulis “sajak balasan” nan bisa melindungi kita semua.

Selengkapnya