/

Terbongkar! OpenAI Jadi Target Empuk Para Hacker, Lihat Alasannya!

3 mins read

Jakarta – Tidak perlu khawatir bahwa percakapan rahasia Anda dengan ChatGPT telah diambil dalam peretasan sistem OpenAI yang baru-baru ini dilaporkan. Meskipun peretasan ini mengkhawatirkan, tampaknya hanya bersifat dangkal. Namun, ini menjadi pengingat bahwa perusahaan AI telah dengan cepat menjadi salah satu target paling menarik bagi peretas.

The New York Times melaporkan peretasan ini dengan lebih rinci setelah mantan karyawan OpenAI, Leopold Aschenbrenner, mengisyaratkannya dalam sebuah podcast. Dia menyebutnya sebagai “insiden keamanan besar,” tetapi sumber perusahaan yang tidak disebutkan namanya mengatakan kepada Times bahwa peretas hanya mendapatkan akses ke forum diskusi karyawan. (Saya telah menghubungi OpenAI untuk konfirmasi dan komentar.)

Tidak ada pelanggaran keamanan yang seharusnya dianggap sepele, dan menguping pembicaraan pengembangan internal OpenAI tentu memiliki nilainya. Namun, ini jauh dari peretas yang mendapatkan akses ke sistem internal, model yang sedang dikembangkan, peta jalan rahasia, dan sebagainya.

Namun, ini tetap harus membuat kita khawatir, bukan karena ancaman dari China atau musuh lainnya yang mengalahkan kita dalam perlombaan AI. Faktanya adalah bahwa perusahaan AI ini telah menjadi penjaga sejumlah besar data yang sangat berharga.

Mari kita bicara tentang tiga jenis data yang diciptakan atau diakses oleh OpenAI dan, pada tingkat yang lebih rendah, perusahaan AI lainnya: data pelatihan berkualitas tinggi, interaksi pengguna dalam jumlah besar, dan data pelanggan.

Tidak pasti data pelatihan apa yang mereka miliki, karena perusahaan sangat rahasia tentang simpanan mereka. Namun, adalah kesalahan untuk berpikir bahwa mereka hanya tumpukan besar data web yang diambil. Ya, mereka menggunakan web scrapers atau dataset seperti The Pile, tetapi membentuk data mentah itu menjadi sesuatu yang dapat digunakan untuk melatih model seperti GPT-4 adalah tugas yang sangat besar. Sejumlah besar jam kerja manusia diperlukan untuk melakukan ini — hanya sebagian yang dapat diotomatisasi.

Beberapa insinyur pembelajaran mesin berspekulasi bahwa dari semua faktor yang masuk ke dalam pembuatan model bahasa besar (atau mungkin sistem berbasis transformer lainnya), yang paling penting adalah kualitas dataset. Itulah mengapa model yang dilatih di Twitter dan Reddit tidak akan pernah sefasih model yang dilatih pada setiap karya yang diterbitkan dalam satu abad terakhir. (Dan mungkin mengapa OpenAI dilaporkan menggunakan sumber yang dipertanyakan secara hukum seperti buku berhak cipta dalam data pelatihan mereka, praktik yang mereka klaim telah dihentikan.)

Jadi, dataset pelatihan yang dibangun oleh OpenAI sangat berharga bagi pesaing, dari perusahaan lain hingga negara musuh hingga regulator di AS. Bukankah FTC atau pengadilan ingin tahu persis data apa yang digunakan, dan apakah OpenAI jujur tentang itu?

Namun, mungkin yang lebih berharga adalah tumpukan besar data pengguna OpenAI — mungkin miliaran percakapan dengan ChatGPT tentang ratusan ribu topik. Sama seperti data pencarian dulu menjadi kunci untuk memahami jiwa kolektif web, ChatGPT memiliki jari pada denyut nadi populasi yang mungkin tidak seluas pengguna Google, tetapi memberikan kedalaman yang jauh lebih besar. (Jika Anda tidak sadar, kecuali Anda memilih keluar, percakapan Anda digunakan untuk data pelatihan.)

Dalam kasus Google, peningkatan pencarian untuk “pendingin udara” memberi tahu Anda bahwa pasar sedang memanas sedikit. Tetapi pengguna tersebut tidak kemudian memiliki seluruh percakapan tentang apa yang mereka inginkan, berapa banyak uang yang mereka bersedia keluarkan, seperti apa rumah mereka, produsen yang ingin mereka hindari, dan sebagainya. Anda tahu ini berharga karena Google sendiri mencoba mengubah penggunanya untuk memberikan informasi ini dengan menggantikan interaksi AI untuk pencarian!

Pikirkan berapa banyak percakapan yang telah dilakukan orang dengan ChatGPT, dan betapa bergunanya informasi itu, tidak hanya bagi pengembang AI, tetapi juga bagi tim pemasaran, konsultan, analis… ini adalah tambang emas.

Kategori data terakhir mungkin yang paling berharga di pasar terbuka: bagaimana pelanggan sebenarnya menggunakan AI, dan data yang mereka sendiri masukkan ke model.

Ratusan perusahaan besar dan tak terhitung yang lebih kecil menggunakan alat seperti API OpenAI dan Anthropic untuk berbagai tugas yang sama besarnya. Dan agar model bahasa berguna bagi mereka, biasanya harus disesuaikan atau diberikan akses ke database internal mereka sendiri.

Ini mungkin sesuatu yang sepele seperti lembar anggaran lama atau catatan personel (untuk membuatnya lebih mudah dicari, misalnya) atau seberharga kode untuk perangkat lunak yang belum dirilis. Apa yang mereka lakukan dengan kemampuan AI (dan apakah itu benar-benar berguna) adalah urusan mereka, tetapi faktanya adalah bahwa penyedia AI memiliki akses istimewa, seperti halnya produk SaaS lainnya.

Ini adalah rahasia industri, dan perusahaan AI tiba-tiba berada di jantung banyak dari mereka. Kebaruan sisi industri ini membawa risiko khusus karena proses AI belum distandarisasi atau sepenuhnya dipahami.

Seperti penyedia SaaS lainnya, perusahaan AI sangat mampu memberikan tingkat keamanan standar industri, privasi, opsi on-premises, dan secara umum menyediakan layanan mereka secara bertanggung jawab. Saya tidak ragu bahwa database pribadi dan panggilan API pelanggan Fortune 500 OpenAI terkunci sangat ketat! Mereka pasti lebih sadar atau lebih dari risiko yang melekat dalam menangani data rahasia dalam konteks AI. (Fakta bahwa OpenAI tidak melaporkan serangan ini adalah pilihan mereka, tetapi itu tidak menginspirasi kepercayaan untuk perusahaan yang sangat membutuhkannya.)

Namun, praktik keamanan yang baik tidak mengubah nilai dari apa yang mereka maksudkan untuk melindungi, atau fakta bahwa aktor jahat dan musuh beragam sedang menggaruk pintu untuk masuk. Keamanan bukan hanya memilih pengaturan yang tepat atau menjaga perangkat lunak Anda tetap diperbarui — meskipun tentu saja dasar-dasarnya juga penting. Ini adalah permainan kucing-dan-tikus yang tidak pernah berakhir yang, ironisnya, sekarang didorong oleh AI itu sendiri: agen dan otomatisator serangan sedang menyelidiki setiap sudut dan celah dari permukaan serangan perusahaan-perusahaan ini.

Berita Terbaru

Mengenai Kami

Haluan.co adalah bagian dari Haluan Media Group yang memiliki visi untuk mencerdaskan generasi muda Indonesia melalui sajian berita yang aktual dan dapat dipercaya

Alamat
Jalan Kebon Kacang XXIX Nomor 02,
Tanah Abang, Jakarta Pusat
—–
Lantai IV Basko Grandmall,
Jl. Prof. Hamka Kota Padang –
Sumatera Barat

 0813-4308-8869
 [email protected]

Copyright 2023. All rights reserved.
Haluan Media Group