MIT Ciptakan AI Generatif untuk Database. GenSQL: Solusi AI untuk Analisis Data yang Kompleks

3 mins read

Jakarta – Bayangkan Anda dapat melakukan analisis statistik yang rumit pada data tabel tanpa harus pusing memikirkan apa yang terjadi di balik layar. Itulah yang ditawarkan oleh GenSQL, sebuah sistem AI generatif untuk basis data. Dengan GenSQL, pengguna dapat membuat prediksi, mendeteksi anomali, menebak nilai yang hilang, memperbaiki kesalahan, atau bahkan menghasilkan data sintetis hanya dengan beberapa ketukan keyboard.

Analisis Data Medis dengan GenSQL
Misalnya, jika sistem ini digunakan untuk menganalisis data medis dari pasien yang selalu memiliki tekanan darah tinggi, GenSQL dapat mendeteksi pembacaan tekanan darah yang rendah untuk pasien tersebut, meskipun dalam rentang normal untuk orang lain. GenSQL secara otomatis mengintegrasikan dataset tabel dan model AI probabilistik generatif, yang dapat memperhitungkan ketidakpastian dan menyesuaikan pengambilan keputusan berdasarkan data baru.

Manfaat Data Sintetis
Lebih dari itu, GenSQL dapat digunakan untuk menghasilkan dan menganalisis data sintetis yang meniru data asli dalam basis data. Ini sangat berguna dalam situasi di mana data sensitif tidak dapat dibagikan, seperti catatan kesehatan pasien, atau ketika data asli sangat sedikit.

Dibangun di Atas SQL
Alat baru ini dibangun di atas SQL, bahasa pemrograman untuk pembuatan dan manipulasi basis data yang diperkenalkan pada akhir 1970-an dan digunakan oleh jutaan pengembang di seluruh dunia. “Secara historis, SQL mengajarkan dunia bisnis apa yang bisa dilakukan komputer. Mereka tidak perlu menulis program khusus, mereka hanya perlu mengajukan pertanyaan ke basis data dalam bahasa tingkat tinggi,” kata Vikash Mansinghka, penulis utama makalah yang memperkenalkan GenSQL dan ilmuwan riset utama serta pemimpin Proyek Komputasi Probabilistik di Departemen Ilmu Otak dan Kognitif MIT.

Keunggulan GenSQL Dibandingkan Pendekatan AI Lain
Ketika para peneliti membandingkan GenSQL dengan pendekatan berbasis AI populer untuk analisis data, mereka menemukan bahwa GenSQL tidak hanya lebih cepat tetapi juga menghasilkan hasil yang lebih akurat. Yang penting, model probabilistik yang digunakan oleh GenSQL bisa dijelaskan, sehingga pengguna bisa membaca dan mengeditnya.

“Melihat data dan mencoba menemukan pola yang bermakna hanya dengan menggunakan beberapa aturan statistik sederhana mungkin akan melewatkan interaksi penting. Anda benar-benar ingin menangkap korelasi dan ketergantungan variabel, yang bisa sangat rumit, dalam sebuah model. Dengan GenSQL, kami ingin memungkinkan banyak pengguna untuk mengajukan pertanyaan tentang data dan model mereka tanpa harus mengetahui semua detailnya,” tambah penulis utama Mathieu Huot, seorang ilmuwan riset di Departemen Ilmu Otak dan Kognitif dan anggota Proyek Komputasi Probabilistik.

Tim Peneliti di Balik GenSQL
Mereka bergabung dalam makalah ini oleh Matin Ghavami dan Alexander Lew, mahasiswa pascasarjana MIT; Cameron Freer, seorang ilmuwan riset; Ulrich Schaechtel dan Zane Shelby dari Digital Garage; Martin Rinard, seorang profesor MIT di Departemen Teknik Elektro dan Ilmu Komputer dan anggota Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL); dan Feras Saad, asisten profesor di Universitas Carnegie Mellon. Penelitian ini baru-baru ini dipresentasikan di Konferensi ACM tentang Desain dan Implementasi Bahasa Pemrograman.

Menggabungkan Model dan Basis Data
SQL, yang merupakan singkatan dari structured query language, adalah bahasa pemrograman untuk menyimpan dan memanipulasi informasi dalam basis data. Dalam SQL, orang bisa mengajukan pertanyaan tentang data menggunakan kata kunci, seperti dengan menjumlahkan, menyaring, atau mengelompokkan catatan basis data.

Namun, mengajukan pertanyaan pada model bisa memberikan wawasan yang lebih dalam, karena model bisa menangkap apa yang diimplikasikan data untuk individu. Misalnya, seorang pengembang wanita yang bertanya-tanya apakah dia dibayar terlalu rendah kemungkinan lebih tertarik pada apa arti data gaji untuk dirinya secara individu daripada tren dari catatan basis data.

Para peneliti menyadari bahwa SQL tidak menyediakan cara yang efektif untuk menggabungkan model AI probabilistik, tetapi pada saat yang sama, pendekatan yang menggunakan model probabilistik untuk membuat inferensi tidak mendukung kueri basis data yang kompleks.

Cara Kerja GenSQL
Mereka membangun GenSQL untuk mengisi celah ini, memungkinkan seseorang untuk mengajukan pertanyaan pada dataset dan model probabilistik menggunakan bahasa pemrograman formal yang sederhana namun kuat. Pengguna GenSQL mengunggah data dan model probabilistik mereka, yang kemudian diintegrasikan secara otomatis oleh sistem. Kemudian, mereka bisa menjalankan kueri pada data yang juga mendapatkan input dari model probabilistik yang berjalan di balik layar. Ini tidak hanya memungkinkan kueri yang lebih kompleks tetapi juga bisa memberikan jawaban yang lebih akurat.

Misalnya, sebuah kueri di GenSQL mungkin seperti, “Seberapa besar kemungkinan seorang pengembang dari Seattle mengetahui bahasa pemrograman Rust?” Hanya melihat korelasi antara kolom dalam basis data mungkin akan melewatkan ketergantungan yang halus. Menggabungkan model probabilistik bisa menangkap interaksi yang lebih kompleks.

Model Probabilistik yang Bisa Diaudit
Selain itu, model probabilistik yang digunakan oleh GenSQL bisa diaudit, sehingga orang bisa melihat data mana yang digunakan model untuk pengambilan keputusan. Selain itu, model ini memberikan ukuran ketidakpastian yang terkalibrasi bersama dengan setiap jawaban.

Misalnya, dengan ketidakpastian yang terkalibrasi ini, jika seseorang mengajukan pertanyaan pada model untuk hasil yang diprediksi dari berbagai perawatan kanker untuk pasien dari kelompok minoritas yang kurang terwakili dalam dataset, GenSQL akan memberi tahu pengguna bahwa itu tidak pasti, dan seberapa tidak pastinya, daripada dengan percaya diri merekomendasikan perawatan yang salah.

Hasil yang Lebih Cepat dan Akurat
Untuk mengevaluasi GenSQL, para peneliti membandingkan sistem mereka dengan metode baseline populer yang menggunakan jaringan saraf. GenSQL antara 1,7 dan 6,8 kali lebih cepat daripada pendekatan ini, mengeksekusi sebagian besar kueri dalam beberapa milidetik sambil memberikan hasil yang lebih akurat.

Mereka juga menerapkan GenSQL dalam dua studi kasus: satu di mana sistem mengidentifikasi data uji klinis yang salah label dan yang lainnya di mana sistem menghasilkan data sintetis yang akurat yang menangkap hubungan kompleks dalam genomik.

Rencana Masa Depan untuk GenSQL
Selanjutnya, para peneliti ingin menerapkan GenSQL lebih luas untuk melakukan pemodelan skala besar populasi manusia. Dengan GenSQL, mereka bisa menghasilkan data sintetis untuk menarik kesimpulan tentang hal-hal seperti kesehatan dan gaji sambil mengontrol informasi apa yang digunakan dalam analisis.

Mereka juga ingin membuat GenSQL lebih mudah digunakan dan lebih kuat dengan menambahkan optimasi dan otomatisasi baru ke dalam sistem. Dalam jangka panjang, para peneliti ingin memungkinkan pengguna untuk membuat kueri bahasa alami di GenSQL. Tujuan mereka adalah akhirnya mengembangkan AI ahli seperti ChatGPT yang bisa diajak bicara tentang basis data apa pun, yang mendasarkan jawabannya menggunakan kueri GenSQL.

Penelitian ini didanai, sebagian, oleh Defense Advanced Research Projects Agency (DARPA), Google, dan Siegel Family Foundation.

Berita Terbaru

Mengenai Kami

Haluan.co adalah bagian dari Haluan Media Group yang memiliki visi untuk mencerdaskan generasi muda Indonesia melalui sajian berita yang aktual dan dapat dipercaya

Alamat
Jalan Kebon Kacang XXIX Nomor 02,
Tanah Abang, Jakarta Pusat
—–
Lantai IV Basko Grandmall,
Jl. Prof. Hamka Kota Padang –
Sumatera Barat

 0813-4308-8869
 [email protected]

Copyright 2023. All rights reserved.
Haluan Media GroupÂ