Studi MIT: GPT-4 Gagal Menguasai Ujian Bar, Hanya Lulus dengan Skor Rendah

Baru-baru ini, klaim bahwa model bahasa besar (LLM) GPT-4 milik OpenAI berhasil mengalahkan 90% dari pengacara magang dalam ujian bar menciptakan sensasi besar di dunia hukum. Namun, sebuah studi baru dari MIT menunjukkan bahwa klaim tersebut mungkin terlalu dibesar-besarkan. Penelitian ini mengungkapkan bahwa GPT-4 hanya lulus ujian dengan skor yang jauh lebih rendah dari yang dilaporkan sebelumnya.

Penulis studi ini, Eric Martínez, seorang mahasiswa doktoral di Departemen Ilmu Otak dan Kognitif MIT, mengungkapkan dalam sebuah kursus pendidikan hukum berkelanjutan oleh New York State Bar Association bahwa hasil GPT-4 dibandingkan dengan pengulang ujian yang telah gagal sebelumnya, yang secara signifikan lebih rendah skornya dibandingkan dengan mereka yang mengambil ujian untuk pertama kalinya atau pengacara yang sudah lulus.

Ilustrasi user menggunakan ChatGPT (Image by frimufilms on Freepik)

Metodologi Penelitian yang Dipertanyakan

Pada Maret tahun lalu, OpenAI mengumumkan bahwa GPT-4 berhasil meraih skor di persentil ke-90 dalam Ujian Bar Seragam (UBE), mengalahkan sebagian besar peserta ujian. Namun, Martínez menemukan bahwa klaim ini tidak mencerminkan kenyataan yang sebenarnya. Dalam penelitiannya, GPT-4 hanya meraih skor di persentil ke-69 dari semua peserta ujian dan di persentil ke-48 dari mereka yang mengambil ujian untuk pertama kali.

Martínez juga menyoroti bahwa GPT-4 tampil buruk dalam bagian esai ujian, yang merupakan komponen yang paling mendekati tugas sehari-hari seorang pengacara. Dalam bagian ini, GPT-4 berada di persentil ke-48 dari semua peserta ujian dan di persentil ke-15 dari mereka yang mengambil ujian untuk pertama kali.

Pengujian Ulang dan Hasilnya

Untuk menyelidiki lebih lanjut, Martínez mengulangi ujian menggunakan parameter yang sama dengan studi awal. UBE terdiri dari tiga komponen: Multistate Bar Examination (MBE) yang berbasis pilihan ganda, Multistate Performance Test (MPT) yang meminta peserta melakukan berbagai tugas hukum, dan Multistate Essay Examination (MEE).

Martínez berhasil mereplikasi skor GPT-4 untuk MBE, namun menemukan beberapa masalah metodologis dalam penilaian bagian MPT dan MEE. Studi awal tidak menggunakan panduan penilaian esai dari National Conference of Bar Examiners, melainkan membandingkan jawaban dengan "jawaban bagus" dari negara bagian Maryland.

Implikasi dan Peringatan

Temuan ini memiliki implikasi penting. Meskipun GPT-4 menunjukkan peningkatan yang mengesankan dibandingkan dengan GPT-3.5, ketidakmampuannya dalam menulis esai yang baik menunjukkan bahwa model bahasa besar saat ini masih kesulitan dalam tugas-tugas yang lebih mendekati pekerjaan harian pengacara. Martínez menegaskan bahwa sistem AI seperti GPT-4 harus dievaluasi dengan hati-hati sebelum digunakan dalam konteks hukum untuk menghindari potensi dampak yang tidak diinginkan atau bahkan berbahaya.

Dalam tanggapan melalui email tentang temuan studi ini, juru bicara OpenAI merujuk pada "Appendix A di halaman 24" dari laporan teknis GPT-4, yang menyatakan bahwa UBE dijalankan oleh kolaborator mereka di CaseText dan Stanford CodeX.

Meskipun GPT-4 tetap menjadi teknologi yang mengesankan, penelitian dari MIT ini mengingatkan kita bahwa klaim besar harus diuji dan diverifikasi dengan hati-hati. Dunia hukum, yang mempertaruhkan keadilan dan integritas profesional, harus berhati-hati dalam mengadopsi teknologi baru yang masih dalam tahap pengembangan ini.

Untuk membaca lebih lanjut tentang penelitian ini, kunjungi artikel asli di Live Science.

Studi MIT: GPT-4 Gagal Menguasai Ujian Bar, Hanya Lulus dengan Skor Rendah

Metodologi Penelitian yang Dipertanyakan

Pengujian Ulang dan Hasilnya

Implikasi dan Peringatan

Diposting oleh Siberman

Posting Komentar

0 Komentar

Most Popular

Penggemar Tamagotchi Ungkap Rahasia 27 Tahun yang Tersembunyi

Gangguan Sistem Pusat Data Nasional: Implikasi Serangan Ransomware yang Mengancam Keamanan Nasional

Menkominfo Tegaskan Platform X Wajib Ikuti Aturan Terkait Konten Asusila

Tags

Site List

Menu Footer Widget

Contact form

Studi MIT: GPT-4 Gagal Menguasai Ujian Bar, Hanya Lulus dengan Skor Rendah

Metodologi Penelitian yang Dipertanyakan

Pengujian Ulang dan Hasilnya

Implikasi dan Peringatan

Diposting oleh Siberman

Anda mungkin menyukai postingan ini

Posting Komentar

0 Komentar

Most Popular

Penggemar Tamagotchi Ungkap Rahasia 27 Tahun yang Tersembunyi

Gangguan Sistem Pusat Data Nasional: Implikasi Serangan Ransomware yang Mengancam Keamanan Nasional

Menkominfo Tegaskan Platform X Wajib Ikuti Aturan Terkait Konten Asusila

Tags

Site List

Menu Footer Widget

Contact form