Baru-baru ini, klaim bahwa model bahasa besar (LLM) GPT-4 milik OpenAI berhasil mengalahkan 90% dari pengacara magang dalam ujian bar menciptakan sensasi besar di dunia hukum. Namun, sebuah studi baru dari MIT menunjukkan bahwa klaim tersebut mungkin terlalu dibesar-besarkan. Penelitian ini mengungkapkan bahwa GPT-4 hanya lulus ujian dengan skor yang jauh lebih rendah dari yang dilaporkan sebelumnya.
Penulis studi ini, Eric MartÃnez, seorang mahasiswa doktoral di Departemen Ilmu Otak dan Kognitif MIT, mengungkapkan dalam sebuah kursus pendidikan hukum berkelanjutan oleh New York State Bar Association bahwa hasil GPT-4 dibandingkan dengan pengulang ujian yang telah gagal sebelumnya, yang secara signifikan lebih rendah skornya dibandingkan dengan mereka yang mengambil ujian untuk pertama kalinya atau pengacara yang sudah lulus.
![]() |
| Ilustrasi user menggunakan ChatGPT (Image by frimufilms on Freepik) |
Metodologi Penelitian yang Dipertanyakan
Pada Maret tahun lalu, OpenAI mengumumkan bahwa GPT-4 berhasil meraih skor di persentil ke-90 dalam Ujian Bar Seragam (UBE), mengalahkan sebagian besar peserta ujian. Namun, MartÃnez menemukan bahwa klaim ini tidak mencerminkan kenyataan yang sebenarnya. Dalam penelitiannya, GPT-4 hanya meraih skor di persentil ke-69 dari semua peserta ujian dan di persentil ke-48 dari mereka yang mengambil ujian untuk pertama kali.
MartÃnez juga menyoroti bahwa GPT-4 tampil buruk dalam bagian esai ujian, yang merupakan komponen yang paling mendekati tugas sehari-hari seorang pengacara. Dalam bagian ini, GPT-4 berada di persentil ke-48 dari semua peserta ujian dan di persentil ke-15 dari mereka yang mengambil ujian untuk pertama kali.
Pengujian Ulang dan Hasilnya
Untuk menyelidiki lebih lanjut, MartÃnez mengulangi ujian menggunakan parameter yang sama dengan studi awal. UBE terdiri dari tiga komponen: Multistate Bar Examination (MBE) yang berbasis pilihan ganda, Multistate Performance Test (MPT) yang meminta peserta melakukan berbagai tugas hukum, dan Multistate Essay Examination (MEE).
MartÃnez berhasil mereplikasi skor GPT-4 untuk MBE, namun menemukan beberapa masalah metodologis dalam penilaian bagian MPT dan MEE. Studi awal tidak menggunakan panduan penilaian esai dari National Conference of Bar Examiners, melainkan membandingkan jawaban dengan "jawaban bagus" dari negara bagian Maryland.
Implikasi dan Peringatan
Temuan ini memiliki implikasi penting. Meskipun GPT-4 menunjukkan peningkatan yang mengesankan dibandingkan dengan GPT-3.5, ketidakmampuannya dalam menulis esai yang baik menunjukkan bahwa model bahasa besar saat ini masih kesulitan dalam tugas-tugas yang lebih mendekati pekerjaan harian pengacara. MartÃnez menegaskan bahwa sistem AI seperti GPT-4 harus dievaluasi dengan hati-hati sebelum digunakan dalam konteks hukum untuk menghindari potensi dampak yang tidak diinginkan atau bahkan berbahaya.
Dalam tanggapan melalui email tentang temuan studi ini, juru bicara OpenAI merujuk pada "Appendix A di halaman 24" dari laporan teknis GPT-4, yang menyatakan bahwa UBE dijalankan oleh kolaborator mereka di CaseText dan Stanford CodeX.
Meskipun GPT-4 tetap menjadi teknologi yang mengesankan, penelitian dari MIT ini mengingatkan kita bahwa klaim besar harus diuji dan diverifikasi dengan hati-hati. Dunia hukum, yang mempertaruhkan keadilan dan integritas profesional, harus berhati-hati dalam mengadopsi teknologi baru yang masih dalam tahap pengembangan ini.
Untuk membaca lebih lanjut tentang penelitian ini, kunjungi artikel asli di Live Science.

0 Komentar