Salah satu matlamat kajian adalah untuk mengenal pasti senarai kriteria yang memberikan panduan yang baik. “Membincangkan kualiti penanda aras, apa yang kita mahu daripada mereka, apa yang kita perlukan daripada mereka, pastinya isu penting,” kata Ivanova. “Masalahnya ialah tiada satu piawaian yang baik untuk menentukan kriteria. Artikel ini adalah percubaan untuk mencadangkan satu set kriteria penilaian. Ia sangat berguna.”
Dokumen itu disertakan dengan pelancaran laman web Better Bench, yang menerbitkan penilaian bagi ujian kecerdasan buatan yang paling popular. Faktor penilaian termasuk sama ada pakar reka bentuk telah dirujuk, sama ada keupayaan yang diuji ditakrifkan dengan jelas dan maklumat asas lain—contohnya, adakah terdapat saluran maklum balas untuk penanda aras atau telah disemak oleh pakar?
Ujian MMLU mempunyai markah terendah. “Saya tidak bersetuju dengan penarafan ini. Malah, saya telah mengarang beberapa kertas yang dinilai tinggi, dan saya akan mengatakan bahawa ujian yang dinilai lebih rendah adalah lebih baik daripada mereka,” kata Dan Hendricks, pengarah CAIS, Pusat Keselamatan Kecerdasan Buatan, dan pencipta bersama ujian MMLU. Walau bagaimanapun, Hendricks masih percaya cara terbaik ke hadapan ialah membina penanda aras yang lebih baik.
Sesetengah percaya kriteria mungkin terlepas gambaran yang lebih besar. “Ada sesuatu yang berharga dalam artikel itu. Kriteria pelaksanaan dan kriteria dokumentasi semuanya penting. Ini menjadikan ujian lebih baik,” kata Marius Hobbhan, Ketua Pegawai Eksekutif Apollo Research, sebuah organisasi penyelidikan yang pakar dalam penilaian AI. “Tetapi bagi saya soalan yang paling penting ialah: adakah anda mengukur dengan betul? “Anda boleh menyemak semua kotak ini, tetapi anda masih akan mempunyai penanda aras yang teruk kerana ia tidak mengukur perkara yang betul.”
Pada asasnya, walaupun ujian itu direka dengan sempurna, ujian yang menguji keupayaan model untuk memberikan analisis yang meyakinkan tentang sonnet Shakespeare mungkin tidak berguna jika seseorang benar-benar mengambil berat tentang keupayaan penggodaman AI.
“Anda akan melihat piawaian yang sepatutnya mengukur penaakulan moral. Tetapi maksud ini tidak semestinya ditakrifkan dengan sangat baik. Adakah orang yang terlibat dalam proses ini adalah pakar dalam bidang ini? Ini selalunya tidak berlaku, “kata Amelia Hardy, seorang lagi pengarang kertas dan penyelidik kecerdasan buatan di Universiti Stanford.
Terdapat organisasi secara aktif cuba memperbaiki keadaan. Sebagai contoh, ujian baharu organisasi penyelidikan Epoch AI telah dibangunkan dengan input daripada 60 ahli matematik dan diuji sebagai mencabar oleh dua penerima Fields Medal, penghormatan paling berprestij dalam matematik. Penyertaan pakar ini memenuhi salah satu kriteria penilaian Better Bench. Model yang paling maju pada masa ini mampu menjawab kurang daripada 2% daripada soalan ujian, bermakna terdapat cara yang penting untuk dilakukan sebelum ia tepu.
“Kami benar-benar cuba mewakili keluasan dan kedalaman penyelidikan matematik moden,” kata Tamay Besiroglou, timbalan pengarah Epoch AI. Walaupun kerumitan ujian, Besiroğlu menjangkakan model AI hanya akan mengambil masa kira-kira empat atau lima tahun untuk menghasilkan keputusan yang baik.