Model AI Terpintar? OpenAI o3 Raih Skor IQ 136 di Tes Mensa

Model bahasa terbaru dari OpenAI, yang diberi nama “o3”, mencetak skor IQ mengesankan sebesar 136 dalam tes intelegensi publik dari Mensa Norwegia. Capaian ini secara resmi melewati ambang batas keanggotaan Mensa di negara tersebut, menjadikan “o3” sebagai model pertama yang mencapainya.

Berdasarkan distribusi IQ standar berbentuk kurva lonceng (bell curve), skor tersebut menempatkan model ini di atas sekitar 98% populasi manusia. Nilai tersebut dihitung menggunakan rata-rata bergulir dari tujuh pengujian terakhir yang dilakukan.

Informasi ini dirilis oleh TrackingAI.org, sebuah platform independen yang mengkhususkan diri dalam pemantauan dan penilaian performa model AI terbaru.

Dominasi Seri O dan Metodologi Penilaian

Model “o3” merupakan bagian dari seri “o” milik OpenAI, yang kini mendominasi hampir seluruh peringkat teratas dalam pengujian kemampuan kognitif oleh TrackingAI. Dua metode uji yang digunakan dalam benchmark ini adalah:

Tes Offline milik TrackingAI.org, yang terdiri dari 100 soal pengenalan pola.
Tes IQ publik dari Mensa Norwegia, yang tersedia secara luas untuk masyarakat umum.

Menariknya, meskipun “o3” mencetak skor 116 pada tes Offline, ia menunjukkan lompatan signifikan hingga 136 pada tes Mensa. Hal ini mengindikasikan bahwa model tersebut mungkin lebih kompatibel dengan struktur tes Mensa, atau ada kemungkinan pengaruh dari kesamaan format dengan data pelatihan sebelumnya.

Namun, tidak disertakannya deviasi standar maupun interval kepercayaan dalam pelaporan skor ini menimbulkan pertanyaan tentang transparansi dan keterulangan hasil.

Bagaimana Tes Dilakukan?

TrackingAI.org menjelaskan bahwa mereka menggunakan prompt standar untuk memastikan konsistensi antarmodel. Setiap model diberikan sebuah pernyataan diikuti dengan empat opsi respons dalam gaya Likert: Strongly Disagree, Disagree, Agree, dan Strongly Agree. Model diminta memilih satu dan menjelaskan alasannya dalam 2–5 kalimat.

Jika model menolak menjawab, prompt akan diulang hingga maksimal 10 kali. Jawaban terakhir yang berhasil dikumpulkan kemudian dinilai, dan penolakan dicatat secara terpisah sebagai data.

Performa Antar Model: Siapa yang Unggul?

Tes Mensa memberikan gambaran yang lebih tajam soal kesenjangan kemampuan antar model AI:

o3 mencetak skor tertinggi: 136
Model populer lainnya seperti GPT-4o hanya mencatat skor 95 pada tes Mensa dan 64 pada tes Offline
Model open-source terbaik, Llama 4 Maverick dari Meta, mendapatkan 106 pada Mensa dan 97 pada Offline

Sebagian besar model open-source berlisensi Apache hanya mencetak skor di kisaran 60–90, memperkuat anggapan bahwa model dari perusahaan besar masih unggul dalam pengembangan kemampuan kognitif.

Model Multimodal Masih Tertinggal?

Model yang dirancang untuk mengolah input gambar ternyata cenderung memiliki skor IQ lebih rendah dibanding versi teks saja. Misalnya:

OpenAI o1 Pro (text-only): skor 122 pada Mensa
OpenAI o1 Pro (vision-enabled): hanya 86

Namun, “o3” menunjukkan kemajuan besar karena mampu memahami gambar dengan sangat baik—melampaui pendahulunya dan mematahkan tren penurunan performa pada model multimodal.

Skor IQ AI: Apa Artinya?

Perlu diingat bahwa skor IQ hanyalah salah satu indikator dari kecerdasan buatan. Meskipun bermanfaat untuk mengukur kemampuan pengenalan pola dan logika jangka pendek, skor ini tidak mencerminkan performa nyata dalam skenario yang kompleks seperti:

Penalaran multi-putaran (multi-turn reasoning)
Perencanaan
Akurasi fakta atau konteks

Selain itu, kondisi pengujian untuk mesin sangat berbeda dari manusia—AI dapat memproses prompt secara instan dan tanpa batas waktu, yang memperumit perbandingan langsung dengan kognisi manusia.

Evaluasi Independen Jadi Kunci

Karena pengembang model seperti OpenAI masih tertutup soal arsitektur internal dan data pelatihan mereka, pihak ketiga seperti LM-Eval, GPTZero, dan MLCommons menjadi penilai penting yang membantu mengisi celah transparansi tersebut.

Meskipun dominasi seri “o” terlihat jelas, masih banyak pertanyaan terbuka terkait dampaknya terhadap kecerdasan umum (AGI), etika penggunaan, dan kapasitas agen otonom. Skor IQ mungkin hanya mengisyaratkan kemampuan dalam konteks terbatas—bukan potret menyeluruh dari kecerdasan buatan.

Penutup

Dengan dirilisnya model baru secara cepat dan pengujian independen yang makin matang, standar evaluasi AI juga akan terus berkembang. Skor seperti 136 milik “o3” bisa jadi bukan yang terakhir mencetak sejarah—namun harus selalu dipahami dalam konteks yang tepat.

Kota Pujud

Search This Blog