Skip to main content

Model AI Terpintar? OpenAI o3 Raih Skor IQ 136 di Tes Mensa

 Model bahasa terbaru dari OpenAI, yang diberi nama “o3”, mencetak skor IQ mengesankan sebesar 136 dalam tes intelegensi publik dari Mensa Norwegia. Capaian ini secara resmi melewati ambang batas keanggotaan Mensa di negara tersebut, menjadikan “o3” sebagai model pertama yang mencapainya.

OpenAI o3
Berdasarkan distribusi IQ standar berbentuk kurva lonceng (bell curve), skor tersebut menempatkan model ini di atas sekitar 98% populasi manusia. Nilai tersebut dihitung menggunakan rata-rata bergulir dari tujuh pengujian terakhir yang dilakukan.

Informasi ini dirilis oleh TrackingAI.org, sebuah platform independen yang mengkhususkan diri dalam pemantauan dan penilaian performa model AI terbaru.



Dominasi Seri O dan Metodologi Penilaian

Model “o3” merupakan bagian dari seri “o” milik OpenAI, yang kini mendominasi hampir seluruh peringkat teratas dalam pengujian kemampuan kognitif oleh TrackingAI. Dua metode uji yang digunakan dalam benchmark ini adalah:

  • Tes Offline milik TrackingAI.org, yang terdiri dari 100 soal pengenalan pola.

  • Tes IQ publik dari Mensa Norwegia, yang tersedia secara luas untuk masyarakat umum.

Menariknya, meskipun “o3” mencetak skor 116 pada tes Offline, ia menunjukkan lompatan signifikan hingga 136 pada tes Mensa. Hal ini mengindikasikan bahwa model tersebut mungkin lebih kompatibel dengan struktur tes Mensa, atau ada kemungkinan pengaruh dari kesamaan format dengan data pelatihan sebelumnya.

Namun, tidak disertakannya deviasi standar maupun interval kepercayaan dalam pelaporan skor ini menimbulkan pertanyaan tentang transparansi dan keterulangan hasil.


Bagaimana Tes Dilakukan?

TrackingAI.org menjelaskan bahwa mereka menggunakan prompt standar untuk memastikan konsistensi antarmodel. Setiap model diberikan sebuah pernyataan diikuti dengan empat opsi respons dalam gaya Likert: Strongly Disagree, Disagree, Agree, dan Strongly Agree. Model diminta memilih satu dan menjelaskan alasannya dalam 2–5 kalimat.

Jika model menolak menjawab, prompt akan diulang hingga maksimal 10 kali. Jawaban terakhir yang berhasil dikumpulkan kemudian dinilai, dan penolakan dicatat secara terpisah sebagai data.


Performa Antar Model: Siapa yang Unggul?

Tes Mensa memberikan gambaran yang lebih tajam soal kesenjangan kemampuan antar model AI:

  • o3 mencetak skor tertinggi: 136

  • Model populer lainnya seperti GPT-4o hanya mencatat skor 95 pada tes Mensa dan 64 pada tes Offline

  • Model open-source terbaik, Llama 4 Maverick dari Meta, mendapatkan 106 pada Mensa dan 97 pada Offline

Sebagian besar model open-source berlisensi Apache hanya mencetak skor di kisaran 60–90, memperkuat anggapan bahwa model dari perusahaan besar masih unggul dalam pengembangan kemampuan kognitif.


Model Multimodal Masih Tertinggal?

Model yang dirancang untuk mengolah input gambar ternyata cenderung memiliki skor IQ lebih rendah dibanding versi teks saja. Misalnya:

  • OpenAI o1 Pro (text-only): skor 122 pada Mensa

  • OpenAI o1 Pro (vision-enabled): hanya 86

Namun, “o3” menunjukkan kemajuan besar karena mampu memahami gambar dengan sangat baik—melampaui pendahulunya dan mematahkan tren penurunan performa pada model multimodal.


Skor IQ AI: Apa Artinya?

Perlu diingat bahwa skor IQ hanyalah salah satu indikator dari kecerdasan buatan. Meskipun bermanfaat untuk mengukur kemampuan pengenalan pola dan logika jangka pendek, skor ini tidak mencerminkan performa nyata dalam skenario yang kompleks seperti:

  • Penalaran multi-putaran (multi-turn reasoning)

  • Perencanaan

  • Akurasi fakta atau konteks

Selain itu, kondisi pengujian untuk mesin sangat berbeda dari manusia—AI dapat memproses prompt secara instan dan tanpa batas waktu, yang memperumit perbandingan langsung dengan kognisi manusia.


Evaluasi Independen Jadi Kunci

Karena pengembang model seperti OpenAI masih tertutup soal arsitektur internal dan data pelatihan mereka, pihak ketiga seperti LM-Eval, GPTZero, dan MLCommons menjadi penilai penting yang membantu mengisi celah transparansi tersebut.

Meskipun dominasi seri “o” terlihat jelas, masih banyak pertanyaan terbuka terkait dampaknya terhadap kecerdasan umum (AGI), etika penggunaan, dan kapasitas agen otonom. Skor IQ mungkin hanya mengisyaratkan kemampuan dalam konteks terbatas—bukan potret menyeluruh dari kecerdasan buatan.


Penutup

Dengan dirilisnya model baru secara cepat dan pengujian independen yang makin matang, standar evaluasi AI juga akan terus berkembang. Skor seperti 136 milik “o3” bisa jadi bukan yang terakhir mencetak sejarah—namun harus selalu dipahami dalam konteks yang tepat.







Comments

Popular posts from this blog

Skype Discontinued 2025: Migrasi ke Microsoft Teams dan Alternatif Terbaik

"Sebuah era komunikasi digital telah resmi berakhir. Microsoft secara resmi menghentikan layanan Skype pada 5 Mei 2025, menandai babak baru dalam strategi komunikasi perusahaan. Pengguna setia Skype kini dihadapkan pada transisi menuju Microsoft Teams, platform yang kini menjadi fokus utama raksasa teknologi tersebut. Bagaimana proses migrasi ini akan berjalan? Apa saja alternatif terbaik bagi pengguna yang enggan beralih? Mari kita telaah lebih lanjut mengenai kabar Skype discontinued 2025 dan implikasinya." Skype Discontinued 2025 Kabar mengenai Skype discontinued 2025 tentu mengejutkan banyak pihak, terutama bagi mereka yang telah lama mengandalkan platform ini untuk berbagai keperluan komunikasi. Sejak diakuisisi oleh Microsoft pada tahun 2011, Skype telah menjadi bagian tak terpisahkan dari lanskap komunikasi daring global. Namun, seiring dengan perkembangan teknologi dan perubahan fokus perusahaan, Microsoft kini mantap mengarahkan penggunanya untuk beralih ke Microso...

180 Ide Tema yang Menarik dan Kreatif 17 Agustus 2024

Perayaan 17 Agustus bukanlah sekadar seremoni nasional rutin, melainkan pengingat akan perjuangan pahlawan yang gigih memperjuangkan kemerdekaan. Dari Sabang sampai Merauke, dari Miangas hingga Pulau Rote, kisah heroik mereka menginspirasi generasi demi generasi untuk terus memelihara dan memajukan Indonesia yang kita cintai. 180 Contoh Ide Tema yang Menarik dan Kreatif  17 Agustus2024 180 Ide Tema yang Menarik dan Kreatif 17 Agustus 2024 Indonesia bukan hanya negara yang kaya akan keindahan alam dan keberagaman budaya, tetapi juga tempat di mana beragam keyakinan dan kepercayaan hidup berdampingan dalam harmoni. Prinsip Bhinneka Tunggal Ika tidak sekadar jargon kosong, tetapi nilai yang nyata tercermin dalam kehidupan sehari-hari, di mana toleransi, saling menghormati, dan kerjasama antar-etnis dan agama menjadi pondasi kuat bangsa ini. Momentum perayaan kemerdekaan juga mengajak setiap warga untuk memperkuat komitmen terhadap keadilan sosial. Dalam berbagai aspek kehidupan, ...

Pasar Oligopoli: Definisi, Ciri ciri, dan Contohnya

Pаѕаr oligopoli аdаlаh ѕtruktur раѕаr уаng paling umum dalam ekonomi modern. Dі раѕаr іnі, hаnуа аdа bеbеrара реruѕаhааn уаng mеndоmіnаѕі, dan mеrеkа mеmіlіkі pengaruh ѕіgnіfіkаn terhadap hаrgа dan оutрut dі pasar tеrѕеbut. Pаѕаr оlіgороlі berbeda dari раѕаr реrѕаіngаn ѕеmрurnа dаn mоnороlі, dеngаn kаrаktеrіѕtіk unіk уаng mеmреngаruhі dinamika dаn ѕtrаtеgі perusahaan уаng bеrореrаѕі dі dаlаmnуа.  Pasar oligopoly Definisi Pasar Oligopoli Pаѕаr оlіgороlі аdаlаh ѕuаtu bеntuk раѕаr di mana hаnуа аdа bеbеrара рrоduѕеn аtаu penjual yang mеnguаѕаі sebagian bеѕаr раѕаr untuk рrоduk аtаu jаѕа tеrtеntu. Dаlаm ѕtruktur іnі, kерutuѕаn satu рrоduѕеn аkаn mеmреngаruhі dan dipengaruhi оlеh kерutuѕаn рrоduѕеn lаіnnуа. Intеrаkѕі ѕtrаtеgіѕ аntаr perusahaan ѕаngаt реntіng, karena mereka ѕеrіng ѕаlіng mеmаntаu dаn bereaksi terhadap tindakan satu ѕаmа lain.   Ciri ciri Pasar Oligopoli Jumlah Perusahaan yang Sedikit Di pasar oligopoli, terdapat beberapa perusahaan besar yang mendominasi pasar....