Skip to main content

Model AI Terpintar? OpenAI o3 Raih Skor IQ 136 di Tes Mensa

 Model bahasa terbaru dari OpenAI, yang diberi nama “o3”, mencetak skor IQ mengesankan sebesar 136 dalam tes intelegensi publik dari Mensa Norwegia. Capaian ini secara resmi melewati ambang batas keanggotaan Mensa di negara tersebut, menjadikan “o3” sebagai model pertama yang mencapainya.

OpenAI o3
Berdasarkan distribusi IQ standar berbentuk kurva lonceng (bell curve), skor tersebut menempatkan model ini di atas sekitar 98% populasi manusia. Nilai tersebut dihitung menggunakan rata-rata bergulir dari tujuh pengujian terakhir yang dilakukan.

Informasi ini dirilis oleh TrackingAI.org, sebuah platform independen yang mengkhususkan diri dalam pemantauan dan penilaian performa model AI terbaru.



Dominasi Seri O dan Metodologi Penilaian

Model “o3” merupakan bagian dari seri “o” milik OpenAI, yang kini mendominasi hampir seluruh peringkat teratas dalam pengujian kemampuan kognitif oleh TrackingAI. Dua metode uji yang digunakan dalam benchmark ini adalah:

  • Tes Offline milik TrackingAI.org, yang terdiri dari 100 soal pengenalan pola.

  • Tes IQ publik dari Mensa Norwegia, yang tersedia secara luas untuk masyarakat umum.

Menariknya, meskipun “o3” mencetak skor 116 pada tes Offline, ia menunjukkan lompatan signifikan hingga 136 pada tes Mensa. Hal ini mengindikasikan bahwa model tersebut mungkin lebih kompatibel dengan struktur tes Mensa, atau ada kemungkinan pengaruh dari kesamaan format dengan data pelatihan sebelumnya.

Namun, tidak disertakannya deviasi standar maupun interval kepercayaan dalam pelaporan skor ini menimbulkan pertanyaan tentang transparansi dan keterulangan hasil.


Bagaimana Tes Dilakukan?

TrackingAI.org menjelaskan bahwa mereka menggunakan prompt standar untuk memastikan konsistensi antarmodel. Setiap model diberikan sebuah pernyataan diikuti dengan empat opsi respons dalam gaya Likert: Strongly Disagree, Disagree, Agree, dan Strongly Agree. Model diminta memilih satu dan menjelaskan alasannya dalam 2–5 kalimat.

Jika model menolak menjawab, prompt akan diulang hingga maksimal 10 kali. Jawaban terakhir yang berhasil dikumpulkan kemudian dinilai, dan penolakan dicatat secara terpisah sebagai data.


Performa Antar Model: Siapa yang Unggul?

Tes Mensa memberikan gambaran yang lebih tajam soal kesenjangan kemampuan antar model AI:

  • o3 mencetak skor tertinggi: 136

  • Model populer lainnya seperti GPT-4o hanya mencatat skor 95 pada tes Mensa dan 64 pada tes Offline

  • Model open-source terbaik, Llama 4 Maverick dari Meta, mendapatkan 106 pada Mensa dan 97 pada Offline

Sebagian besar model open-source berlisensi Apache hanya mencetak skor di kisaran 60–90, memperkuat anggapan bahwa model dari perusahaan besar masih unggul dalam pengembangan kemampuan kognitif.


Model Multimodal Masih Tertinggal?

Model yang dirancang untuk mengolah input gambar ternyata cenderung memiliki skor IQ lebih rendah dibanding versi teks saja. Misalnya:

  • OpenAI o1 Pro (text-only): skor 122 pada Mensa

  • OpenAI o1 Pro (vision-enabled): hanya 86

Namun, “o3” menunjukkan kemajuan besar karena mampu memahami gambar dengan sangat baik—melampaui pendahulunya dan mematahkan tren penurunan performa pada model multimodal.


Skor IQ AI: Apa Artinya?

Perlu diingat bahwa skor IQ hanyalah salah satu indikator dari kecerdasan buatan. Meskipun bermanfaat untuk mengukur kemampuan pengenalan pola dan logika jangka pendek, skor ini tidak mencerminkan performa nyata dalam skenario yang kompleks seperti:

  • Penalaran multi-putaran (multi-turn reasoning)

  • Perencanaan

  • Akurasi fakta atau konteks

Selain itu, kondisi pengujian untuk mesin sangat berbeda dari manusia—AI dapat memproses prompt secara instan dan tanpa batas waktu, yang memperumit perbandingan langsung dengan kognisi manusia.


Evaluasi Independen Jadi Kunci

Karena pengembang model seperti OpenAI masih tertutup soal arsitektur internal dan data pelatihan mereka, pihak ketiga seperti LM-Eval, GPTZero, dan MLCommons menjadi penilai penting yang membantu mengisi celah transparansi tersebut.

Meskipun dominasi seri “o” terlihat jelas, masih banyak pertanyaan terbuka terkait dampaknya terhadap kecerdasan umum (AGI), etika penggunaan, dan kapasitas agen otonom. Skor IQ mungkin hanya mengisyaratkan kemampuan dalam konteks terbatas—bukan potret menyeluruh dari kecerdasan buatan.


Penutup

Dengan dirilisnya model baru secara cepat dan pengujian independen yang makin matang, standar evaluasi AI juga akan terus berkembang. Skor seperti 136 milik “o3” bisa jadi bukan yang terakhir mencetak sejarah—namun harus selalu dipahami dalam konteks yang tepat.







Comments

Popular posts from this blog

Apple Watch Lebih dari Sekedar Jam Tangan, Intip Keunggulan dan Spesifikasinya!

Siapa yang tak kenal Apple Watch ? Sejak awal kemunculannya, perangkat wearable canggih dari Apple ini bertransformasi. Dahulu sekadar penunjuk waktu, kini ia menjadi asisten pribadi di pergelangan tangan. Segudang fitur canggihnya memikat penggemar teknologi. Calon pembeli produk Apple Watch pun tak ketinggalan. Komunitas setia Apple Watch juga terus bertambah. Mari kita telaah lebih dalam mengapa Apple Watch begitu istimewa. Apa saja spesifikasi hardware serta software yang menjadikannya unggul? Apple Watch: Mengapa Apple Watch Begitu Diminati? Popularitas Apple Watch tidak datang begitu saja. Ada sejumlah faktor yang menjadikannya incaran banyak orang. Desainnya elegan dan terus berkembang. Integrasi mulus dengan ekosistem Apple lainnya menjadi daya tarik utama. Kemampuannya dalam memantau kesehatan dan kebugaran juga sangat menarik. Tak heran, Apple Watch terus mendominasi pasar smartwatch global. " Apple Watch bukan hanya perangkat," ujar Tim Cook, CEO Apple. ...

Skype Discontinued 2025: Migrasi ke Microsoft Teams dan Alternatif Terbaik

"Sebuah era komunikasi digital telah resmi berakhir. Microsoft secara resmi menghentikan layanan Skype pada 5 Mei 2025, menandai babak baru dalam strategi komunikasi perusahaan. Pengguna setia Skype kini dihadapkan pada transisi menuju Microsoft Teams, platform yang kini menjadi fokus utama raksasa teknologi tersebut. Bagaimana proses migrasi ini akan berjalan? Apa saja alternatif terbaik bagi pengguna yang enggan beralih? Mari kita telaah lebih lanjut mengenai kabar Skype discontinued 2025 dan implikasinya." Skype Discontinued 2025 Kabar mengenai Skype discontinued 2025 tentu mengejutkan banyak pihak, terutama bagi mereka yang telah lama mengandalkan platform ini untuk berbagai keperluan komunikasi. Sejak diakuisisi oleh Microsoft pada tahun 2011, Skype telah menjadi bagian tak terpisahkan dari lanskap komunikasi daring global. Namun, seiring dengan perkembangan teknologi dan perubahan fokus perusahaan, Microsoft kini mantap mengarahkan penggunanya untuk beralih ke Microso...

Motorola Edge 60 Stylus Ungkap Keunggulan, Spesifikasi, dan Harga Terkini

Motorola Edge 60 Stylus hadir sebagai jawaban bagi para pengguna yang mendambakan inovasi dan fungsionalitas dalam genggaman. Perangkat ini tidak hanya menawarkan performa mumpuni, tetapi juga keunggulan stylus yang semakin memanjakan kreativitas dan produktivitas penggunanya. Setelah sukses dengan seri Edge sebelumnya, Motorola kembali menggebrak pasar dengan Motorola Edge 60 Stylus . Smartphone ini dirancang untuk memenuhi kebutuhan beragam penggunanya, mulai dari penggemar teknologi, profesional muda, hingga mereka yang aktif dalam dunia kreatif. Kehadiran stylus pada seri ini tentu menjadi daya tarik utama, membuka berbagai kemungkinan interaksi yang lebih intuitif dan efisien. Motorola Edge 60 Stylus Lantas, apa saja yang membuat Motorola Edge 60 Stylus begitu istimewa? Bagaimana spesifikasi hardware dan softwarenya mampu mendukung berbagai aktivitas penggunanya? Dan yang paling penting, berapa perkiraan harga serta kapan perangkat ini dirilis? Mari kita telaah lebih dalam berba...