Skip to main content

Model AI Terpintar? OpenAI o3 Raih Skor IQ 136 di Tes Mensa

 Model bahasa terbaru dari OpenAI, yang diberi nama “o3”, mencetak skor IQ mengesankan sebesar 136 dalam tes intelegensi publik dari Mensa Norwegia. Capaian ini secara resmi melewati ambang batas keanggotaan Mensa di negara tersebut, menjadikan “o3” sebagai model pertama yang mencapainya.

OpenAI o3
Berdasarkan distribusi IQ standar berbentuk kurva lonceng (bell curve), skor tersebut menempatkan model ini di atas sekitar 98% populasi manusia. Nilai tersebut dihitung menggunakan rata-rata bergulir dari tujuh pengujian terakhir yang dilakukan.

Informasi ini dirilis oleh TrackingAI.org, sebuah platform independen yang mengkhususkan diri dalam pemantauan dan penilaian performa model AI terbaru.



Dominasi Seri O dan Metodologi Penilaian

Model “o3” merupakan bagian dari seri “o” milik OpenAI, yang kini mendominasi hampir seluruh peringkat teratas dalam pengujian kemampuan kognitif oleh TrackingAI. Dua metode uji yang digunakan dalam benchmark ini adalah:

  • Tes Offline milik TrackingAI.org, yang terdiri dari 100 soal pengenalan pola.

  • Tes IQ publik dari Mensa Norwegia, yang tersedia secara luas untuk masyarakat umum.

Menariknya, meskipun “o3” mencetak skor 116 pada tes Offline, ia menunjukkan lompatan signifikan hingga 136 pada tes Mensa. Hal ini mengindikasikan bahwa model tersebut mungkin lebih kompatibel dengan struktur tes Mensa, atau ada kemungkinan pengaruh dari kesamaan format dengan data pelatihan sebelumnya.

Namun, tidak disertakannya deviasi standar maupun interval kepercayaan dalam pelaporan skor ini menimbulkan pertanyaan tentang transparansi dan keterulangan hasil.


Bagaimana Tes Dilakukan?

TrackingAI.org menjelaskan bahwa mereka menggunakan prompt standar untuk memastikan konsistensi antarmodel. Setiap model diberikan sebuah pernyataan diikuti dengan empat opsi respons dalam gaya Likert: Strongly Disagree, Disagree, Agree, dan Strongly Agree. Model diminta memilih satu dan menjelaskan alasannya dalam 2–5 kalimat.

Jika model menolak menjawab, prompt akan diulang hingga maksimal 10 kali. Jawaban terakhir yang berhasil dikumpulkan kemudian dinilai, dan penolakan dicatat secara terpisah sebagai data.


Performa Antar Model: Siapa yang Unggul?

Tes Mensa memberikan gambaran yang lebih tajam soal kesenjangan kemampuan antar model AI:

  • o3 mencetak skor tertinggi: 136

  • Model populer lainnya seperti GPT-4o hanya mencatat skor 95 pada tes Mensa dan 64 pada tes Offline

  • Model open-source terbaik, Llama 4 Maverick dari Meta, mendapatkan 106 pada Mensa dan 97 pada Offline

Sebagian besar model open-source berlisensi Apache hanya mencetak skor di kisaran 60–90, memperkuat anggapan bahwa model dari perusahaan besar masih unggul dalam pengembangan kemampuan kognitif.


Model Multimodal Masih Tertinggal?

Model yang dirancang untuk mengolah input gambar ternyata cenderung memiliki skor IQ lebih rendah dibanding versi teks saja. Misalnya:

  • OpenAI o1 Pro (text-only): skor 122 pada Mensa

  • OpenAI o1 Pro (vision-enabled): hanya 86

Namun, “o3” menunjukkan kemajuan besar karena mampu memahami gambar dengan sangat baik—melampaui pendahulunya dan mematahkan tren penurunan performa pada model multimodal.


Skor IQ AI: Apa Artinya?

Perlu diingat bahwa skor IQ hanyalah salah satu indikator dari kecerdasan buatan. Meskipun bermanfaat untuk mengukur kemampuan pengenalan pola dan logika jangka pendek, skor ini tidak mencerminkan performa nyata dalam skenario yang kompleks seperti:

  • Penalaran multi-putaran (multi-turn reasoning)

  • Perencanaan

  • Akurasi fakta atau konteks

Selain itu, kondisi pengujian untuk mesin sangat berbeda dari manusia—AI dapat memproses prompt secara instan dan tanpa batas waktu, yang memperumit perbandingan langsung dengan kognisi manusia.


Evaluasi Independen Jadi Kunci

Karena pengembang model seperti OpenAI masih tertutup soal arsitektur internal dan data pelatihan mereka, pihak ketiga seperti LM-Eval, GPTZero, dan MLCommons menjadi penilai penting yang membantu mengisi celah transparansi tersebut.

Meskipun dominasi seri “o” terlihat jelas, masih banyak pertanyaan terbuka terkait dampaknya terhadap kecerdasan umum (AGI), etika penggunaan, dan kapasitas agen otonom. Skor IQ mungkin hanya mengisyaratkan kemampuan dalam konteks terbatas—bukan potret menyeluruh dari kecerdasan buatan.


Penutup

Dengan dirilisnya model baru secara cepat dan pengujian independen yang makin matang, standar evaluasi AI juga akan terus berkembang. Skor seperti 136 milik “o3” bisa jadi bukan yang terakhir mencetak sejarah—namun harus selalu dipahami dalam konteks yang tepat.







Comments

Popular posts from this blog

Ela elo: Pengganti Ideal untuk X yang Harus Anda Pertimbangkan

Salah satu perubahan signifikan yang sedang terjadi adalah peralihan dari X ke Ela elo. Mengapa perubahan ini penting? Artikel ini akan menjelaskan alasan mengapa Ela elo menjadi pengganti yang lebih baik untuk X, serta manfaat yang bisa Anda peroleh dari penggunaan Ela elo. X telah lama menjadi solusi andalan bagi banyak perusahaan dan individu. Namun, seiring waktu, kekurangan-kekurangan X mulai terlihat, seperti kinerja yang tidak stabil dan masalah keamanan. Hal ini memicu kebutuhan akan alternatif yang lebih baik dan lebih andal. Ela elo: Pengganti Ideal untuk X Ela elo pengganti X Elа еlо dіkеmbаngkаn untuk mеngаtаѕі kelemahan-kelemahan уаng аdа pada X. Dеngаn tеknоlоgі terbaru dаn fitur-fitur іnоvаtіf, Ela еlо hadir sebagai ѕоluѕі уаng lebih bаіk dan lеbіh еfіѕіеn.  Elа elo menawarkan bеrbаgаі fitur саnggіh уаng tіdаk dіmіlіkі оlеh X. Mіѕаlnуа, Ela еlо mеnggunаkаn tеknоlоgі AI tеrbаru untuk mеnіngkаtkаn kіnеrjа dan еfіѕіеnѕі. Selain іtu, fіtur-fіtur ѕереrtі integrasi mudаh d...

180 Ide Tema yang Menarik dan Kreatif 17 Agustus 2024

Perayaan 17 Agustus bukanlah sekadar seremoni nasional rutin, melainkan pengingat akan perjuangan pahlawan yang gigih memperjuangkan kemerdekaan. Dari Sabang sampai Merauke, dari Miangas hingga Pulau Rote, kisah heroik mereka menginspirasi generasi demi generasi untuk terus memelihara dan memajukan Indonesia yang kita cintai. 180 Contoh Ide Tema yang Menarik dan Kreatif  17 Agustus2024 180 Ide Tema yang Menarik dan Kreatif 17 Agustus 2024 Indonesia bukan hanya negara yang kaya akan keindahan alam dan keberagaman budaya, tetapi juga tempat di mana beragam keyakinan dan kepercayaan hidup berdampingan dalam harmoni. Prinsip Bhinneka Tunggal Ika tidak sekadar jargon kosong, tetapi nilai yang nyata tercermin dalam kehidupan sehari-hari, di mana toleransi, saling menghormati, dan kerjasama antar-etnis dan agama menjadi pondasi kuat bangsa ini. Momentum perayaan kemerdekaan juga mengajak setiap warga untuk memperkuat komitmen terhadap keadilan sosial. Dalam berbagai aspek kehidupan, ...

Apple Watch Lebih dari Sekedar Jam Tangan, Intip Keunggulan dan Spesifikasinya!

Siapa yang tak kenal Apple Watch ? Sejak awal kemunculannya, perangkat wearable canggih dari Apple ini bertransformasi. Dahulu sekadar penunjuk waktu, kini ia menjadi asisten pribadi di pergelangan tangan. Segudang fitur canggihnya memikat penggemar teknologi. Calon pembeli produk Apple Watch pun tak ketinggalan. Komunitas setia Apple Watch juga terus bertambah. Mari kita telaah lebih dalam mengapa Apple Watch begitu istimewa. Apa saja spesifikasi hardware serta software yang menjadikannya unggul? Apple Watch: Mengapa Apple Watch Begitu Diminati? Popularitas Apple Watch tidak datang begitu saja. Ada sejumlah faktor yang menjadikannya incaran banyak orang. Desainnya elegan dan terus berkembang. Integrasi mulus dengan ekosistem Apple lainnya menjadi daya tarik utama. Kemampuannya dalam memantau kesehatan dan kebugaran juga sangat menarik. Tak heran, Apple Watch terus mendominasi pasar smartwatch global. " Apple Watch bukan hanya perangkat," ujar Tim Cook, CEO Apple. ...