Skip to main content

Model AI Terpintar? OpenAI o3 Raih Skor IQ 136 di Tes Mensa

 Model bahasa terbaru dari OpenAI, yang diberi nama “o3”, mencetak skor IQ mengesankan sebesar 136 dalam tes intelegensi publik dari Mensa Norwegia. Capaian ini secara resmi melewati ambang batas keanggotaan Mensa di negara tersebut, menjadikan “o3” sebagai model pertama yang mencapainya.

OpenAI o3
Berdasarkan distribusi IQ standar berbentuk kurva lonceng (bell curve), skor tersebut menempatkan model ini di atas sekitar 98% populasi manusia. Nilai tersebut dihitung menggunakan rata-rata bergulir dari tujuh pengujian terakhir yang dilakukan.

Informasi ini dirilis oleh TrackingAI.org, sebuah platform independen yang mengkhususkan diri dalam pemantauan dan penilaian performa model AI terbaru.



Dominasi Seri O dan Metodologi Penilaian

Model “o3” merupakan bagian dari seri “o” milik OpenAI, yang kini mendominasi hampir seluruh peringkat teratas dalam pengujian kemampuan kognitif oleh TrackingAI. Dua metode uji yang digunakan dalam benchmark ini adalah:

  • Tes Offline milik TrackingAI.org, yang terdiri dari 100 soal pengenalan pola.

  • Tes IQ publik dari Mensa Norwegia, yang tersedia secara luas untuk masyarakat umum.

Menariknya, meskipun “o3” mencetak skor 116 pada tes Offline, ia menunjukkan lompatan signifikan hingga 136 pada tes Mensa. Hal ini mengindikasikan bahwa model tersebut mungkin lebih kompatibel dengan struktur tes Mensa, atau ada kemungkinan pengaruh dari kesamaan format dengan data pelatihan sebelumnya.

Namun, tidak disertakannya deviasi standar maupun interval kepercayaan dalam pelaporan skor ini menimbulkan pertanyaan tentang transparansi dan keterulangan hasil.


Bagaimana Tes Dilakukan?

TrackingAI.org menjelaskan bahwa mereka menggunakan prompt standar untuk memastikan konsistensi antarmodel. Setiap model diberikan sebuah pernyataan diikuti dengan empat opsi respons dalam gaya Likert: Strongly Disagree, Disagree, Agree, dan Strongly Agree. Model diminta memilih satu dan menjelaskan alasannya dalam 2–5 kalimat.

Jika model menolak menjawab, prompt akan diulang hingga maksimal 10 kali. Jawaban terakhir yang berhasil dikumpulkan kemudian dinilai, dan penolakan dicatat secara terpisah sebagai data.


Performa Antar Model: Siapa yang Unggul?

Tes Mensa memberikan gambaran yang lebih tajam soal kesenjangan kemampuan antar model AI:

  • o3 mencetak skor tertinggi: 136

  • Model populer lainnya seperti GPT-4o hanya mencatat skor 95 pada tes Mensa dan 64 pada tes Offline

  • Model open-source terbaik, Llama 4 Maverick dari Meta, mendapatkan 106 pada Mensa dan 97 pada Offline

Sebagian besar model open-source berlisensi Apache hanya mencetak skor di kisaran 60–90, memperkuat anggapan bahwa model dari perusahaan besar masih unggul dalam pengembangan kemampuan kognitif.


Model Multimodal Masih Tertinggal?

Model yang dirancang untuk mengolah input gambar ternyata cenderung memiliki skor IQ lebih rendah dibanding versi teks saja. Misalnya:

  • OpenAI o1 Pro (text-only): skor 122 pada Mensa

  • OpenAI o1 Pro (vision-enabled): hanya 86

Namun, “o3” menunjukkan kemajuan besar karena mampu memahami gambar dengan sangat baik—melampaui pendahulunya dan mematahkan tren penurunan performa pada model multimodal.


Skor IQ AI: Apa Artinya?

Perlu diingat bahwa skor IQ hanyalah salah satu indikator dari kecerdasan buatan. Meskipun bermanfaat untuk mengukur kemampuan pengenalan pola dan logika jangka pendek, skor ini tidak mencerminkan performa nyata dalam skenario yang kompleks seperti:

  • Penalaran multi-putaran (multi-turn reasoning)

  • Perencanaan

  • Akurasi fakta atau konteks

Selain itu, kondisi pengujian untuk mesin sangat berbeda dari manusia—AI dapat memproses prompt secara instan dan tanpa batas waktu, yang memperumit perbandingan langsung dengan kognisi manusia.


Evaluasi Independen Jadi Kunci

Karena pengembang model seperti OpenAI masih tertutup soal arsitektur internal dan data pelatihan mereka, pihak ketiga seperti LM-Eval, GPTZero, dan MLCommons menjadi penilai penting yang membantu mengisi celah transparansi tersebut.

Meskipun dominasi seri “o” terlihat jelas, masih banyak pertanyaan terbuka terkait dampaknya terhadap kecerdasan umum (AGI), etika penggunaan, dan kapasitas agen otonom. Skor IQ mungkin hanya mengisyaratkan kemampuan dalam konteks terbatas—bukan potret menyeluruh dari kecerdasan buatan.


Penutup

Dengan dirilisnya model baru secara cepat dan pengujian independen yang makin matang, standar evaluasi AI juga akan terus berkembang. Skor seperti 136 milik “o3” bisa jadi bukan yang terakhir mencetak sejarah—namun harus selalu dipahami dalam konteks yang tepat.







Comments

Popular posts from this blog

180 Ide Tema yang Menarik dan Kreatif 17 Agustus 2024

Perayaan 17 Agustus bukanlah sekadar seremoni nasional rutin, melainkan pengingat akan perjuangan pahlawan yang gigih memperjuangkan kemerdekaan. Dari Sabang sampai Merauke, dari Miangas hingga Pulau Rote, kisah heroik mereka menginspirasi generasi demi generasi untuk terus memelihara dan memajukan Indonesia yang kita cintai. 180 Contoh Ide Tema yang Menarik dan Kreatif  17 Agustus2024 180 Ide Tema yang Menarik dan Kreatif 17 Agustus 2024 Indonesia bukan hanya negara yang kaya akan keindahan alam dan keberagaman budaya, tetapi juga tempat di mana beragam keyakinan dan kepercayaan hidup berdampingan dalam harmoni. Prinsip Bhinneka Tunggal Ika tidak sekadar jargon kosong, tetapi nilai yang nyata tercermin dalam kehidupan sehari-hari, di mana toleransi, saling menghormati, dan kerjasama antar-etnis dan agama menjadi pondasi kuat bangsa ini. Momentum perayaan kemerdekaan juga mengajak setiap warga untuk memperkuat komitmen terhadap keadilan sosial. Dalam berbagai aspek kehidupan, ...

Temukan Peluang Bisnis Wage Minuman yang Menjanjikan

 Industri minuman di Indonesia sedang berkembang pesat.  Wage minuman  tradisional menawarkan peluang bisnis yang menarik. Ini karena  wage minuman  tidak hanya memiliki cita rasa unik, tetapi juga manfaat kesehatan yang semakin populer. Wage Minuman Artikel ini akan membahas peluang usaha  wage minuman . Kami akan membahas tren pasar, strategi memulai bisnis, dan aspek penting lainnya. Ini semua untuk membantu Anda memahami lebih dalam tentang bisnis ini. Intisari Penting Wage  minuman tradisional  memiliki potensi pasar yang menjanjikan di Indonesia. Tren konsumsi  minuman herbal  dan  jamu  semakin meningkat, membuka peluang bagi pengusaha. Strategi pemasaran yang efektif dan inovasi produk penting untuk meraih sukses di bisnis ini. Pemilihan lokasi usaha yang strategis serta manajemen bahan baku yang baik akan mendukung keberlanjutan bisnis. Aspek legalitas dan perizinan usaha harus diperhatikan untuk menjalankan bisnis wag...

OPPO A3X: Budget Smartphone with Premium Features

 OPPO kembali hadir dengan smartphone yang menawarkan harga terjangkau dan fitur premium. Smartphone ini,  OPPO A3X , dirancang untuk mereka yang ingin performa tinggi tanpa menguras dompet. Artikel ini akan membahas  OPPO A3X  dari berbagai sudut. Kami akan membahas spesifikasi, desain, performa, kamera, baterai, dan fitur-fitur unggulannya. Tujuan kami adalah agar pembaca bisa memahami apa yang ditawarkan  OPPO A3X  dan apakah ini cocok untuk mereka. OPPO A3X Ringkasan Utama OPPO A3X adalah smartphone terjangkau dengan fitur premium Memiliki desain menarik dan build quality yang baik Performa sistem yang responsif dan memadai untuk penggunaan sehari-hari Dilengkapi kamera yang dapat menghasilkan foto dan video berkualitas Baterai berkapasitas besar dengan dukungan fast charging Menawarkan beragam fitur canggih dan user experience yang mumpuni Harga yang relatif terjangkau bagi segmen pasar menengah ke bawah Mengenal OPPO A3X: Smartphone Ekonomis dengan Fi...