AIの「汎用的な推論力」を測るための視覚パズル
ARC(Abstraction and Reasoning Corpus)は、AI研究者 François Chollet が2019年に提唱したベンチマークです。人間にとっては直感的に解けるが、AIにとっては極めて難しい——そんなパズルを集めたものです。
ポイントは、事前に正解パターンを暗記することでは解けないこと。各問題のルールはすべてユニークで、少数の例からその場で規則を見出す「流動性知能」が問われます。
約2000問すべてのルールが異なり、暗記や過去問の流用が不可能。その場で推論するしかない。
ヒントは通常2〜5組。この少数の例だけから抽象的なルールを導く必要がある。
対象の永続性、数の感覚、幾何学的直感(対称性・連結性)など、人間が生得的に持つ認知能力を使う。
出力グリッドのすべてのセルの色と位置が完全に一致して初めて正解。「だいたい合っている」では0点。
2025年3月にリリースされた第2版では、以下の点で難度が上がっています:
ARC-1は「1つの変換ルールを見つける」問題が多かったが、ARC-2は複数のルールが同時に作用する。
ステップNの結果がステップN+1の入力になる、逐次的な適用が求められる問題。
同じルールでも、グリッド内の文脈要素によって適用方法が変わる。
最大30×30。オブジェクト数も概念数も増加し、情報量が大幅に増えている。
ARC AGI 2 スコア比較(PDFの表より)
ちなみに、人間の平均正答率はARC-1の訓練セットで 76.2%、エキスパートで 98.5% とされています。Opus 4.6の68.8%は人間の平均にかなり近づいてきた数値ですが、ARC-2は1より難しいため、単純比較はできません。
実際のパズルは arcprize.org/play で試すことができます。