ARC AGI パズルとは何か

AIの「汎用的な推論力」を測るための視覚パズル

ARC（Abstraction and Reasoning Corpus）は、AI研究者 François Chollet が2019年に提唱したベンチマークです。人間にとっては直感的に解けるが、AIにとっては極めて難しい——そんなパズルを集めたものです。

ポイントは、事前に正解パターンを暗記することでは解けないこと。各問題のルールはすべてユニークで、少数の例からその場で規則を見出す「流動性知能」が問われます。

パズルの例① — 色の反転

訓練例（ヒント）

例1

→

例2

→

テスト（解答すべき問題）

問題

→

？

パズルの例② — 対称性の補完

訓練例（ヒント）

例1

→

例2

→

テスト

問題

→

？

なぜこれが難しいのか

🧩 各問題がユニーク

約2000問すべてのルールが異なり、暗記や過去問の流用が不可能。その場で推論するしかない。

🔍 少数の例から一般化

ヒントは通常2〜5組。この少数の例だけから抽象的なルールを導く必要がある。

📐 人間の認知的基盤を前提

対象の永続性、数の感覚、幾何学的直感（対称性・連結性）など、人間が生得的に持つ認知能力を使う。

🎯 完全一致のみ正解

出力グリッドのすべてのセルの色と位置が完全に一致して初めて正解。「だいたい合っている」では0点。

ARC-AGI-2 ではさらに複雑に

2025年3月にリリースされた第2版では、以下の点で難度が上がっています：

複合ルール

ARC-1は「1つの変換ルールを見つける」問題が多かったが、ARC-2は複数のルールが同時に作用する。

多段階推論

ステップNの結果がステップN+1の入力になる、逐次的な適用が求められる問題。

文脈依存のルール

同じルールでも、グリッド内の文脈要素によって適用方法が変わる。

より大きなグリッド

最大30×30。オブジェクト数も概念数も増加し、情報量が大幅に増えている。

Opus 4.6 のスコア

68.8%

Opus 4.6

54.2%

GPT-5.2

45.1%

Gemini 3 Pro

37.6%

Opus 4.5

13.6%

Sonnet 4.5

ARC AGI 2 スコア比較（PDFの表より）

ちなみに、人間の平均正答率はARC-1の訓練セットで 76.2%、エキスパートで 98.5% とされています。Opus 4.6の68.8%は人間の平均にかなり近づいてきた数値ですが、ARC-2は1より難しいため、単純比較はできません。

実際のパズルは arcprize.org/play で試すことができます。