프랑소와 숄레의 ARC 벤치마크: AI는 정말 지능적인가?

2월 03, 2026

프랑소와 숄레의 ARC 벤치마크 분석: LLM의 한계와 지능의 본질

현대 딥러닝의 거두이자 케라스(Keras)의 창시자인 프랑소와 숄레(François Chollet)는 현재의 LLM 열풍 속에서 냉철한 비판을 던집니다. 그는 AI가 단순히 방대한 데이터를 암기하는 것을 넘어, 처음 보는 문제를 해결하는 능력을 갖춰야 한다고 주장하며 ARC(Abstraction and Reasoning Corpus) 벤치마크를 제시했습니다.

1. ARC(Abstraction and Reasoning Corpus)란 무엇인가?

ARC는 2019년 숄레가 발표한 지능 측정용 데이터셋으로, 지식의 양이 아닌 '일반화 능력(Generalization)'을 측정하는 데 초점을 맞춥니다.

형태: 색상 점으로 구성된 격자(Grid) 이미지 퍼즐.
핵심 과제: 몇 가지 예시를 보고 규칙을 찾아내어 새로운 입력값에 대한 출력값을 직접 생성함.
차별점: 인간에게는 매우 직관적이지만, 대규모 데이터 학습에 의존하는 AI에게는 극도로 어려운 논리적 도약을 요구합니다.

2. 왜 ARC는 LLM의 천적인가? (핵심 원리)

숄레는 LLM이 '지능'이 아닌 '기억'에 기반하고 있다고 지적합니다. ARC가 LLM의 약점을 찌르는 이유는 다음과 같습니다.

① 암기 불가능한 제로샷 추론 (Zero-shot Reasoning)

ARC 퍼즐은 학습 데이터에 포함되지 않은 완전히 새로운 논리를 사용합니다. 수조 개의 토큰을 외운 LLM이라도 처음 보는 기하학적 규칙 앞에서는 '검색' 기반의 답변이 불가능해집니다.

② 시스템 2 사고(Deep Thinking)의 요구

빠른 직관인 '시스템 1' 사고에 능한 LLM과 달리, ARC는 단계별로 논리를 검증하고 수정하는 깊은 사고 능력이 필수적입니다.

③ 극단적인 데이터 효율성 차이

인간은 단 2~3개의 예시만 보고도 규칙을 파악하지만, AI는 동일한 일반화 능력을 얻기 위해 방대한 데이터를 요구합니다. 숄레는 이 '학습 효율성'의 차이가 지능의 본질이라고 강조합니다.

3. ARC 벤치마크의 구성과 난이도 비교

구분	인간 (Human)	현재 최상위 AI (LLM)
정답률	약 85% 이상	약 20~30% 내외 (정체 중)
필요 예시 수	2~3개 (극소량)	수만 개의 유사 데이터 필요
해결 방식	추상적 논리 추론	통계적 패턴 매칭

4. 숄레가 강조하는 AI의 미래 방향성

프랑소와 숄레는 ARC를 통해 AI 산업이 나아가야 할 세 가지 방향을 제시합니다.

규모의 경제 탈피: 데이터를 무한정 늘리는 '확장 법칙(Scaling Laws)'만으로는 진정한 지능에 도달할 수 없습니다.
프로그램 합성(Program Synthesis): AI가 문제를 해결하기 위한 '알고리즘'을 실시간으로 스스로 코딩하는 능력이 필요합니다.
적응력 중심의 AGI: 새로운 환경에 즉각 적응하는 능력을 갖춘 존재야말로 진정한 범용 인공지능(AGI)입니다.

cufe21