실패한 신화들 - 왜 과거의 접근법은 한계에 부딪혔는가?

범용 로봇이라는 원대한 목표에 도달하기 위해, 연구자들은 오랫동안 몇 가지 직관적이고 매력적인 '신화'에 의존해왔다. 인간을 닮은 형태를 만들면 인간처럼 행동할 것이라는 믿음, 스스로 탐험하며 배우게 하면 지능이 창발할 것이라는 기대, 현실을 완벽히 모사한 가상 세계에서 모든 것을 해결하려는 꿈이 그것이다. 그러나 이 신화들은 로봇 공학의 냉엄한 제1원리 앞에서 하나씩 무너져 내렸다. 이 실패의 역사를 복기하는 것은, 우리가 나아갈 새로운 길을 이해하기 위한 필수적인 첫걸음이다.

1-1. '인간 모방'의 함정: 휴머노이드라는 형태의 저주

Physical AI 시대의 가장 화려한 아이콘은 단연 휴머노이드 로봇이다. 인간의 환경에서 인간의 과업을 수행하려면 인간과 같은 형태가 가장 이상적이라는 논리는 직관적으로 강력해 보인다. 그러나 이 '생물학적 모방(Biomimicry)'에 대한 집착은, 도구의 본질에 대한 제1원리를 간과함으로써 스스로의 발목을 잡는 결과를 낳았다.

도구의 제1원리는 '형태는 과업을 따른다(Form Follows Function)'는 것이다. 인류 문명의 가장 위대한 발명품인 바퀴는 '더 빠른 말'을 만들려는 노력이 아니라, '효율적인 이동'이라는 과업의 본질을 꿰뚫어 본 결과물이었다 [1]. 로봇 역시 마찬가지다. 우리는 '인간을 닮은 로봇'이 필요한 것이 아니라, '인간의 일을 더 잘 해낼 가장 효율적인 형태의 기계'가 필요하다.

이 원리에 비추어 볼 때, 휴머노이드는 세 가지 근본적인 '저주'를 안고 있다. 첫째, 제어의 저주다. 인간의 두 발 보행은 수십 개의 근육이 협응하는 '제어된 넘어짐'의 연속으로, 극도로 높은 자유도를 가진 불안정한 시스템이다. 현재의 AI 기술로는 이 고차원 동적 균형 문제를 안정적으로 해결하지 못하며, 이는 '넘어지면 아무것도 할 수 없는' 치명적인 제약으로 작용한다 [1]. 둘째, 비용의 저주다. Brad Porter가 지적했듯, "AI가 준비되지 않았을 때의 하드웨어 투자는 나쁜 투자다" [1]. 균형 잡기라는 미해결 문제에 막대한 하드웨어 비용을 쏟아붓는 것은, 운전 AI가 개발되기도 전에 사람 모양의 운전석을 만드는 것과 같은 비효율적인 투자다. 마지막으로, 효율성의 저주다. 대부분의 산업 및 상업 환경에서 핵심 과업은 '이동'이며, 이 과업에 있어 바퀴는 다리보다 에너지 효율이 3~4배나 높다 [2].

결론적으로, 휴머노이드는 '인간 형태'라는 해결책을 먼저 정해놓고 과업을 끼워 맞추려는, 제1원리에 역행하는 접근법이다. 이는 '인간 수준 로봇(Human-Capable Robot)'이라는 기능적 목표를 '인간 모방 로봇(Humanoid Robot)'이라는 형태적 목표와 혼동한 결과이며, 이로 인해 로봇 공학은 오랫동안 비효율과 불안정성의 늪에서 헤어나와야 했다 [2].

1-2. '순수한 탐험'의 비효율성: 강화학습의 정보 이론적 한계

휴머노이드가 하드웨어적 접근의 함정을 보여준다면, 강화학습(Reinforcement Learning, RL)은 소프트웨어적 이상향이 현실의 벽에 부딪힌 사례다. 스스로 시행착오를 겪으며 최적의 행동을 찾아가는 RL의 개념은 '진정한 지능'의 핵심처럼 보였다. 이는 "어떻게(How)"를 가르치는 대신, "무엇을(What)" 달성해야 하는지만 알려주면, 모델이 인간의 상상력을 뛰어넘는 창의적인 해법을 발견할 것이라는 기대를 낳았다 (예: 알파고의 37수).

그러나 이 매력적인 비전은 로보틱스의 물리적 현실 속에서 '정보'의 제1원리에 부딪혀 좌절했다. **학습의 제1원리는 '유의미한 정보(오차 신호)를 통해 내부 모델을 수정하는 것'**이다. RL이 작동하려면, 행동의 결과로부터 '유의미한 정보'를 추출할 수 있어야 한다. 하지만 로보틱스 환경에서의 순수한 RL(Pure RL)은 '정보의 사막'과 같다.

이 문제를 명쾌하게 분석한 Dwarkesh Patel의 정보 효율성 프레임워크에 따르면, 총 학습 효율은 '신호 획득 비용'과 '신호의 정보 밀도'라는 두 요소의 곱으로 결정된다 [3]. 로보틱스 RL은 이 두 가지 모두에서 재앙적인 비효율성을 보인다.

첫째, 신호 획득 비용(Samples/FLOP)이 천문학적으로 높다. LLM의 RL이 GPU 내부에서 수만 개의 토큰을 순식간에 생성하는 것과 달리, 로봇은 단 하나의 '샘플'(성공/실패 피드백)을 얻기 위해 현실 세계에서 물리적인 시간을 소요하며 움직여야 한다. 실패 시 발생하는 물리적 손상과, 환경을 초기화하는 데 드는 인간의 개입 비용까지 고려하면, 로봇의 '시행착오' 한 번은 가상 세계의 수백만 번에 해당하는 비용을 발생시킨다.

둘째, 그렇게 비싸게 얻은 신호의 정보 밀도(Bits/Sample)가 극도로 낮다. 학습 초기, 아무것도 모르는 로봇이 '컵 옮기기' 같은 복잡한 작업을 성공할 확률(pass rate)은 거의 0에 가깝다. Patel의 분석에 따르면, 성공 확률이 0에 가까울 때 RL이 얻는 정보량(Entropy) 역시 0에 수렴한다 [3]. "또 실패했어"라는 피드백은 이미 알고 있는 사실을 확인시켜 줄 뿐, 어떻게 해야 성공에 더 가까워지는지에 대한 어떤 단서도 제공하지 못한다.

결론적으로, 순수한 탐험에 기반한 RL은 "막대한 비용을 들여 수집한 데이터에, 심지어 아무런 정보조차 담겨있지 않은" 이중고에 시달린다. 이는 로봇이 스스로 학습을 시작조차 할 수 없는 근본적인 병목으로 작용했다. 따라서 현대 로봇 학습은 '순수한 탐험'이라는 이상을 포기하고, 모방 학습(Imitation Learning)으로 초기 정책을 만들거나, 리버스 커리큘럼(Reverse Curriculum) [4]과 같이 인위적으로 '정보가 풍부한 환경(골디락스 존)'을 설계하는 방향으로 나아갈 수밖에 없었다. 이는 RL의 창의적 잠재력을 인정하면서도, 그 정보 이론적 한계를 극복하기 위한 공학적 타협의 결과물인 셈이다.

1-3. '대체 현실'의 배신: 스포크와 교집합의 함정

로봇의 물리적 시행착오 비용이 너무 비싸다는 명백한 문제에 직면한 연구자들은 자연스럽게 하나의 해결책에 매료되었다: "현실을 대체할 값싼 가상 세계를 만들면 되지 않을까?" 이것이 바로 시뮬레이션(Simulation)을 이용한 학습, 더 나아가 인간 비디오나 로봇 모방 장치를 활용하는 '대체 데이터(Surrogate Data)' 전략의 시작이었다. 이 접근법은 '진짜 데이터'의 효과와 '값싼 비용'이라는 두 마리 토끼를 잡으려는 매력적인 시도였지만, 결국 '학습'의 제1원리를 간과함으로써 스스로의 발목을 잡는 '스포크(Spork)'가 되고 말았다 [5].

학습의 제1원리는 "훈련 데이터의 분포는 실제 테스트 환경의 분포와 일치해야 한다"는 것이다. 이 원칙이 깨질 때, 모델의 일반화 성능은 급격히 저하된다. '대체 데이터' 전략의 근본적인 결함은 이 '분포 불일치(Domain Gap)' 문제를 피할 수 없다는 점에 있다. Sergey Levine은 이 문제를 '교집합의 함정(The Intersection Trap)'이라는 개념으로 명쾌하게 설명한다 [5].

모든 '대체 데이터' 전략은 필연적으로 인간 설계자가 '대체 세계'와 '현실 세계' 사이의 **'대응 관계(Correspondence)'**를 수동으로 정의하는 과정에 의존한다. 예를 들어, 시뮬레이터의 마찰 계수를 현실과 비슷하게 튜닝하거나, 인간의 손 모양을 로봇 그리퍼의 움직임으로 매핑하는 규칙을 만드는 식이다. 이 순간, 학습은 두 세계의 규칙이 우연히 일치하는 매우 좁은 '교집합' 영역으로 제한된다.