실세계와 만난 AI: 로보틱스 파운데이션 모델의 도전

2025년 11월 3일~4일까지 진행되었던 SK AI Summit Keynote를 다녀와서 후기글 남깁니다.

- 타이틀 : 실세계와 만난 AI: 로보틱스 파운데이션 모델의 도전

- 주제발표 : RLWRLD 설립자 & 대표이사 류중희

- 패널토의 : Config Intelligence 서민준 대표, Holiday Robotics 송기영 CEO, Unitree Roboics Irving Chen

말만 잘하는 AI의 한계

ChatGPT로 대표되는 현재의 대규모 언어 모델(LLM)은 놀라운 능력을 보여주고 있습니다. 질문에 답하고, 코드를 작성하고, 심지어 시를 짓기도 합니다. 하지만 이러한 AI에게는 근본적인 한계가 있습니다. LLM은 인터넷에 있는 텍스트 데이터로 학습되어, 통계적 패턴을 찾아 다음 단어를 예측하는 방식으로 작동합니다. 진정한 이해가 아닌, 패턴 인식에 기반한 '착각'에 가까운 것이죠.

더 중요한 문제는 이들이 물리적 세계와 단절되어 있다는 점입니다. 아무리 뛰어난 LLM도 실제로 컵을 집어본 적이 없고, 문을 열어본 경험이 없습니다. 모라베크의 역설이 지적하듯, 체스에서 인간을 이기는 것은 쉽지만 5살 아이가 하는 셔츠 개기는 AI에게 가장 어려운 문제 중 하나입니다. 이러한 현실은 우리에게 중요한 질문을 던집니다: 과연 LLM만으로 인간을 뛰어넘는 범용 인공지능(AGI)에 도달할 수 있을까요?

Cranium AI

AGI로 가는 길: 몸이 필요하다

인간의 지능은 신체를 통한 경험에서 발전했습니다. 아기는 물건을 만지고, 던지고, 깨뜨리면서 세상을 배웁니다. 이러한 '체화된 학습(Embodied Learning)'이 없다면 진정한 지능은 불가능합니다. 현재의 LLM이 AGI에 도달할 수 없는 이유가 바로 여기에 있습니다.

이 문제를 해결하기 위해 등장한 것이 **로보틱스 파운데이션 모델(Robotics Foundation Models)**입니다. 이는 로봇의 몸을 통해 물리적 세계와 상호작용하며 학습하는 AI 모델입니다. 마치 언어 모델이 인터넷의 방대한 텍스트로 학습하듯, 로보틱스 모델은 다양한 로봇들이 실세계에서 수집한 경험 데이터로 학습합니다.

Physical Intelligence

π0: 물리적 지능의 첫걸음

2024년 10월, Physical Intelligence가 공개한 π0(파이-제로) 모델은 이 분야의 획기적인 진전을 보여줍니다. 이 모델의 특별함은 다음과 같습니다:

1. 다중 로봇 학습: 8종의 서로 다른 로봇으로부터 수집한 데이터로 학습했습니다. 마치 사람이 다양한 경험을 통해 배우듯, 여러 로봇의 경험을 통합했습니다.

2. 복잡한 실생활 작업: π0는 빨래를 개고, 식탁을 치우고, 박스를 조립하는 등 이전에는 불가능했던 복잡한 작업을 수행합니다. 특히 빨래 개기는 옷이 매번 다르게 구겨져 있어 극도로 어려운 과제입니다.

3. 인터넷 지식과 물리적 경험의 결합: π0는 비전-언어 모델(VLM)에서 시작하여 인터넷 규모의 의미론적 지식을 상속받고, 여기에 로봇의 물리적 경험을 더했습니다. 초당 50회의 모터 명령을 출력하며 섬세한 조작이 가능합니다.

왜 로보틱스 모델이 AGI의 열쇠인가

Stanford 대학 등이 발표한 서베이 논문에 따르면, 로보틱스 파운데이션 모델은 다음 세 가지 영역에서 AI를 혁신합니다:

인식(Perception): 물리적 세계를 3차원으로 이해하고, 물체의 특성과 상호작용 가능성(affordance)을 파악합니다.

의사결정(Decision-making): 언어 지시를 받아 복잡한 작업을 계획하고 실행합니다.

제어(Control): 실시간으로 환경 변화에 반응하며 정밀한 동작을 수행합니다.

이러한 능력은 LLM에는 없는 것들입니다. 더 중요한 것은, 로보틱스 모델이 **인과관계(causality)**를 학습한다는 점입니다. 텍스트 패턴만 학습하는 LLM과 달리, 로봇은 "내가 이렇게 행동하면 세계가 이렇게 변한다"는 직접적 경험을 축적합니다.

arXiv

아직 남은 도전과제

물론 로보틱스 파운데이션 모델도 아직 초기 단계입니다. 주요 과제는 다음과 같습니다:

데이터 부족: 인터넷에는 텍스트가 넘쳐나지만, 고품질 로봇 상호작용 데이터는 수집하기 어렵고 비용이 많이 듭니다.

실시간 성능: 대규모 모델의 추론 시간이 길어 실시간 제어에 제약이 있습니다.

안전성 보장: 물리적 세계에서 작동하는 로봇은 안전 문제가 중요하며, 불확실성 정량화가 필요합니다.

환경 다양성: 실세계는 예측 불가능하고 변수가 많아, 시뮬레이션과 실제 환경 간 격차를 좁혀야 합니다.

결론: 물리적 지능이 AGI의 문을 연다

현재의 LLM은 아무리 발전해도 텍스트와 패턴의 세계에 갇혀 있습니다. 진정한 AGI, 즉 인간처럼 다양한 상황에서 학습하고 적응하는 지능에 도달하려면, AI는 몸을 갖고 물리적 세계와 상호작용해야 합니다.

로보틱스 파운데이션 모델은 바로 이 길을 열어가고 있습니다. π0와 같은 초기 모델들이 보여주는 성과는, 물리적 경험을 통한 학습이 AI를 질적으로 다른 차원으로 끌어올릴 수 있음을 시사합니다. 체스를 두는 것에서 셔츠를 개는 것으로, 말하는 것에서 행동하는 것으로 - 이것이 AGI로 가는 여정이며, 로보틱스 파운데이션 모델은 그 핵심 열쇠입니다.

인간의 지능이 진화의 긴 여정 속에서 신체와 환경의 상호작용을 통해 발전했듯, 인공지능도 실세계의 경험 없이는 진정한 지능에 도달할 수 없습니다. 로보틱스 파운데이션 모델은 단순히 더 똑똑한 로봇을 만드는 것이 아닙니다. 그것은 AI가 실세계를 이해하고, 상호작용하고, 궁극적으로 인간 수준의 범용 지능을 획득하기 위한 필수적 과정입니다.

저작자표시 비영리 변경금지 (새창열림)

'AI 생활정보' 카테고리의 다른 글

익시오, 기억 안나는 통화도 다 찾아준다! (1)	2025.11.11
스팸 차단에 전화도 대신 받아준다! 똑똑한 앱 '익시오' (1)	2025.11.11
익시오로 실시간 보이스피싱을 차단한다! (0)	2025.11.10
SKT AI 플랫폼 '에이닷(A.)' 현황 분석과 향후 발전 방향 (1)	2025.11.10
일하는 방식의 혁신, A.Biz (SK AI) (1)	2025.11.10