그로크 4가 AI의 한계를 무너뜨린 이유와 그 변화의 이유

8월 1일

세계에서 가장 강력한 AI 모델인 Grok 4를 소개합니다. 지금 라이브 스트리밍 시청하기: https://t.co/59iDX5s2ck
- xAI (@xai) 2025년 7월 10일

상황이 급박하게 돌아갔습니다. 3주 전 엘론 머스크와 xAI는 아무도 의심하지 않는 세상에 Grok 4를 선보였고, 이 벤치마크는 노련한 AI 연구자들을 계속해서 두 번씩이나 놀라게 하고 있습니다. 카페인에 취해 새벽 3시에 브레인스토밍을 하는 박사 박사 팀처럼 문제를 추론하는 AI를 상상해 보세요. 이제 초기의 과대 광고가 진정되고 개발자들이 Grok 4의 성능을 검증했으니, 이 모델이 왜 또 다른 출시 이상의 의미를 갖는지, 즉 AI가 진정한 지적 파트너가 되는 미래를 엿볼 수 있는 이유를 설명해드리겠습니다.

https://x.com/xai/status/1943158495588815072

인터넷을 뒤흔든 출시(그리고 몇 가지 기록)

xAI는 2025년 7월 9일, 150만 명이 시청한 라이브 스트리밍을 통해 Grok 4를 공개했는데, 이는 밤에 진행된 기술 발표치고는 나쁘지 않았습니다.¹ Grok 3가 일부 논란의 여지가 있는 결과물로 헤드라인을 장식한 지 하루 만에 이루어진 흥미로운 타이밍이었습니다.² 하지만 xAI는 최고의 방어는 압도적인 공격이라고 판단했습니다.

Musk는 표준 Grok 4와 Grok 4 Heavy의 두 가지 변형을 소개했는데, 후자는 여러 명의 AI 에이전트를 배치하여 모두가 읽은 학습 그룹처럼 서로의 작업을 교차 확인하는 방식입니다.³ Grok 앱, 웹사이트 또는 API를 통해 액세스할 수 있으며, SuperGrok Heavy 구독자에게만 월 $300의 가격으로 제공되는 Heavy는 "우리는 이 문제에 대해 진지하다"는 의미입니다⁴ 궁금한 점을 위해 설명합니다: https://x.ai/grok 일반 액세스용 https://x.ai/api 개발자용

다른 AI를 계산기처럼 보이게 하는 기능

Grok 4는 256,000개의 토큰 컨텍스트 창(한 번에 처리할 수 있는 대략 소설 한 권 분량의 텍스트), 이미지 분석, 함수 호출, 음성 모드를 갖추고 있어 실리콘과 대화하고 있다는 사실을 잊을 정도로 자연스럽습니다.⁵ 하지만 여기서 중요한 것은 네이티브 도구 사용입니다. xAI는 강화 학습으로 코드 인터프리터와 웹 브라우저 같은 마음의 확장 기능을 사용하도록 이 야수를 훈련시켰습니다.

X, 웹, 뉴스 전반에서 실시간 검색이 가능하므로 더 이상 "내 지식이 부족하다"는 변명을 할 필요가 없습니다. 멀티모달 기능으로 텍스트와 비전 분석을 매끄럽게 혼합하고 음성 모드를 통해 카메라를 통한 장면 분석을 추가할 수 있습니다.⁶ 규정 준수에 신경 쓰는 기업 담당자를 위한 제품입니다: SOC 2 유형 2, GDPR 및 CCPA가 모두 체크되어 있습니다. 잠도 안 자고, 야근에 대해 불평하지 않으며, 내 끔찍한 필체를 알아듣는 재치 있는 연구 조교가 있는 것과 같습니다.

비밀 소스: 무차별적인 힘과 기교가 만나면

대부분의 데이터 센터를 포켓 계산기처럼 보이게 하는 20만 GPU의 괴물, xAI의 콜로서스 슈퍼컴퓨터가 Grok 4의 마법 뒤에 있습니다.⁷ 하지만 원시 성능만으로는 모든 것을 알 수 없습니다. xAI는 사전 학습 컴퓨팅에 맞춰 강화 학습을 확장하고 수학, 코딩, 과학 영역의 검증 가능한 데이터에 집중하여 효율성을 6배 향상시켜 계산 능력을 정교한 지능으로 전환하는 방식으로 혁신을 이루었습니다.⁸

진정한 혁신은? 사전 훈련만큼이나 훈련 후 강화 학습에 많은 시간을 투자했습니다.⁹ Grok 4 Heavy는 테스트 시간 동안 여러 AI 에이전트가 동시에 문제를 해결한 후 음표를 비교하는 병렬 컴퓨팅으로 접근 방식을 더욱 발전시켰습니다. 개인 차고 발명가에서 노벨상 수상자들로 구성된 동기화된 오케스트라로 업그레이드하여 서로의 작품을 확인한다고 상상해 보세요.

인프라 현실 점검

콜로서스 슈퍼컴퓨터에는 200,000개의 GPU가 탑재되어 있습니다. 그 숫자를 감당할 수조차 없습니다. 대부분의 회사는 수백 개의 GPU로 구성된 클러스터가 원활하게 작동할 때 감격합니다. 하지만 200,000개라고요? 열 출력만 해도 작은 발전소를 가동하는 것과 같습니다.

이 모든 것을 적절히 연결하고, 데이터를 계속 공급하고, 전력망에 문제가 생기지 않도록 하는 것은 생각하기도 전에....... 랙을 어떻게 배치할지, 어떤 종류의 냉각 장치를 사용할지(랙은 뜨거워지므로 냉각 장치가 필요합니다), 네트워킹 및 전력 분배의 악몽과 같은 모든 세부 사항이 중요합니다. 이 퍼즐의 한 조각이라도 잘못 맞추면 성능이 떨어지는 하드웨어에 돈을 낭비하게 됩니다. GPU가 10개이든 10,000,000개이든 자체 AI 인프라를 구축하려는 기업은 전력 분배부터 광속으로 데이터가 흐르도록 하는 복잡한 광섬유 연결에 이르기까지 모든 것에 대한 전문 지식이 필요합니다. 바로 이 지점에서 전문적인 인프라 구축이 이론적 사양과 실제 성능의 차이를 만들어냅니다. Introl 팀은 수많은 AI 클러스터를 배포하면서 알 수 있듯이, 적절한 인프라가 95% 효율로 실행되는 GPU와 성능의 30%를 그대로 두는 것의 차이를 의미할 수 있습니다.

통계학자를 눈물짓게 만드는 숫자

AI 커뮤니티를 들썩이게 한 벤치마크를 자세히 살펴보겠습니다. 모델이 최소한의 예제로 추상적인 추론을 입증해야 하는 악명 높은 ARC-AGI-2 테스트에서 Grok 4(사고 모드)는 과제당 약 4달러로 15.9%를 기록하며 왕좌를 차지했습니다.¹⁰ 이는 Claude Opus 4의 8.6%의 거의 두 배에 달하는 수치로, "겨우 15.9%"라고 비웃기 전에 대부분의 모델이 이 테스트에서 5%도 돌파하지 못한다는 사실을 기억하세요.¹¹ 다른 모든 사람이 여전히 어느 쪽이 빨간색인지 알아내는 동안 누군가 눈을 가리고 루빅의 정육면을 풀어내는 것과 같다는 것을 알 수 있을 것입니다.

확장 실험을 통해 흥미로운 사실을 발견했습니다. 훈련 연산만으로는 Grok 4가 인류의 마지막 시험(텍스트 전용 하위 집합)에서 약 50%를 기록했습니다. 도구를 추가하면 50.7%로 뛰어오릅니다.¹² 테스트 시간 확장 정체가 50% 근처에서 나타나, 단순히 문제에 더 많은 컴퓨팅을 투입하는 것이 아니라 보다 혁신적인 추론 전략이 획기적인 성과를 이끌어낸다는 것을 증명합니다.

AIME25(미국 수학 경시대회)에서 Grok 4 Heavy는 100% 만점을 기록해 Claude 4 Opus(75.5%)와 Gemini 2.5 Pro(88.0%)를 압도했습니다.¹³ 도구 없이도 표준 Grok 4는 91.7%를 기록해 대부분의 인간 수학 대회 참가자보다 우수한 성적을 거두었습니다.

하지만 여기 쇼스타퍼가 있습니다: 인류의 마지막 시험(전체 세트). STEM과 인문학을 아우르는 2,500개 이상의 문제가 암기와 진정한 추론을 구분합니다.¹⁴ Grok 4 Heavy의 점수는 44.4%로 Gemini 2.5 Pro의 25.4%의 거의 2배, o3의 21.0%보다 2배 이상 높습니다.¹⁵ 이처럼 큰 차이로 다른 인공지능보다 뛰어난 성능을 보인다면 반복이 아니라 혁신을 이룬 것입니다.

중요한 실제 성능

Grok 4는 학업적인 벤치마크를 넘어 실제 테스트에서도 우위를 점하고 있습니다. 자판기 운영 최적화에 대한 실제 벤치마크인 Vending-Bench에서 4,569대가 판매되어 4,694달러의 순이익을 달성했는데, 이는 Claude Opus 4의 2,077달러보다 2배 이상 높은 수치이며, 844.¹⁶달러로 5배의 성과를 달성한 것입니다.

추가 승리: USAMO'25(61.9%), GPQA Diamond(88%), LiveCodeBench(79.4%), MMLU-Pro(87%).¹⁷ 인공 분석의 독립 평가자들은 지능 지수에서 73점을 받아 OpenAI의 o3와 Google의 Gemini 2.5 Pro(모두 70점)를 제치고 Grok 4의 왕관을 차지했습니다.¹⁸ 불과 3주 전에 나온 모델치고는 나쁘지 않은 성적표입니다.

커뮤니티 평결: 흥분, 회의, 그리고 그 사이의 모든 것

출시 이후 X(구 트위터)는 Grok 4의 기능을 시험하는 장이 되었습니다. 개발자들은 디버깅을 위해 전체 코드베이스를 붙여넣어 Cursor와 같은 전문 도구를 능가하는 결과를 얻었다고 보고했습니다.¹⁹ 한 사용자는 "지금까지 AGI에 가장 가까운 것"이라고 했고, 과학자들은 미해결 재료 문제를 질의하고 새로운 통찰력을 얻었습니다.²⁰ 실제 사용 3주 후, 이 모델은 복잡한 추론 작업에는 탁월하지만 창의적인 애플리케이션에서는 흥미로운 특색을 보인다는 패턴이 나타났습니다.

하지만 모두가 기립 박수를 보내는 것은 아닙니다. 사용자들은 초당 75토큰으로 제한되는 속도에 대해 지적하며(만족스럽지는 않지만 빠른 수준은 아님), 콘텐츠 검열은 최소한의 수준으로 유지되며, 경쟁사보다 필터링이 덜 되어 AI 중립성과 안전성에 대한 논쟁을 촉발하고 있습니다.²¹ 일부 사용자는 가공되지 않은 날 것의 반응을 높이 평가하지만 다른 사용자는 오용 가능성을 우려하고 있습니다. 민주주의의 실천입니다.

이것이 내일을 위한 의미(스포일러: 모든 것이 바뀐다)

여기서부터 제 낙관론이 과하게 발휘됩니다. Grok 4는 챗봇의 범주를 뛰어넘어 지적 파트너로서의 AI를 미리 보여줍니다. AI가 수학 경시대회에서 박사급 점수를 받고 과학자들의 미해결 문제 탐구를 돕는다면, 우리는 증강된 발견의 여명을 목격하고 있는 것입니다.

과학을 위해: 전 세계 연구자들이 복잡한 수학을 진정으로 이해하고 새로운 가설을 제안할 수 있는 AI에 액세스할 수 있다고 상상해 보세요. 신약 개발, 기후 모델링, 재료 과학 등 모든 것이 가속화됩니다.

엔지니어링용: 디버깅을 넘어 시스템 아키텍처를 이해하고 인간이 고려할 수 없는 최적화를 제안할 수 있는 AI에 대해 이야기하고 있습니다. 마치 다이크스트라와 튜링이 단축 다이얼에 있는 것과 같습니다.

교육용: 학생이 틀린 문제뿐만 아니라 사고 방식에 맞춘 개인 맞춤형 튜터링. 모든 학습자는 자신의 인지 스타일에 맞는 인내심 있고 뛰어난 멘토를 만나게 됩니다.

비즈니스용: 전략 계획부터 시장 분석까지, Grok 4의 추론 기능은 의사 결정을 직감에서 미묘한 이해를 바탕으로 한 데이터 기반 인사이트로 전환할 수 있습니다.

주의 사항 (정직이 과대광고를 이기기 때문에)

현실을 직시하세요. 완벽한 인공지능은 없으며, Grok 4는 성장할 여지가 있습니다. 초당 75토큰의 속도는 전문 추론 서버와의 경쟁에서 이길 수 없습니다. 환각은 감소했지만 완전히 사라지지는 않았습니다(업계 전반의 과제). 최소한의 콘텐츠 필터링은 오용 가능성에 대한 타당한 우려를 불러일으킵니다.

xAI는 트레이닝 데이터에 대해 아무것도 알려주지 않았고, 이는... 좋지 않습니다. 데이터의 규모가 커지면 편향성이 증폭된다는 것은 우리 모두 잘 알고 있습니다. 지금 AI 업계에서는 모두가 매처럼 xAI를 주시하고 있습니다. Grok 4가 확산됨에 따라 윤리적인 부분은 어떻게 처리할까요? 이는 매우 중요한 문제가 될 것입니다.

앞으로의 길: 상황이 곧 이상해질 것입니다

그래서 xAI는 프레젠테이션에서 몇 가지 계획을 보여줬는데, 그 중 한 가지가 제 마음을 완전히 사로잡았습니다. 테슬라 엔지니어들이 실제 차량의 공기역학 및 열 관리에 사용하는 것과 동일한 CFD인 테슬라의 전산 유체 역학 소프트웨어에 Grok을 연결한다는 내용이었죠²².

잠시 그 말을 듣고 앉아 있어야 했습니다. 우리는 사실을 알고, 질문에 답하고, 코드를 작성하는 인공지능에 익숙해져 있습니다. 하지만 CFD 통합은 차원이 다릅니다. 유체 역학이 어떻게 작동하는지 설명할 수 있는 AI가 있다는 것은 별개의 문제입니다. 그 AI가 CFD 소프트웨어를 사용하여 공기를 통과하고 열을 발산하는 사물을 설계할 수 있는 것은 완전히 다른 문제입니다. 이는 점진적인 발전이 아니라 완전히 새로운 기능입니다.

OpenAI, Anthropic, 그리고 Google은 옆에서 지켜보고만 있지 않을 것입니다. 하지만 그로크 4는 "유용한 보조자"의 영역에서 "추론하는 파트너"의 영역으로 판도를 바꿨습니다. 이러한 변화는 레이 커즈와일이 말한 인텔리전스의 폭발, 즉 하나의 돌파구가 다음 돌파구를 더욱 빠르게 만들어내는 것을 떠올리게 합니다. 우리는 이러한 변화를 실시간으로 지켜보고 있습니다.

당신의 차례: 무엇을 만들 것인가?

그래서 저는 인공지능이 전반적으로 박사 수준의 추론을 할 수 있게 되면 어떤 일이 벌어질까 생각해 보았습니다. 불가능해 보였던 어떤 문제들이 갑자기 활짝 열릴까요? 도구가 우리와 함께 생각할 수 있게 되면 우리는 무엇을 발견할 수 있을까요? 그리고 솔직히 AI가 이렇게 똑똑해질 때 우리는 어떤 보호 장치를 마련해야 할까요?

개발자라면 이미 해당 API로 무엇을 만들지 계획하고 있을 것입니다. 연구원들은 갑자기 무엇이 가능해졌는지 생각하느라 정신이 없을 것입니다. "Grok 4의 기능이 도대체 무슨 의미일까?"라고 생각하시는 분들도 계실 겁니다. 이 개념은 이해하는 데 시간이 걸립니다.

하지만 문제는 우리가 준비했든 안 했든 Grok 4가 우리 무릎에 착륙했다는 점입니다. AI가 "이제 가능한 일이 생겼으니 어떻게 해야 할지 생각해 보세요"라고 말했죠.

그래서... 이걸로 무엇을 할 건가요? Grok API는 https://x.ai/api에서 확인할 수 있으며, 개발자와 연구자들이 이미 한계를 뛰어넘고 있는 전체 커뮤니티가 X에 있습니다. 출시 3주 만에 아무도 예상하지 못했던 애플리케이션이 등장하고 있습니다. 엄청난 기회를 놓치지 마세요.

참조

스콧 로젠버그, "Elon Musk의 xAI, '세계에서 가장 똑똑한 AI' Grok 4 출시", Axios, July 10, 2025, https://www.axios.com/2025/07/10/grok4-grok-xai-elon-musk.
"머스크, xAI 챗봇이 반유대주의 발언을 한 지 하루 만에 Grok 4 업데이트 공개", CBS 뉴스, 2025년 7월 10일, https://www.cbsnews.com/news/elon-musk-grok-4-ai-chatbot-x/.
"Elon Musk의 xAI, 월 $300 구독과 함께 Grok 4 출시", TechCrunch, 2025년 7월 9일, https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/.
"엘론 머스크의 xAI가 월 300달러 구독과 함께 Grok 4를 출시합니다.", TechCrunch.
xAI, "Grok 4 출시 발표", 라이브 스트림 프레젠테이션, 2025년 7월 9일.
xAI, "Grok 4 출시 발표."
"Grok 4 출시: xAI, 독립 테스트에서 AI 모델 부문 1위 차지", Gear Musk, 2025년 7월 10일, https://gearmusk.com/2025/07/10/xai-unveils-grok-4/.
xAI, "Grok 4 출시 발표."
"Musk의 Grok-4, 벤치마크를 무너뜨리고 RL에서 OpenAI와 Google을 제압하다", Analytics India Magazine, 2025년 7월 10일, https://analyticsindiamag.com/global-tech/musks-grok-4-crushes-benchmarks-beats-openai-google-in-rl/.
"ARC 프라이즈", X(이전 트위터), 2025년 7월 10일, https://twitter.com/arcprize/status/[specific-id].
프랑수아 콜레, "ARC-AGI: AI 추론의 새로운 개척지," ARC Prize Organization, 2025.
xAI, "Grok 4 출시 발표."
"엘론 머스크의 Grok 4 AI 모델, 새로운 벤치마크 기록을 세우다", Beebom, 2025년 7월 10일, https://beebom.com/elon-musk-grok-4-ai-models-set-new-benchmark-records/.
"xAI, 추론에 최적화된 새로운 Grok 4 모델로 AI 벤치마크 기록을 세우다", SiliconANGLE, 2025년 7월 10일, https://siliconangle.com/2025/07/10/xai-sets-ai-benchmark-records-new-reasoning-optimized-grok-4-model/.
xAI, "Grok 4 출시 발표."
xAI, "Grok 4 출시 발표."
xAI, "Grok 4 출시 발표."
"지능, 성능, 가격 전반의 AI 모델 비교", 인공 분석, 2025년 7월 11일에 액세스했습니다, https://artificialanalysis.ai/models.
사용자 후기, X(이전 트위터), 2025년 7월 10~11일.
사용자 후기, X(이전 트위터), 2025년 7월 10~11일.
"Grok 4의 새로운 기능? 릴리스 정보, 벤치마크 및 가치", SmythOS, 2025년 7월 10일, https://smythos.com/developers/ai-models/whats-new-in-grok-4-release-facts-benchmarks-and-value/.
xAI, "Grok 4 출시 발표."

블레이크 크로슬리