Apple Silicon은 AI를 위해 설계되지 않았다. 배터리 효율, 열 관리, 하드웨어·소프트웨어 통합을 위해 만들어졌다. 그런데 LLM 추론의 병목이 컴퓨트가 아니라 메모리 대역폭이라는 사실이 밝혀지면서, 통합 메모리 아키텍처가 우연히 최적의 구조로 판명됐다. Nvidia GPU가 행렬 연산에는 빠르지만 PCIe 버스를 통한 데이터 이동이 병목인 반면, Apple M시리즈는 CPU·GPU·Neural Engine이 하나의 고대역 메모리 풀을 공유한다.
근거
LLM 추론은 현재 컴퓨트가 아닌 메모리 대역폭에 병목이 있다. 핵심은 모델 가중치를 메모리에서 연산 유닛으로 스트리밍하는 속도와 KV 캐시를 저장할 메모리 크기다.
M3 Max Mac에서 Qwen 397B(209GB 모델)를 활성 RAM 5.5GB만으로 ~5.7 토큰/초에 실행한 사례가 이를 증명한다. LLM in a Flash 기법이 Apple 하드웨어에서 특히 효과적인 이유도 SSD 스트리밍 속도(~17.5 GB/s)가 통합 메모리와 결합할 때 시너지를 내기 때문이다.
OpenClaw 출시 이후 Mac Mini 열풍은 이 가능성을 보여주는 초기 신호다. MLX가 온디바이스 AI의 사실상 표준 프레임워크로 부상하면서, Apple이 모델 경쟁에서 이기지 않더라도 “모델이 실행되는 플랫폼”이 될 수 있는 구조다. App Store처럼 Apple이 앱을 만든 게 아니라 앱이 가장 잘 실행되는 플랫폼을 구축한 것과 같은 패턴이다.
연결된 생각
- Apple의 우연한 해자: 컨텍스트 플랫폼 — 통합 메모리는 우연한 해자의 하드웨어 층
- 에이전트 락인은 모델 락인보다 강하다 — MLX 생태계가 만드는 플랫폼 락인
- 인프라에서 지배로 — Apple이 인프라 투자 없이 지배 단계에 진입하는 변칙적 경로