딥시크의 출현으로 기존 판도에 균열이 발생하고 있다. AI 하드웨어 시장에 HBM 의존도를 낮출 수 있는 새로운 트랜스포머 모델들의 출현이 가속화되면서 빠른 미래 혁신의 흐름에 대응할 필요성이 있어 보인다. 최근 7일 메릴랜드 대학 연구진은 ‘Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach’이란 논문을 발표하며 혁신적인 AI 모델 구조를 제시했다.
잠재공간 ‘되새김질’ AI, 추론 경량화 혁신
비싼 HBM 대신 효율적인 PIM 가능성 高
챗GPT에서 시작된 AI 열풍은 모델 크기와 성능을 비약적으로 발전시킨 반면, 막대한 컴퓨팅 자원과 메모리 용량을 요구하며 AI 하드웨어 인플레이션을 야기했다. 특히 고성능 GPU와 HBM이 AI 모델의 필수 요소로 각광 받으며 엔비디아와 SK하이닉스는 높은 기업 가치를 구가하고 있다.
그러나 딥시크의 출현으로 기존 판도에 균열이 발생하고 있다. AI 하드웨어 시장에 HBM 의존도를 낮출 수 있는 새로운 트랜스포머 모델들의 출현이 가속화되면서 빠른 미래 혁신의 흐름에 대응할 필요성이 있어 보인다.
최근 7일 메릴랜드 대학 연구진은 ‘Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach’이란 논문을 발표하며 혁신적인 AI 모델 구조를 제시했다.
기존 트랜스포머 모델은 여러개의 레이어를 거치면서 각 레이어마다 캐시를 생성해 막대한 메모리 용량을 요구했다. 또한 토큰 생성 시 이전 토큰들의 캐시 정보를 모두 동기화할 필요가 있어 GPU 간 통신 오버헤드도 굉장히 컸다.
특히 생각사슬(Chain of Thought, COT) 방식은 AI 모델의 추론 과정을 단계별로 알 수 있어 수학 문제의 풀이 과정을 보듯 AI 모델의 추론이 진행되는 과정을 텍스트로 보여준다. 이를 통해 답변 정확도를 더 높일 수 있지만 레이어도 더 많이 필요해 고성능 메모리 요구량은 더 높다고 할 수 있다.
■ 잠재공간 ‘되새김질’ AI, 추론 경량화 혁신 주목
최근 공개된 메릴랜드 대학 연구진의 새로운 트랜스포머 방법론이 주목 받은 이유도 기존 모델의 한계점때문이다. 고성능 메모리 요구량을 줄일 수 있는 AI 모델 경량화, 최적화는 AI 추론에 새로운 가능성을 제시하고 있다.
이 연구는 잠재 공간(latent space)에서의 추론이라는 새로운 패러다임을 도입해 기존 AI 모델의 메모리 비효율성을 개선했다. 연구진은 Prelude, Recurrent Block, Coda의 3가지 블록으로 구성된 새로운 모델을 설계했다.
Prelude는 입력 문장을 잠재 공간(Latent space)으로 변환하고, Recurrent Block은 동일한 파라미터를 가진 블록을 반복적으로 사용해 잠재 공간에서 ‘되새김질’을 수행한다. 마지막으로 Coda는 ‘되새김질’된 정보를 바탕으로 최종 결과를 도출한다.
기존 AI 모델은 각 레이어마다 캐시를 생성했지만, 새로운 모델은 Recurrent Block에서 고정된 크기의 캐시 슬롯만 재사용해 메모리 효율성을 극대화했다. 연구의 핵심은 반복적인 추론을 통해 모델의 성능을 향상시켜 메모리 사용량을 획기적으로 줄였다는 점이다.
잠재 공간에서의 추론은 기존 AI 모델 대비 다양한 장점을 가진다. 먼저 CoT(Chain-of-Thought)와 같은 명시적인 언어 생성 없이도 반복적인 추론을 통해 성능을 향상시킬 수 있다.
특히 연구진은 35억 파라미터 모델로 500억 파라미터 수준의 성능을 달성하는 결과를 보여주었다. 이는 작은 모델로도 큰 모델 수준의 성능을 낼 수 있다는 가능성을 제시했다. AI 모델 개발 비용 절감도 기대되는 대목이다.
■ 비싼 HBM 대신 효율적인 PIM 대안되나
딥시크가 AI 모델의 효율성을 높이는 대안 가운데 하나로 부상했지만 여전히 AI를 지원하는 하드웨어는 필요하다. GPT 모델 발전에 따라 데이터 처리는 메모리 인텐시브로 변화했고 여전히 프로세싱과 메모리 간 통신 및 대역폭이 핵심 챌린지로 떠오르고 있는 상황이다.
PIM은 메모리 자체에서 연산을 수행해 데이터 이동거리를 줄이는 만큼 HBM 기반 칩 대비 에너지 효율성이 높고 병목 현상 완화에도 기여할 수 있다. 더 큰 장점은 온디바이스 AI에서의 적용 가능성이다.
잠재 공간의 추론 모델, 딥시크 등과 같은 최적화 경량화 AI 추론 모델이 온디바이스에서 효율적으로 구동될 경우, PIM 반도체와 같은 차세대 온디바이스 AI 칩 발전이 시너지 효과를 낼 수 있을 것으로 기대되고 있다.
2025 ICT 산업전망컨퍼런스에서 임의철 SK하이닉스 펠로우는 ‘AI를 위한 메모리와 컴퓨팅 결합 반도체 기술’ 발표에서 “LLM 입출력 토큰이 길어짐에 따라 어텐션 레이어 처리 비중이 커진다”면서, “토큰이 커질수록 메모리 인텐시브 성격으로 전환된다”고 언급했다.
저전력에서 GEMV(행렬×벡터) 연산을 효과적으로 수행하는 PIM 반도체와 잠재공간 추론 모델 모두 메모리의 효율성을 지향하는 만큼 두 기술 간 결합이 시너지를 발휘할 수 있을지 귀추가 주목되고 있다.