딥시크가 AI 모델 학습의 근본 구조를 재설계하는 연구 결과를 내놓았다.
딥시크는 1일(현지시간) 모델을 안정적이면서도 비용 효율적으로 대규모 학습할 수 있는 새로운 프레임워크인 ‘매니폴드 제약 하이퍼 커넥션(mHC, Manifold-Constrained Hyper-Connections)’을 온라인 아카이브를 통해 공개했다. 이번 연구에는 량원평 딥시크 창립자가 공동 저자로 이름을 올렸다.
이번 연구는 컴퓨팅 자원 접근에서 미국 빅테크에 비해 열세에 놓인 딥시크가, 효율적인 아키텍처와 인프라 최적화를 통해 경쟁력을 확보하려는 전략에 따른 것이다.
mHC는 2024년 바이트댄스 연구진이 제안한 ‘하이퍼 커넥션(HC)’을 발전시킨 개념으로, 지난 10여 년간 딥러닝의 핵심으로 자리 잡아온 잔차 연결(Residual Connection) 구조를 확장·보완하는 데 초점을 맞췄다.
잔차 연결은 신경망의 층이 깊어질수록 앞부분에서 만들어진 핵심 정보가 점점 약해지고, 학습 신호인 기울기가 사라지면서 오히려 성능이 떨어지는 문제를 해결하기 위해 고안된 연결 방식이다. 핵심 아이디어는 각 층에서 새로 계산한 결과에 그 층의 입력값을 그대로 더해 다음 층으로 전달하는 것이다. 신경망 안에 원래 정보를 그대로 전달하는 지름길을 하나 추가하는 구조라고 볼 수 있다.
복잡한 문제를 여러 단계를 거쳐 풀 때를 떠올리면 이해하기 쉽다. 각 단계가 이전 단계의 결과만 받아 처리하는 대신, 처음의 답안지 사본을 함께 넘겨받는다고 생각하면 된다.
이렇게 하면 중간 과정에서 중요한 정보가 사라지거나 왜곡될 가능성을 크게 줄일 수 있다. 이 구조 덕분에 중요한 정보가 신경망의 끝까지 안정적으로 전달되고, 학습 과정도 훨씬 안정된다. 그 결과 신경망을 매우 깊게 쌓아도 성능 저하 없이 학습할 수 있게 됐다.
잔차 연결은 2015년 마이크로소프트 리서치 아시아 연구진이 제안한 잔차 네트워크(ResNet)을 통해 처음 널리 알려졌으며, 이후 GPT 같은 대형언어모델(LLM)이나 알파폴드(AlphaFold)와 같은 AI 시스템에 이르기까지, 현재 대부분 모델의 기본 구조로 자리 잡았다.
바이트댄스의 HC는 잔차 스트림을 넓히고 연결 방식을 다양하게 만들어 잔차 연결 문제를 일부 개선했지만, 그 과정에서 잔차 연결의 핵심인 ‘아이덴티티 매핑’이 약해지는 문제가 있었다. 이로 인해 학습이 불안정해지고, 모델을 크게 키우는 데 한계가 생기며, 메모리 사용 비용도 늘어났다.
잔차 연결(Residual Connection) 구조 비교. (a)표준 잔차 연결 (b)하이퍼 커넥션(HC) (c)매니폴드 제약 하이퍼 커넥션(mHC). 제약이 없는 HC와 달리, mHC는 안정성을 확보하기 위해 행렬을 제약된 매니폴드로 투영함으로써 잔차 연결 공간을 최적화하는 데 초점을 맞춘다. (사진=arXiv)
딥시크는 이런 문제를 해결하기 위해 잔차 연결 구조를 특정 매니폴드로 제한해 아이덴티티 매핑을 다시 살리고, 시스템 전반의 효율을 높이는 최적화 기법을 함께 적용한 mHC를 제안했다.
이는 잔차 연결이 원래 정보를 그대로 전달하는 역할을 제대로 수행할 수 있도록 그 변화 범위를 미리 정해주는 것을 의미한다. 즉, 입력을 그대로 전달하는 ‘지름길’이 망가지지 않도록 잔차 연결이 움직일 수 있는 안전한 한계를 설정해 준다는 뜻이다.
먼저 아이덴티티 매핑은 입력을 아무런 변화 없이 그대로 출력으로 넘기는 것을 말한다. 잔차 연결의 가장 큰 장점은 특정 층에서 굳이 새로운 정보를 더할 필요가 없으면 입력값을 그대로 다음 층으로 전달할 수 있다는 점이다. 덕분에 신경망은 불필요한 계산을 줄일 수 있고, 학습 과정도 훨씬 안정적으로 유지된다.
하지만 HC처럼 연결 구조를 복잡하게 확장하면 문제가 생길 수 있다. 연결 방식이 지나치게 자유로워지면서, 잔차 연결이 본래의 역할인 ‘입력을 그대로 전달하는 경로’에서 벗어나기 쉬워지기 때문이다. 그 결과 입력 정보가 왜곡되거나 사라지고, 학습이 흔들리며 불안정해지는 현상이 나타난다. 이는 곧 아이덴티티 매핑이 깨진 상태라고 볼 수 있다.
딥시크는 잔차 연결이 무분별하게 변화하지 않고 특정 규칙이 적용되는 영역 안에서만 조정되도록 잔차 연결 구조를 매니폴드로 제한했다. 매니폴드는 움직일 수 있는 안전한 공간, 또는 정해진 규칙이 적용되는 영역이다.
mHC는 잔차 연결이 아무 방향으로나 변형되지 않도록 하고, 원래 입력을 거의 그대로 전달하는 형태 안에서만 조정되도록 설계됐다. 이는 차선 없이 자유롭게 달리는 도로와, 차선이 명확히 그어진 고속도로의 차이에 비유할 수 있다. 전자는 위험하지만, 후자는 빠르면서도 안전하다.
이런 제약을 통해 얻는 효과는 분명하다. 입력 정보가 끝까지 잘 보존돼 아이덴티티 매핑이 복원되고, 학습 과정이 안정된다. 나아가 모델의 규모를 더 키우거나 구조를 더 깊게 만들어도 학습이 무너지지 않아, 대규모 확장이 가능해진다.
논문에 따르면 mHC는 학습 과정에서 잔차 연결 행렬을 ‘이중 확률 행렬(doubly stochastic matrix)’로 이뤄진 매니폴드 안에 묶어 두는 방식으로, 대규모 학습에서 나타나는 불안정성을 효과적으로 줄인다.
딥시크 연구진은 30억·90억·270억 매개변수를 가진 모델에 mHC를 적용해 실험한 결과, 추가적인 계산 비용을 거의 늘리지 않으면서도 안정적인 대규모 학습과 뛰어난 확장성을 달성했다고 설명했다.
특히 이번 논문의 핵심은 복잡한 수학 공식보다는 학습을 얼마나 효율적으로 설계했는지에 있다.
연구진은 혼합 정밀도 방식을 적용한 전용 mHC 커널을 새로 만들고, 여러 연산을 하나로 묶어 메모리 병목을 줄였다. 또 순전파(forward propagation) 이후 중간 결과를 저장하지 않고, 역전파(backpropagation) 단계에서 다시 계산하는 방식을 사용해 메모리 사용량을 크게 낮췄다. 여기에 더해 파이프라인 병렬 학습 중 발생하는 통신 지연을 줄이기 위해, 일부 중요한 연산을 우선순위가 높은 전용 실행 경로에서 처리하는 방법도 도입했다.
딥시크는 "HC 등은 상당한 성능 향상을 가져왔지만, 잔여 연결에 내재된 속성을 근본적으로 손상시켜 심각한 학습 불안정성과 확장성 제한을 초래하고, 또 상당한 메모리 접근 오버헤드를 발생시켰다"라며 "아번 연구는 이런 문제들을 해결하기 위한 유연하고 실용적인 HC의 확장"이라고 설명했다.
한편, 전문가들은 딥시크가 춘절 연휴 전후로 차세대 모델을 공개할 가능성에도 주목하고 있다. 지난해에도 설 연휴 직전 'R1’을 발표해 큰 주목을 받은 만큼, 이번 mHC 논문도 예고편이 될 수 있다는 분석이다.