AI 모델이 점점 복잡해지면서 ‘의도하지 않은 행동’을 어떻게 빠르고 정확하게 찾아낼지가 핵심 과제로 떠오른 가운데, 앤트로픽이 자동화된 행동 평가 도구를 공개하며 AI 정렬과 안전성 검증 방식의 변화를 예고했다.
앤트로픽은 21일(현지시간) 최첨단 AI 모델의 정렬(alignment)과 안전성을 빠르고 확장 가능하게 점검할 수 있는 오픈 소스 평가 프레임워크 ‘블룸(Bloom)’을 출시했다.
블룸은 연구자가 지정한 특정 행동이 AI 모델에서 얼마나 자주, 강하게 나타나는지를 자동 생성된 다양한 시나리오를 통해 정량화하는 것이 핵심이다.
앤트로픽은 기존의 AI 행동 평가 방식이 시간과 비용이 많이 들고, 모델이 고도화될수록 평가 자체가 빠르게 구식이 되거나 학습 데이터에 ‘오염’될 위험이 크다고 지적해 왔다. 이에 따라 정렬되지 않은 행동을 신속하고 지속적으로 점검할 수 있는 도구의 필요성이 커졌다고 전했다.
블룸은 앞서 공개된 자동 행동 탐색 도구 ‘페트리(Petri)’를 보완하는 성격의 프레임워크다. 사용자가 여러 상황을 직접 만들어 다양한 행동을 동시에 점검하는 페트리와 달리, 블룸은 사용자가 정한 특정 행동 하나에 집중해, 그 행동이 얼마나 자주 나타나는지를 측정할 수 있도록 다양한 평가 시나리오를 자동으로 생성한다.
이를 통해 연구자들은 복잡한 평가 파이프라인을 직접 설계하지 않아도, AI 모델의 특성을 빠르게 측정할 수 있다.
블룸은 행동 설명과 시드 설정을 입력하면, 이를 바탕으로 행동 유도 비율이나 평균 출현 정도 같은 핵심 지표를 포함한 완전한 평가 세트를 자동으로 만들어내는 4단계의 과정을 거친다. 일반적으로 연구자는 먼저 평가할 행동과 기본 설정을 정한 뒤, 소규모로 테스트를 반복하며 의도에 맞는지 확인하고, 이후 여러 대상 모델을 상대로 대규모 평가를 수행한다.
먼저 ‘이해(Understanding)’ 단계에서 에이전트가 연구자가 정의한 행동 설명과 예시 대화를 분석해 무엇을 왜 측정해야 하는지를 구조화한다. 이어 ‘아이디어(Ideation)’ 단계에서는 해당 행동을 유도하기 위한 평가 시나리오를 자동 생성한다.
이후 ‘롤아웃(Rollout)’ 단계에서 타깃 모델을 대상으로 다중 턴 대화와 도구 사용을 시뮬레이션하며 실제 상호작용을 실행한다. 마지막으로 ‘판단(Judgment)’ 단계에서 판정 모델이 각 대화를 점수화하고, 메타 판정이 전체 평가 결과를 종합해 행동 유발 비율(elicitation rate) 등 핵심 지표를 산출한다.
블룸은 미리 정해진 문제만 반복해 평가하는 방식이 아니라, 같은 행동을 살펴보면서도 실행할 때마다 새로운 시나리오를 만들어 평가한다. 필요하다면 한번 묻고 끝나는 단순한 평가 방식도 선택할 수 있다. 덕분에 몇 가지 시나리오나 특정 질문 형식에 얽매이지 않고 더 유연하게 AI의 행동을 살펴볼 수 있다.
동시에 ‘시드(seed)’라는 설정 파일을 사용해, 언제든 같은 조건으로 평가를 다시 재현할 수 있다. 이 시드에는 평가하려는 행동의 설명, 예시 대화, 그리고 평가 방식을 정하는 기본 설정이 담겨 있다.
연구자들은 평가 과정에 쓰일 AI 모델을 직접 고르고, 대화를 얼마나 길게 할지, 도구를 쓰게 할지, 가상의 사용자를 등장시킬지 등을 자유롭게 조정할 수 있다. 또 시나리오를 얼마나 다양하게 만들지 정하거나, 결과를 채점할 때 현실성이나 행동을 끌어내기 얼마나 어려웠는지 같은 추가 기준도 설정할 수 있다.
앤트로픽은 블룸의 성능 검증을 위해 16개 프런티어 모델을 대상으로 ▲망상적 아첨(delusional sycophancy) ▲지시된 장기 사보타주 ▲자기 보존(self-preservation) ▲자기 선호 편향(self-preferential bias) 등 네가지 정렬 관련 행동에 대한 벤치마크 결과를 공개했다.
블룸으로 구성된 평가들은 불과 며칠 만에 설계·정제·실행됐으며, 의도적으로 특정 ‘기이한 행동’을 갖도록 설계된 실험용 모델과 실제 상용 모델을 대부분 명확히 구분해 냈다.
또 사람의 평가와 얼마나 잘 맞는지를 비교한 결과, '클로드 오퍼스 4.1’은 인간 판단과의 일치도가 가장 높아 상관계수 0.86을 기록했다.
'클로드 소넷 4.5’도 0.75로 비교적 높은 수준의 일치도를 보였다. 특히 점수가 매우 높거나 낮은 경우에도 블룸의 판단이 인간과 잘 맞아, 기준 점수를 정해 판단할 때 적합하다는 평가를 받았다.
기존 시스템 카드에 포함된 ‘자기 선호 편향’ 평가를 블룸으로 다시 해본 결과, 모델 순위도 동일하게 나타났다.
앤트로픽은 "초기 사용자들은 이미 블룸을 사용해 탈옥 취약점을 평가하고, 하드코딩을 테스트하고, 평가 인식도를 측정하고, 파괴 행위 추적 정보를 생성하고 있다"라고 밝혔다.
블룸은 파이썬 기반 파이프라인으로 구현됐으며, MIT 라이선스로 깃허브에 공개됐다.
AI가 복잡해질수록 성능보다 문제 행동을 얼마나 잘 잡아내느냐가 더 중요해지는 것 같아요. 블룸은 이런 검증을 사람 손 덜 타고 계속 돌릴 수 있다는 점에서 꽤 실용적인 시도로 보입니다.