Ai 논문 홍수 속 ‘ai 슬롭’ 경계령…학계, 신뢰 붕괴 막기 위한 규제 강화 - ai타임스

‘AI 슬롭(AI slop)’으로 불리는 저품질 AI 생성 콘텐츠에 대한 우려가 학계에도 본격적으로 퍼지고 있다. 이에 따라 최근 주요 AI 학회들이 대형언어모델(LLM)의 논문 작성·심사 활용을 제한하거나 공시 의무를 강화하는 등 규제를 서둘러 도입하고 있다.

1일(현지시간) 파이낸셜 타임스에 따르면, 주요 AI 학회들은 최근 수개월간 AI가 작성한 부실 논문과 리뷰가 급증하자 LLM의 논문 작성·심사 활용을 제한하는 규정을 잇달아 도입했다.

국제학습표현학회(ICLR)는 “LLM의 광범위한 사용을 공개하지 않을 경우 논문을 반려한다”라는 규정을 신설했고, AI로 저품질 리뷰를 작성한 심사자에게는 논문 제출 제한 등 제재를 예고했다.

이니올루와 라지 UC버클리 연구원은 “AI가 다른 분야를 바꾼다는 기대와 달리, 정작 AI 분야는 무분별한 사용으로 혼란을 겪고 있다”라고 지적했다.

스탠퍼드대학교가 지난해 8월 발표한 연구에 따르면, 컴퓨터과학 논문의 최대 22%는 LLM을 사용한 흔적이 포함됐다.

또 스타트업 팽그램은 ICLR 2025 리뷰의 21%가 전적으로 AI 생성물이며, 절반 이상이 일부 AI를 활용했다고 추정했다. 제출 논문 중 9%는 본문 절반 이상이 AI 생성으로 분석됐다.

'뉴립스(NeurIPS)'에서는 지난해 50편의 논문에서 100건이 넘는 AI 생성 오류가 발견됐다는 보고도 나왔다.

논문 양의 급증했다는 것도 경고 신호로 읽힌다. 뉴립스 제출 건수는 2020년 9467건에서 2025년 2만1575건으로 폭증했다. 한 저자가 100편 이상을 제출한 사례도 보고됐다. 증가세가 LLM 사용 때문인지, 연구자의 확대 때문인지는 명확하지 않다.

AI 생성물 탐지도 여전히 쉽지 않다. 업계 표준이 부족한 상황에서, 허구의 참고문헌이나 오류가 있는 그림 등이 주요 단서로 활용되고 있다. 이런 경우, 해당 연구자는 일정 기간 아카이브(arXiv) 제출이 제한된다.

전문가들은 상업적 유인이 ‘다작 문화’를 부추겼다고 본다. 라지 연구원은 “화려한 데모와 고액 연봉, 기업의 과열 경쟁이 외부 관심을 끌어 대량 생산을 유도했다”라고 말했다. 하니 파리드 UC버클리 교수는 “잘못된 논문이 양산되면, 과학자에 대한 사회의 신뢰가 떨어질 수 있다”라고 지적했다.

하지만, 전문가들은 AI를 유익하게 활용할 수도 있다고 설명한다. 브레인스토밍 과정에 도움받거나 교정이나 번역으로 생산성을 높일 수 있다는 말이다. 토머스 디터리히 오리건주립대학교 교수는 “중국 논문의 영어 품질이 크게 향상된 것은 LLM의 영향”이라고 평가했다.

이처럼 학술 데이터에 AI 생성물이 섞일 경우, 이를 학습한 모델이 붕괴한다는 것은 이제 상식에 가깝다. AI가 출력한 답을 다시 AI가 학습하며 다양성이 사라지고 천편일률적인 답을 내놓게 된다는 것이다.