스탠퍼드大 ‘AI 인덱스’ 보고서
지난 2년여 동안 인공지능(AI) 운영에 들어가는 비용이 거의 100분의 1 수준으로 낮아지면서 AI 보급 속도도 급속히 빨라지고 있다는 분석 보고서가 나왔다.
7일 스탠퍼드대 인간중심AI연구소(HAI)가 내놓은 ‘AI 인덱스 2025’에 따르면, 미국의 오픈AI가 챗GPT를 내놓은 2022년 11월 기준 AI 모델이 답변을 처리하는 데 드는 비용은 100만토큰(AI 모델에서 처리되는 데이터 단위)당 20달러였다. 하지만 지난해 10월에는 이 비용이 0.07달러로 떨어졌다. 2년 만에 무려 99.65%의 비용 절감이 이뤄진 셈이다. 데이터를 효율적으로 처리하는 AI 모델이 개발되고, 데이터센터의 성능도 개선됐기 때문이다. 보고서는 이를 단순한 성능 향상을 넘어서, AI가 점차 누구나 사용할 수 있는 ‘일상적 도구’로 자리 잡고 있다는 의미로 해석했다.
그래픽=김성규
◇더 가볍고 더 저렴해진 AI
2018년 이후 매년 발표되는 ‘스탠퍼드대 AI 인덱스’는 세계 AI 기술, 경제, 사회적 영향에 대한 최신 데이터와 트렌드를 종합적으로 분석해 가장 공신력 있는 AI 백서로 꼽힌다. 올해 보고서는 AI 성능의 상향 평준화, 효율화와 함께 대중화에 주목했다. 국가별 성적을 보면, AI 개발에서 압도적인 우세를 보인 미국(40개)이 올해도 세계에서 주요 AI 모델을 가장 많이 보유하고 있다. 하지만 중국(15개)의 거센 추격 때문에 두 나라 간 AI 모델의 성능 격차는 대폭 줄었다.
그래픽=김성규
AI 개발의 흐름이 대형 모델에서 소형 모델로 재편되면서 대중화가 더욱 빨라지고 있다. 보고서는 30억~40억 파라미터(매개 변수)의 경량 모델이 수천억 파라미터를 가진 초대형 모델과 거의 유사한 성능을 내는 흐름을 ‘획기적인 전환점’으로 평가했다. 예컨대, 작년에 출시된 마이크로소프트(MS)의 파이-3-미니는 단 38억 파라미터로 MMLU 벤치마크(57과목 기반으로 대학 수준의 지식을 평가하는 객관식 언어 이해 평가 지표)에서 62.9%의 점수를 기록했다. 5400억 파라미터를 가진 구글의 초거대 모델인 ‘팜’의 성능에 거의 근접한 수치다. 이처럼 소형화된 모델은 전력 소모와 AI 반도체 같은 AI 인프라 부담을 줄여, 스마트폰이나 노트북 수준의 기기에서도 충분히 작동할 수 있다. 일상에서 AI를 더 쉽게 이용할 수 있게 된 것이다. AI 업계 관계자는 “과거 초거대 AI 모델 개발 경쟁을 벌이던 빅테크들도 최근엔 고성능 소형 모델로 눈을 돌리는 추세”라고 했다.
AI 업계가 빠르게 상향 평준화와 효율화를 이룰 수 있었던 것은 국가 간, 기업 간 개발 경쟁이 그만큼 치열했기 때문이다. 국가별로 평가했을 때 미국은 매년 민간 투자액이나 주요 AI 모델 보유 숫자에서 2위인 중국을 여유롭게 따돌렸다. 올해도 정량적인 평가에서는 같은 결과가 나왔지만, AI의 질적인 측면에선 중국이 미국을 따라잡고 있는 것으로 나왔다. 2023년에는 미국 모델들이 주요 벤치마크에서 중국 모델보다 월등히 우세했지만, 작년부터 격차가 확 줄었다. 2023년 말 기준, MMLU 벤치마크에서 두 나라의 성능 격차가 각각 17.5%포인트였으나, 작년 말에는 0.3%포인트로 줄었다.
AI 활용성도 크게 높아지고 있다. 스탠퍼드대 AI 연구소가 지난해 기업, 정부 기관을 대상으로 한 설문 조사에서 응답자의 78%가 자신이 속한 조직이 AI를 사용하고 있다고 답했다. 이는 2023년의 55%에서 크게 상승한 수치다. 같은 기간, 업무 기능 중 최소 하나 이상에서 생성형 AI를 사용하고 있다고 답한 비율도 33%에서 71%로 두 배 이상으로 증가했다.
◇갈 길 바쁜 한국 AI
한국은 작년까지 ‘국가별 주요 AI 모델’에 단 하나도 이름을 올리지 못했다. 하지만 올해는 LG AI연구원의 엑사원 3.5가 포함됐다. LG AI연구원은 자체 거대언어모델(LLM)인 엑사원을 개발해 그룹 계열사에서 활용하고 있다. 최근엔 중국의 딥시크와 비슷한 성능의 추론형 AI 모델을 개발하기도 했다.
한국 AI 관련 다른 지표에는 경고등이 들어와 있다. 민간 AI 투자 순위는 지난해(6위)보다 5계단 떨어져 10위권 밖으로 밀려났고, AI 인재의 해외 유출도 심각한 편이다. 한국의 AI 인력은 유입보다 유출이 많은데 비해, 미국·프랑스·싱가포르 등은 유입이 더 많았다.
☞AI 벤치마크
인공지능(AI) 모델의 성능을 객관적으로 비교하기 위해 만든 표준 시험. 수학 문제를 얼마나 잘 푸는지, 글을 얼마나 자연스럽게 쓰는지 등을 측정하는 테스트를 만들어 다양한 AI 모델에 똑같이 풀게 하고 점수를 비교하는 식으로 진행한다.
Copyright © 조선일보. 무단전재 및 재배포 금지.