광고닫기

삼성전자가 개발한 '업무용 AI' 성능 채점표...허깅페이스에 공개

중앙일보

2025.09.24 22:57

  • 글자크기
  • 인쇄
  • 공유
글자 크기 조절
기사 공유
삼성전자가 ‘일 잘 하는 인공지능(AI)’ 채점표를 개발해 AI 생태계에 공개했다. 영어·범용성 위주의 기존 지표와 달리, 한국어 포함 12개 언어를 지원하며 AI의 업무 생산성을 평가한다.
삼성리서치가 허깅페이스(Hugging Face)에 공개한 트루벤치(TRUEBench). 사진 삼성전자

25일 삼성전자 DX(완제품)부문 선행 연구개발 조직인 삼성리서치는 AI 업무 생산성 벤치마크 ‘트루벤치’를 개발했다고 밝혔다.

벤치마크는 여러 AI 모델의 신뢰성·정확도 등을 비교하는 표준 시험지다. UC 버클리 연구팀이 개발한 MMLU가 널리 쓰이며, AI의 용도·특성이 다양해짐에 따라 분야별 벤치마크도 등장하고 있다. 지난해 오픈AI가 내놓은 소프트웨어 개발 능력 평가 ‘SWE-벤치’, 지난 4월 구글이 공개한 과학용 벤치마크 ‘큐리’ 등이다.

삼성전자의 트루벤치는 특정 AI 모델이 업무에 쓰기 괜찮은지를 평가한다. AI가 치르는 삼성직무적성검사(GSAT)인 셈.

기업들이 자주 쓰는 콘텐트 생성, 데이터 분석, 문서 요약·번역, 연속 대화 등 주요 AI 성능을 10개 분야, 46개 업무, 2485개의 항목으로 평가한다. 영어·한국어·일본어·중국어·스페인어 등 12개 언어를 지원하며, 영·한 등 여러 언어가 혼합된 교차 번역 기능도 평가할 수 있다.

삼성전자는 자체 개발한 AI 모델 ‘가우스’를 내부 업무용으로 사용하고 있다. 가우스 성능 향상을 위해 만든 벤치마크를 외부에도 공개해 AI 생태계와 교류하겠다는 것이다.

삼성리서치는 트루벤치의 데이터 샘플과 AI 모델 평가 리더보드를 글로벌 오픈소스 플랫폼 허깅페이스에 공개했다. 삼성리서치가 허깅페이스에 AI 자료를 올리는 것은 이번이 처음이다.




심서현([email protected])

많이 본 뉴스

      실시간 뉴스