광고닫기

“화면 대신 말로 다 한다”… 오픈AI가 불 지핀 스크린리스 AI 경쟁 [팩플]

중앙일보

2026.05.07 22:25

  • 글자크기
  • 인쇄
  • 공유
글자 크기 조절
기사 공유
AP=연합뉴스

AP=연합뉴스


오픈AI가 사람과 실시간으로 자연스럽게 대화하고, 예약·검색·상담 같은 작업까지 수행할 수 있는 차세대 음성 AI 기술을 공개했다. 실시간으로 대화 맥락을 이해하고 작업까지 처리하는 행동형 AI 경쟁이 본격화하고 있다는 평가가 나온다.

오픈AI는 7일(현지시간) 음성 AI 모델 3종(GPT-리얼타임-2, 트랜슬레이트, 위스퍼)을 공개했다. 핵심은 GPT-리얼타임-2로, 기존 음성 AI 의 고질적 한계였던 반응 지연 문제를 개선했다. 기존 음성 모델인 리얼타임-1.5 버전이 사람의 말을 글자(STT)로 바꾼 뒤 AI가 이해하고 다시 음성(TTS)으로 읽어주는 번역기형 구조에 가까웠다면, 이번 모델은 음성을 실시간으로 직접 이해하고 반응하는 구조다. 여기에 GPT 5급 추론 능력까지 결합돼 단순 음성 응답을 넘어 복잡한 상황을 판단하고 작업까지 수행하는 행동형 음성 AI를 지향한다는 게 오픈AI 측 설명이다. 다만 이번 모델은 현재 개발자용 API 형태로 공개돼 일반 사용자가 챗GPT 앱에서 바로 사용할 수 있는 기능은 아니다. 개발자들이 이를 활용해 실시간 통역 앱이나 AI 전화비서, 음성 상담 서비스 같은 다양한 음성 기반 서비스를 구축할 수 있다.

단순 응답 넘어 실제 일하는 AI
이번 모델은 단순 음성 대화를 넘어 실제 작업 수행 능력을 강화한 것이 특징이다. 사용자 요청에 따라 예약·검색·고객 상담 같은 작업을 수행할 수 있도록 설계됐고 대화 도중 질문이 바뀌거나 말을 끊는 상황에도 비교적 자연스럽게 대응할 수 있다.

동시통역과 기록 업무에 특화된 전용 모델도 함께 출시됐다. 70개 이상 언어를 실시간으로 처리하는 ‘GPT-리얼타임-트랜슬레이트’는 통역 기능에 특화됐고 ‘GPT-리얼타임-위스퍼’는 기존의 느리고 부정확했던 음성 서비스를 전문 비서 수준으로 끌어올렸다. 회의 자막 생성이나 업무 기록 자동화 같은 음성 기록 기능에 초점을 맞춘 모델이다. 해외 직구 중 발생한 결제 문제를 외국어 상담원과 전화로 실시간 해결하거나, 회의 직후 완벽한 회의록을 즉시 받아보는 일상이 가능해진 것이다.

웨어러블·차량용 AI 경쟁 불붙나
가격도 비교적 낮은 수준으로 책정됐다. 오픈AI는 실시간 통역 모델을 분당 0.034달러(약 46원), 음성 받아쓰기 모델을 분당 0.017달러(약 23원)에 제공한다고 밝혔다. 업계에서는 기업들이 비교적 낮은 비용으로 음성 AI 기능을 자사 서비스에 적용할 수 있게 되면서 관련 시장 확대 속도도 빨라질 것으로 보고 있다. 미국 부동산 플랫폼 질로우와 여행업체 프라이스라인, 독일 통신기업 도이치텔레콤 등은 이미 해당 모델을 테스트 중이다. 로이터는 “질로우는 이용자가 원하는 조건에 맞는 집을 검색하고 방문 예약이나 상담 연결까지 이어지는 기능 등을 실험 중”이라고 보도했다.

업계에서는 이번 모델이 향후 이어폰이나 스마트 안경 같은 웨어러블 기기, 차량용 음성비서 서비스 등으로 확장될 가능성에 주목하고 있다. 스마트폰 화면을 직접 조작하지 않고 음성만으로 정보를 확인하거나 작업을 처리하는 스크린리스(Screenless) 인터페이스 경쟁도 빨라질 수 있다는 분석이 나온다. 오픈AI는 “음성 인식은 사람들이 소프트웨어를 사용하는 가장 자연스러운 방식 중 하나로 자리 잡고 있다”며 “단순한 질의응답 방식에서 벗어나 음성 대화를 통해 실제로 작업을 수행할 수 있는 인터페이스로 발전시킬 것”이라고 말했다.
더중앙플러스 : 팩플
더 자세한 기사 내용이 궁금하시다면 아래 주소를 주소창에 입력하세요.

테슬라, 텔레그램서 팔았다…김과장 ‘24시간 주식’의 비밀
주말에도 텔레그램으로 엔비디아 주식을 사고판다? 심지어 22%의 양도소득세도 낼 필요가 없다고? 최근 발 빠른 투자자들 사이에서 은밀하게 퍼지고 있는 신종 재테크, '주식 토큰' 얘기다. 증권사 앱 대신 텔레그램을 통해 24시간 365일 주식 토큰을 거래하고, 비상장사인 오픈AI와 스페이스X 지분까지 살 수 있다는데. 주식 토큰의 정체는 뭘까. 재테크 상식을 뿌리째 흔들어 놓을 수 있는 주식+토큰의 세계. 어떻게 투자하는지부터 장단점, 재테크 시장에 미칠 영향과 전망까지 모두 담았다.
https://www.joongang.co.kr/article/25426447

AI 쓰려다 ‘복붙 노예’ 됐다? 클로드 코워크에 PC 맡겨라
클로드가 직접 내 PC 화면을 보고 브라우저를 클릭하며 영수증 정리나 메일 분류 같은 실무를 대신 수행해준다. 남들이 AI에 잡무를 맡기고 핵심 전략을 짤 때, 나 홀로 복사·붙여넣기를 반복하는 건 엑셀 시대에 주판을 두드리는 것만큼이나 위험한 신호. 나도 할 수 있나 싶었던 그 기술을 초보자도 바로 업무에 쓸 수 있게 정리했다. 소셜미디어(SNS)에서 ‘AI로 이것도 됩니다’ 류의 글을 보며 나만 뒤처지는 것 같았다면, 이제 첫발을 떼어볼 때다.
https://www.joongang.co.kr/article/25421677

포춘 10대 기업 중 8곳 쓴다…챗GPT보다 믿을 만한 ‘AI 반란군’
오픈AI 핵심 인재들이 설립한 앤스로픽이 생성 AI 시장의 새로운 대세로 부상했다. 안전과 신뢰라는 철학적 차이로 독립한 이들은 단순히 질문에 답하는 챗봇을 넘어, 실제 업무를 완결 짓는 ‘위임형 AI’ 에이전트 시대를 설계하는 중. 포춘 10대 기업 대다수가 선택한 클로드의 경쟁력과 AI가 외부 소프트웨어를 직접 호출하는 표준 규격 MCP가 불러올 산업 지형의 변화를 심층 분석했다.
https://www.joongang.co.kr/article/25415947



권유진([email protected])

많이 본 뉴스

      실시간 뉴스