아마존웹서비스(Amazon Web Services 이하 AWS, 한국 대표 염동훈)는 아마존 렉스(Amazon Lex, 이하 렉스), 아마존 폴리(Amazon Polly, 이하 폴리), 아마존 레코그니션(Amazon Rekognition,이하 레코그니션) 등 3개의 신규 AI 서비스를 출시한다고 밝혔다.

이번에 발표된 서비스들은 개발자들이 자연어를 인식하고, 텍스트를 실제 사람의 말과 같은 음성으로 바꾸어 주며, 음성이나 텍스트를 통해 대화를 진행하고, 이미지 분석, 사람의 얼굴이나 물체, 특정 장면 등을 인식하는 애플리케이션을 쉽게 개발할 수 있게 한다.

지능형 대화 기능 제공하는 아마존 렉스
렉스는 대화형 인터페이스(conversational interfaces) 구축을 위한 새로운 서비스로, 아마존 알렉사에서 사용되는 것과 동일한 자동 음성 인식 기술(ASR, automatic speech recognition) 및 자연어 처리 기술(NLU, natural language understanding) 기술을 기반으로, 음성과 텍스트를 이용한다. 렉스는 거의 모든 앱에서 복잡한 자연어 처리가 가능하다. 아마존 매니지먼트 콘솔에서 대화형 앱인 봇을 생성해 간단한 어구를 타이핑 해 시험해 볼 수 있고 또, 해당 과업 수행에 필요한 추가적인 매개 변수를 얻기 위해 지시를 내릴 수 있고, 그에 해당하는 상세한 정보를 위한 질문을 받기도 한다. 이후부터는 아마존 렉스가 언어 모델을 구성하고, 추가적인 질문을 제시하여 주어진 과업을 완수한다. 렉스는 람다와 통합되어 있어 적절한 백엔드 서비스를 렉스로 불러 오도록 설정할 수 있다. 또한 개발자들은 세일즈포스(Salesforce), 마이크로소프트 다이나믹스(Microsoft Dynamics), 마케토(Marketo), 젠데스크(Zendesk), 퀵북(QuickBooks), 허브스팟(HubSpot) 등의 엔터프라이즈 시스템에서 데이터를 불러와서, “세일스포스닷컴에서 내 상위 10대 계정이 무엇인가?”와 같은 질문에 답하도록 AWS Lambda 기능을 수행하는 사전 구축된 엔터프라이즈 커넥터를 사용할 수 있다.

렉스를 사용하여 구축한 봇은 웹 애플리케이션부터 페이스북 메신저나 슬랙(Slack) 등의 채팅 및 메신저 앱을 비롯해, 모바일 또는 커넥티드 디바이스의 음성을 통해 어디서든 사용이 가능하다. 아마존 렉스는 각 플랫폼마다 사용자 인증 코드(custom code)를 입력하지 않고도 각각의 플랫폼에 필요한 인증 절차를 처리하고, 사용자 인터페이스 설계를 간소화한다. 뿐만 아니라, 트래픽이 증가함에 따라 자동으로 확장돼 인프라 확장 걱정없이 아마존 렉스 API 호출에 따른 비용만 지불하면 된다.

지능형 음성 기능 제공하는 아마존 폴리
폴리는 사람의 음성과 같은 자연스러운 음성 출력 기능을 신문 읽기 앱이나, 이러닝 플랫폼 등 기존의 애플리케이션에 쉽게 추가할 수 있도록 한다. 또는 이를 통해 모바일 앱, 디바이스, 애플리케이션 등의 분야에서 전혀 새로운 종류의 음성 지원 제품(speech-enabled products)을 개발할 수 있다. 폴리는 사용이 간편해 SDK를 사용하거나 AWS 관리 콘솔에서 메시지를 보낼 수가 있으며, 폴리는 즉각 음성으로 이를 출력한다. 출력되는 음성은 바로 재생 가능하고, 표준 오디오 파일 형식으로 저장할 수 있다. 전 세계 24개 언어로 47개의 실제와 같은 음성을 제공하는 폴리를 통해, 이제 개발자들은 성별, 억양 등을 자유롭게 선택하여 전 세계 사용자들을 대상으로 하는 애플리케이션을 개발할 수가 있게 되었다. 폴리는 텍스트를 매끄러운 발음으로 읽어 주므로, 다양한 텍스트 포맷에 걸쳐 우수한 품질의 음성을 애플리케이션을 출력할 수 있고 대량의 음성 변환 작업에도 고품질의 음성을 빠른 속도로 출력한다.

지능형 이미지 분석기능 구현한 아마존 렉코그니션
레코그니션은 개발자들이 빠르고, 손쉽게 이미지를 분석하고, 안면이나 사물, 장면 등을 인식하는 애플리케이션을 개발할 수 있도록 해 준다. 아마존 레코그니션은 딥러닝 기술을 이용해 자동으로 차량이나 애완동물, 가구 등 사물과 장면을 식별한 후, 신뢰도 점수(confidence score)를 제공한다. 이를 통해 이미지에 태그를 적용하여 애플리케이션 사용자들이 키워드를 통해 이미지를 검색할 수 있게 한다. 레코그니션은 이미지 내에서 얼굴을 인식하고, 웃고 있는지, 눈을 감았는지 등의 속성을 감지해 낸다. 또한 고급 안면 분석 기능을 제공해 안면 비교나, 안면 검색 등도 수행할 수 있다.

개발자들은 동일 인물을 촬영한 두 개의 이미지를 놓고 안면의 유사성을 측정할 수 있으며, 이를 통해 거의 실시간으로 참고 사진과 대조하여 사용자의 신원을 검증할 수 있다. 마찬가지로, 수 백만 장의 얼굴 이미지(사진에서 탐지)를 모을 수도 있고, 기준이 되는 얼굴을 데이터베이스에서 검색할 수도 있다. 레코그니션은 종합적인 이미지 분류, 탐지, 관리 기능을 신뢰할 수 있는 AWS 서비스 형태로 쉽고, 저렴하게 제공하며, 고가의 이미지 처리 시스템을 구축하고 관리하는 데에 소요되는 복잡성과 오버헤드를 줄여 준다.

AWS의 데이터베이스, 애널리틱스 및 AI 담당 부사장인 라주 굴라바니(Raju Gulabani)는 “아마존의 머신 러닝 및 딥 러닝 전문가들 수 천여 명이 여러 해 동안 인공 지능 기술을 개발해 왔다. 이들이 개발해 온 인공지능 기술은 사람들이 선호할 만한 읽을거리를 예측하고, 로봇 기술과 컴퓨터 비전 기술을 통해 물류 센터(fulfillment center) 업무의 효율성을 증대 시키며, 고객들에게 아마존이 개발하고 있는 인공지능 기반 가상 비서, 알렉사를 선보일 수 있게 해 주었다. 이제 AWS는 모든 개발자들이 공유할 수 있도록 3 가지 종류의 관리형 아마존 AI 서비스를 출시하게 되었다. 이 서비스들은 사용이 쉽고 성능이 뛰어나며 비용효율적이다. 앞으로 고객들이 렉사, 폴리, 레코그니션을 사용해 인간과 같은 지성을 지니고 사람처럼 보고, 듣고 말하며, 인간 및 주변 환경과 상호작용할 차세대 앱을 어떻게 개발할지 매우 기대된다”고 말했다.

현재 이들 서비스는 캐피탈 원, 모토로라 솔루션, 스머그머그, 미국 심장협회(American Heart Association), NASA, 허브스팟, 레드핀, 오하이오 헬스, 듀오링고(DuoLingo), 영국 왕립시각장애인협회(Royal National Institute of Blind People), 링앱(LingApps), 고애니메이트, 코세라(Coursera) 등 다수의 고객사에서 사용되고 있다.

이향선기자 hslee@nextdaily.co.kr

관련기사

저작권자 © 넥스트데일리 무단전재 및 재배포 금지