본문 바로가기
북클럽

[책 요약] 비전공자도 이해할 수 있는 AI지식_Ch5. 스마트 스피커

by pm-ing 2024. 10. 21.

Ch5. 스마트 스피커: 시리는 쓸모 있는 비서가 될 수 있을까

 

<인공지능 비서의 탄생>

  해외 국내
서비스명
  • 2011 애플-음성 비서 시리 : 음성인식이라는 개념을 대중화
  • 2014 아마존-스마트 스피커 에코
  • 2016 구글-구글 어시스턴트
  • 2016 skt-음성인식 스피커 NUGU
  • 2017 네이버-클로바
  • 2017 카카오-카카오미니

 

 

<애플 시리, 음성인식 비서의 시대를 열다>

  • 초기 시리는 스타트업에서 만들어졌으며 음성인식 기능이 없었고, 그저 텍스트를 입력하면 응답해주는 챗봇에 가까웠음.
  • 하지만 이사회에서 챗봇으로는 시장의 반응을 얻기 어렵다고 판단하여 출시를 1년 연기하고 음성인식 기능을 추가하게 됨!
  • 2010년, 드디어 아이폰 앱으로 시리가 출시되고, 폭발적인 인기를 끌었음.
  • 스티브 잡스가 이 스타트업을 인수하였고, 1년 후 2011년 10월 iPhone 4S에 정식으로 시리가 탑재.
  • 시리팀과 애플 경영진관의 갈등으로 시리팀 초창기 멤버 대부분이 애플을 떠남. 이후 Viv Labs를 설립하여 인공지능 개인 비서 '빅스비'를 만들었고, 2016년 삼성전자가 인수함.

 

<아마존 알렉사, 스마트 스피커의 시대를 열다>

  • 스마트 스피커라는 카테고리를 처음 만든 회사는 '아마존'
  • 미국 가정에서 사용중인 스마트스피커의 70%가 에코(아마존의 스마트 스피커)
  • 호출어는 인류 지식과 배움의 중심지였던 고대 이집트 도서관 알렉산드리아에서 따온 "알렉사(Alexa)"

 

<스마트 스피커는 어떻게 말을 알아들을까?>

  • 스마트 스피커는 웨이크업(hey, Siri 처럼 부르면 반응하면서 깨어나는 과정을 의미) 단어를 알아듣기 위한 음성인식 엔진이 내장되어 있음.
  • 웨이크업 후의 과정: 녹음된 음성을 서버로 전송 => 음성 인식 => 자연어 이해 => 다이얼로그 매니저 => 자연어 생성 => 음성 합성

 

<음성인식, 목소리를 알아듣다>

  • 기계 입장에서는 음성인식이 문자인식보다 훨씬 까다로움 
    : 소음과 음성의 구분이 필요함
    : 같은 사람이어도 발음이 항상 같지 않음
    : 단어 사이에 공백이 존재할 것 같지만 실제로는 그렇지 않음
  • 은닉 마르코프 모델: 은닉된 상태와 관찰 가능한 결과로 구성된 통계적 모델(규칙 기반x)
  • 순환 신경망(RNN, Recurrent Neural Network): 인공 신경망 구조. 시간의 흐름에 따라 순서대로 구성되는 시계열 형식 학습 가능.
  • 음향 모델: 음성의 파형으로 단어를 인식하는 딥러닝 모델

 

<자연어 이해, 의도를 이해하다>

  • 자연어 이해(NLU, Natural Language Understanding) 과정
    1) 도메인(카테고리) 분류 ex. 날씨, 음악, 예약
    2) 인텐트 (사용자 의도) 분류 ex. 조회, 재생, 진행
    3) 슬롯 필링(Slot Filling): 비어있는 정보를 예측하여 채워주는 것. 예를들어 '오늘 날씨 어때?' 라고 묻는다면 지역 정보가 슬롯에 해당. 일반적으로 현재 위치를 의미할 것이므로 현재 위치 정보를 슬롯에 채움.
    4) 멀티 턴: 필요한 정보를 얻기 위해 여러번 질의하며 슬롯을 채우는 것. ex. 식당을 예약해달라고 했을 때, 식당명과 시간을 예측하여 명령을 수행할 수 없으므로 질의를 거쳐야 함.

 

 

<다이얼로그 매니저, 명령을 실행하다>

  • 음성인식, 자연어 이해 외의 모든 작업을 수행
    ex. 대화 내용 기억, 외부 지식 기반 서비스에 연결해서 추가적인 정보 찾기, 어려 도메인에 맞춰 적절한 액션을 수행하도록 명령 등
  • 스마트 스피커는 문제해결용 대화시스템(목적이 분명한 대화)이므로, 챗봇처럼 자유롭게 문장을 생성하지는 못함.

 

 

<딥러닝, 인간보다 더 자연스러운>

  • 타코트론2: 엔비디아에서 구현한 음성 합성 모델.
    1) 멜 스펙트로그램: 소리나 파동을 시각화하여 파악할 수 있도록 표현한 것.
    2) 보코더: 멜 스펙트로그램을 실제 음성으로 바꾸는 작업. 노이즈 없이 깨끈한 음질로 변환하는 것이 이 작업의 핵심!

반응형