본문 바로가기
북클럽

[책 요약] 비전공자도 이해할 수 있는 AI지식_Ch6. 기계번역

by pm-ing 2024. 10. 27.

Ch6. 기계번역: 외국어를 몰라도 파파고만 있다면

<위대한 인공지능, 깨어나다>

  • 인공지능의 시대가 열린 후, 구글번역이 어느날부터 굉장이 자연스러워짐.
  • 구글 번역이 도입한 기술은 '인공 신경망'


<인간의 언어가 정말 어려운 이유>

  • 인간의 언어를 몇 가지 규칙만으로 설명하기 불가능함.
  • 일상적인 대화에는 오류가 매우 많음. 하지만 인간은 이해가 가능.


<기계번역의 시작>

  • 기계번역: 인간이 사용하는 언어를 기계를 사용해 다른 언어로 번역하는 일


<규칙기반, 모든 규칙을 정의하다>

  • 시스트란: 기계번역을 대표하는 회사. 규칙기반 기계번역을 이용함


<예시 기반과 통계 기반, 가능성을 보이다>

  • 예시 기반 기계번역: 규칙기반 대신 풍부한 데이터를 활용하는 방식.
  • 사람들이 실제로 활용하는 문장 전체의 맥락을 살펴보는 데 초점.
  • 좀 더 자연스러운 문장으로 번역하기 위해, 확률 계산을 단어 단위에서 구문 단위로 확장함.


<인공 신경망 기반, 마침내 혁신이 시작되다>

  • 신경망 기반 기계번역: 구문 단위를 넘어 아예 문장 전체에 딥러닝을 적용
  • 문장 전체를 하나의 단어처럼 통째로 번역해서 결과가 자연스러움.


<어텐션, 가장 혁신적인 발명>

  • 인코더(Encoder): 문장을 압축하는 부분. 문장을 압축하는 과정에서 문장을 띄어쓰기 단위로 구분하고 최대한 압축함.
  • 디코더(Decoder): 문장을 푸는 부분. 압축된 벡터를 받아서 순서대로 풀어냄.
  • 어텐션: 더 중요한 단어를 강조하는 원리. 어텐션의 핵심은 중요한 단어에 별도의 가중치를 부여할 수 있다는 점.
    • 단어 사이의 거리가 멀어도 서로 관련이 있는 단어는 표시를 해두어 가중치가 높아짐 → 긴 문장일수록 높은 성능이 차별화됨
    • 매 단계마다 가중치를 부여하고, 중요한 부분에 가중치 더 높임.
  • 트랜스포머: 어텐션만으로 구성된 자연어 처리 딥러닝 모델.  ex)버트,GPT-3

 

<번역 규칙을 스스로 학습하다>

  • 언어는 끊임없이 변형되고 확장하므로 언어의 형식적 분석은 명백한 한계가 존재함.
  • 신경망을 도입하며 인공지능 번역에 돌파구가 생김
  • 그리고 이제는 더이상 규칙을 입력하지 않고, 비슷한 문장에서 규칙을 스스로 학습

 

<인간을 뛰어넘은 기계번역>

  • 2004년 구글 번역은 시스트란의 제품을 사용.
  • 2006년 통계 기반의 기계번역 서비스를 출시한 후로는 번역 엔진을 직접 개발하면서 성능을 꾸준히 높여옴.
  • 검색 서비스를 통해 많은 데이터를 가지고 있었기에 고품질의 번역 서비스를 단기간에 개발할 수 있었음.

 

<바벨탑, 인간은 신의 형별을 극복할 수 있을까?>

  • 딥러닝의 가장 성공적인 사례를 기계번역이라고 해도 과언이 아님.
  • 고품질의 기계번역은 점점 언어의 장벽을 무너트리고 있음

 

반응형