Ch9. 추천 알고리즘 - 알 수 없는 알고리즘이 여기로 이끌다
<추천 서비스, 넷플릭스에서 유튜브까지>
- 유튜브 시청의 70%, 넷플릭스 시청의 80%는 알고리즘에 의한 추천 영상.
- 아마존: 추천 시스템의 원조. 아마존의 추천 시스템을 다룬 논문(2003년)이 지난 20년간 가장 영향력 있는 논문으로 선정.
- 추천 시스템의 핵심: 사용할수록 정교해짐(데이터가 늘어나고 정보가 많아질수록 정확한 추천이 가능)
- 사람들의 기호에는 강한 연관성이 있기에 추천 서비스가 효과적인 것. 이를 분석하는 것을 연관성 분석이라고 함
<맥주와 기저귀는 함께 팔린다>
- 장바구니 분석: 고객의 구매 내역을 분석하는 방식. 상품 간의 연관성을 분석하는 것이기 때문에 '연관성 분석'이라고도 함
- 데이터 마이닝: 대규모 데이터에서 특정한 패턴을 발견하고 추출하는 행위
- 신뢰도: 연관성 분석에서 사용하는 지표. 신뢰도 값이 높은 상품을 연관성이 높은 상품이라고 본다.
- 향상도: 두 상품의 판매 빈도까지 고려하는 지표. (원래 자주 판매되는 상품의 가능성을 배제)
<추천 시스템의 시작>
일반적인 추천시스템 2가지
- 콘텐츠 기반 필터링: 내가 선호하는 영화와 비슷한 영화를 추천.
단점: 비슷한 영화의 특징 분류 및 태깅은 사람이 직접해야 함. 특징을 세분화한다고 고객의 관심사를 확장할 수는 없으므로 영상 추천의 한계가 존재함. - 협업 필터링: 나와 비슷한 고객이 시청한 영화를 추천
협업 필터링의 핵심: 고객 간의 유사도. 유사도가 큰 고객들을 연결해서 추천을 함.
<행렬 인수분해, 잠재요인을 찾아내는 마법의 알고리즘>
행렬 인수분해
- 협업 필터링 기법 중 하나로, 하나의 행렬을 2개의 행렬로 이수분해하여 예측하는 기법.
- 제각각인 콘텐츠 평점 정보를 이용해 고객의 특징을 자동으로 추출하고 영화의 특징도 추출 → 고객의 평점을 예측하여, 고객이 좋은 평점을 줄 것 같은 콘텐츠를 추천
- 넷플릭스 프라이즈(2006~2009년에 넷플릭스가 개최한 대회. 자사의 추천 알고리즘의 성능을 10% 이상 끌어올리기 위해서 100만 달러의 상금을 걸었음)에 처음으로 등장
- 숨어있는 특징을 자동으로 추출하기 때문에, "잠재요인을 발굴"한다고 표현함.
- 차원의 저주
: 머신러닝에서 특징이 하나 늘어날 때마다 한 차원이 추가되기 때문에, 데이터가 훨씬 많아야 비슷한 성능을 낼 수 있는 것.
: 데이터가 부족하면 오히려 특징을 제대로 추출하지 못하고 성능이 떨어질 수 있음
<딥러닝을 도입한 유튜브 추천 알고리즘>
- 행렬 인수분해 기법은 딥러닝 구조와 유사함. 중간 구조가 없는 간결한 형태의 신경망 구조를 띰
- 유사한 구조로 인해 최근에는 행렬 인수분해 대신 딥러닝으로 접근하려는 시도가 많음.(깊은 신경망일수록 성능이 좋음)
- 콜드 스타트: 사용자는 새로운 콘텐츠를 좋아하지만, 새로운 콘텐츠일수록 조회수도 없고 인기 예측 정보가 없어서 추천하기 어려움. 이러한 역설적인 상황을 추천 시스템은 해결해야 함.
- 필터 버블: 고객이 기존 취향에만 갇히는 것. 협업 필터링으로 어느 정도 관심사를 확장하긴 하지만, 비슷한 성향끼리만 묶이게 될 가능성 있음.
→ 추천 시스템에서는 "뜻밖의 발견"이 중요함.
반응형
'북클럽' 카테고리의 다른 글
[책 요약] 비전공자도 이해할 수 있는 AI지식_Ch8. 내비게이션 (1) | 2024.11.09 |
---|---|
[책 요약] 비전공자도 이해할 수 있는 AI지식_Ch6. 기계번역 (2) | 2024.10.27 |
[책 요약] 비전공자도 이해할 수 있는 AI지식_Ch5. 스마트 스피커 (2) | 2024.10.21 |
[책 요약] 비전공자도 이해할 수 있는 AI지식_Ch4. 검색엔진 (0) | 2024.10.12 |
[책 요약] 비전공자도 이해할 수 있는 AI지식_Ch3. 자율주행 (3) | 2024.10.06 |