본문 바로가기

알파고 마스터

보상을 통해 학습하는 머신러닝 기술 2편 지난 시간에는 강화학습의 정의와 등장 배경 그리고 머신러닝 분야 중의 하나인 강화학습(Reinforcement Learning)에 대해 알아봤습니다. ● 보상을 통해 학습하는 머신러닝 기술 1편: http://blog.lgcns.com/1692 그렇다면 이번 시간에는 강화학습의 머신러닝 기술을 토대로 발전하고 있는 다양한 사례와 앞으로의 동향에 대해 알아보겠습니다. 강화학습 기술의 적용사례 1. 게임 게임은 강화학습이 발전하게 된 토대를 만들어 주었고 지금도 강화학습 알고리즘의 테스트베드로 많이 쓰입니다. ● 딥마인드 알파고전편에서 설명했듯이 바둑에서 이세돌을 4:1로 이기면서 강화학습이 관심을 받게 된 계기를 만들었습니다. 2017년 5월에는 커제를 3:0으로 격파하고 그 후 딥마인드에서 공식적으로 은.. 더보기
보상을 통해 학습하는 머신러닝 기술 1편 2016년 3월, 전 세계가 주목한 세기의 대결이 펼쳐졌습니다. 구글의 딥마인드(DeepMind)에서 만든 인공지능 바둑 프로그램 알파고(AlphaGo)가 바둑 세계 챔피언 이세돌에게 도전장을 내민 것인데요. 바둑은 경우의 수가 약 2x10,170으로 우주 전체 원자 수보다 많은 보드게임입니다. 따라서 당연히 사람들은 이세돌이 승리할 것으로 생각했지만 결과는 놀라웠습니다. 알파고가 이세돌을 4:1로 제압한 것인데요. 컴퓨터가 인간을 이길 수 없는 마지막 보류라고 여겨졌던 바둑마저 컴퓨터에 챔피언의 자리를 내어준 것입니다. 그리고 1년 후 알파고 마스터라는 이름으로 커제와 대결했고 커제는 단 1승도 거두지 못했습니다. 이 대국을 마지막으로 알파고는 공식적으로 은퇴를 선언했고 이세돌은 알파고에 1승을 거둔 .. 더보기