본문 바로가기
인공지능 이야기

바둑 알파고 알고리즘 발전 상황 | 알파고 마스터, 알파고 제로

by aihelper 2023. 4. 1.

바둑은 인공지능이 인간의 능력을 넘어서는 분야 중 하나로 간주되어 왔습니다. 바둑은 매우 복잡하고 다양한 패턴과 전략이 필요한 게임으로, 인공지능이 바둑을 잘하기 위해서는 인간의 직관과 창의력을 모방해야 합니다.

그러나 2016년부터 2017년까지 구글의 딥마인드가 개발한 알파고(AlphaGo)라는 인공지능 프로그램이 세계 최고의 바둑 선수들을 연속적으로 이기면서, 인공지능이 바둑에서도 인간을 능가할 수 있다는 것을 증명했습니다. 이후, 알파고는 여러 버전으로 개발되었는데, 각 버전마다 발전한 점과 한계점이 있습니다. 이 글에서는 알파고의 주요 버전들에 대해 간단히 소개하고, 그들이 바둑에 미친 영향에 대해 살펴보겠습니다.

알파고를 만든 DeepMind의 로고
알파고를 만든 DeepMind 로고

알파고 판 Fan

이 버전은 2015년 10월에 유럽 바둑 챔피언인 판 후이(판 후이)를 5:0으로 완패시킨 버전입니다. 이 버전은 수십만 개의 인간의 바둑 기보를 학습하고, 몬테카를로 트리 서치(Monte Carlo Tree Search)라는 알고리즘을 사용하여 최선의 수를 선택했습니다. 이 버전은 인간의 바둑 스타일을 모방하면서도 새로운 수를 찾아내기도 했습니다. 그러나 이 버전은 기보에 없는 수에 대해서는 학습할 수 없었고, 자신의 실수를 인식하거나 수정할 수 없었습니다.

알파고 리 Lee

이 버전은 2016년 3월에 세계 최강의 바둑 선수인 이세돌을 4:1로 이긴 버전입니다. 이 버전은 알파고 과 비슷한 방식으로 학습했지만, 더 많은 기보와 컴퓨터 자체와의 대국을 통해 더 강해졌습니다. 이 버전은 인간의 바둑 선수들에게 큰 충격을 줬으며, 바둑의 패러다임을 바꾸기도 했습니다. 그러나 이 버전도 기보에 의존적이었고, 일관성이 부족했습니다. 단 한판을 이세돌에게 진 것은 이 프로그램의 약간의 허점이 있었다는 것이고, 이세돌은 이 기회를 놓치지 않았습니다. 이 승리가 인간이 이긴 유일한 승리가 되어버릴 정도로 이미 인간이 이길 수 없는 상태까지 인공지능이 발전했고 이후에 공식대국에서 인공지능을 이길 수 있는 사람은 없었습니다.

알파고 마스터

세 번째 버전인 알파고 마스터는 세계 랭킹 1위 커제 9단과의 3번기에서 모두 승리하였습니다. 이 버전은 두 번째 버전보다 학습 시간과 하드웨어 요구량이 크게 줄어들었습니다. 이 버전은 TPU 4개 만을 사용하여 작동하였으며, 학습 시간은 단 3일이었습니다.

알파고 제로

이 버전은 2017년 10월에 발표된 버전으로, 알파고 마스터와 대국에서 100번 중 100번을 승리하였습니다. 이 버전은 이전 버전들과는 다르게 인간의 지식이나 데이터에 의존하지 않았습니다. 이 버전은 오직 바둑 규칙만을 입력받아 자가대국을 통해 스스로 학습하였으며, 정책망과 가치망을 하나의 신경망으로 통합하였습니다. 이 버전 역시 TPU 4개만을 사용하여 작동하였으며, 학습 시간은 단 40일이었습니다.

 

기존의 알파고와는 완전히 다른 방식으로 학습했다는 점- 즉 알파고 제로는 인간의 기보를 전혀 사용하지 않고, 오직 자신과의 대국만으로 학습했다는 점이 놀랍습니다. 딥러닝과 강화학습만으로 스스로 전략을 개발하고 더 이상 다른 알파고와 대결이 필요가 없을 정도의 수준을 보여주고 있습니다.

 

인공지능이 앞으로 우리의 삶에 미칠 영향

인공지능이 앞으로 우리의 삶에 미칠 영향은 매우 크고 다양할 것입니다. 충격적인 알파고의 승리는 인공지능이 인간을 지배하지 않을까 하는 공포감도 일순간 준 건 사실입니다. 하지만 인공지능은 우리의 일상적인 업무를 도와주고, 새로운 기술과 서비스를 제공하고, 문제 해결과 창의력을 향상할 수 있습니다. 다만 윤리적이고 사회적인 문제를 야기할 수 있는 문제에 대해서는 우리의 책임과 규제가 필요하다고 볼 수 있습니다.

 

인공지능은 우리의 삶을 변화시키는 강력한 도구이지만, 그것을 어떻게 사용하고 관리하느냐는 인간인 우리가 정해야 합니다. 

댓글