개인 프로젝트로 Reinforcement 기반으로 Tic Tac Toe 인공지능 개발 중


Prototype으로 10000번 training 후 결과 총 7017 건의 state에 대한 training진행 됨


단순히 승리할 경우 reward 1을 가지고 규칙을 learning시키기 위해서 둘수 없는 곳에 둘려고 할 경우 negative reward -10을 주고 둘수 있는 곳 둘때까지 반복

 

특정 state에서 특정 action을 취하게 될 때의 reward에 대해서 Q값을 구하게 되는데, 두개의 object가 서로 시합을 할경우

이기는 쪽은 능동적으로 수를 두어서 이기게 되어서 정상적으로 reward를 받게 되지만, 지는 object는 수동적으로 상대방이 먼저 이겼기 때문에 지게 된다. 따라서 지는 순간에 action을 취한 것이 아니므로 패배에 대한 negative reward를 받을 수가 없음

===> 실제 play를 해보면 상대방이 2칸을 먼저 만든 상황에서 남은 한 칸을 막아서 패배를 막는 방향으로 paly하지 않음

 

물론 충분히 많은 training이 된다면 승리에 대한 reward가 많이 퍼져서 반대급부로 패배에 대한 상황에 대해서는 reward가 없으므로 상대적인 개념으로 negative reward를 받을 수 있으나, 좀더 확실한 negative reward가 필요할 것으로 보임

 

10000번으로는 택도 없음, 사람 근처에도 못감



'Development > MachineLearning' 카테고리의 다른 글

Tic Tac Toe 인공지능 구현  (0) 2017.02.01
Tic Tac Toe 인공지능 구현 v01  (0) 2017.01.25

+ Recent posts