[AI 교육] 강화학습 – AI 이겨라! 보드게임

기계학습(머신러닝)

인공지능으로 말하는 ‘기계학습’, 즉 머신러닝은 컴퓨터가 스스로 주어진 데이터 패턴을 학습해 이전에 없던 새로운 데이터에 직면해도 답을 낼 수 있는 방식을 말한다. 이 인공지능은 인간의 직접적인 명령 없이도 성능을 높이기 위해 데이터를 분석한다. 사람이 학습하면서 성장하듯이 인공지능도 데이터와 환경 변화에 따라 성장한다. 기계학습(머신러닝) 학습방법

지도학습, 비지도학습, 강화학습 중 강화학습(Reinforcement Learning) 보상을 통해 상은 극대화, 벌은 최소화하는 방향으로 행위를 강화하는 학습. 의사결정, 시행착오.자율주행 AI를 이겨라! 보드게임으로 강화 학습을 익히다

3X3 체스판과 같은 규칙으로 사람이 먼저 시작하고 자신의 차례에는 반드시 둘 중 하나는 해야 하는데, 1. 앞에 한 칸 전진 2. 대각선으로 이동하면서 상대 말 잡기(만약 그 자리에서 움직일 장소가 없으면 진다).매번 사람도 로봇도 최선의 선택을 하도록 한다!(말을 잡거나 이기면 반드시 이겨야 한다) 이기는 방법은 상대방의 말을 모두 잡거나 상대의 출발점에 하나라도 도착하거나 상대가 움직이지 못하게 하는 것이다.

표지판에서 화살표와 같은 색의 보석을 칸마다 올린다.로봇은 스스로 판단을 내릴 수 없다. 사람이 움직이는 대로 같은 판자 모양을 찾는다.

로봇의 역할은 보석 중에서 보지 않고 하나를 고른다. 그리고 보석의 색깔과 같은 화살표로 말을 이동한다.

로봇 첫 번째 순서로 빨간 보석을 고른 상황, 이대로 이동하면 로봇이 패배!

그러자 붉은 보석을 버린다!같은 방식으로 사람이 움직이고 판자로 같은 경우를 찾고 보석을 무작위로 선정, 그대로 행동하자. 승패와 관계 없으면 보석은 그대로 두다.로봇이 진다면 로봇이 지도록 한 해당 보석은 버려라.(벌)부분에 로봇이 이길까? 그러자 같은 색 보석을 보석 자루에서 꺼내어, 그 매스에 둔다. (보상)게임을 계속하고 있다고 이길 경우 보석 수가 많아지면서 그러면 로봇의 행동을 정하기 위해서 무작위로 보석을 고를 때 로봇에 유리한 보석을 선택 확률이 점점 높아진다. (강화)알파 바둑이 이렇게 학습한 걸까?^^강화학습은 정답이 없어!!! 환경변화에 따라 최선의 방법을 선택하게 되네.^^#AI교육 #초AI교육 #인공지능교육 #인공지능 #디지털소양 #SW교육 #AI연수

error: Content is protected !!