[Paper] Deep Deterministic Policy Gradient 알고리즘을 응용한자전거의 자율 주행 제어
Deep Deterministic Policy Gradient(DDPG)의 활용 사례를 탐구하기 위해 해당 논문을 읽고 사용된 개념 및 결과를 분석하였다. 해당 논문은 DDPG 알고리즘을 이용하여 자전거 자율주행 제어한다. 1. Background - Reinforce Learning (RL) 강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. [위키: 강화 학습] 강화학습은 인공지능의 학습 방법인 지도학습, 비지도학습, 강화학습 중 한 분류이다. 학습의 목표를 달성하기 위해 수많은 시행착오를 진행하..