'강화학습' 태그의 글 목록

Notice

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록강화학습 (1)

Shakerato

Upper Confidence Bound (UCB) 정리, 보충 설명

Upper Confidence Bound (UCB)에 대한 상세한 내용을 이해하기 위해서는 실버 교수님의 강화학습 강의 1장 ~ 9장 까지 한번은 공부하시길 추천드립니다. UCB는 9장 Exploration and Exploitation에서 다루고 있는 내용입니다. 그림 1.은 3개의 밴딧 머신 (Bandit Machine=슬롯 머신)이 있을때, 각 밴딧 머신의 손잡이 (arm)를 눌러 얻을 수 있는 reward (Q)의 분포를 나타냅니다 (a_1: 파란색 , a_2: 빨간색, a_3:초록색). 그림에 대해 간단하게 예를 들면 a_3는 매번 누를 때마다 30만원에서 50만원사이의 돈을 받을 수 있다고 보고, a_1의 경우 어떨때는 돈을 잃거나 또는 200만원을 받아 일확천금할 수 있다고 받을 수 있다고 ..

Research 2020. 9. 3. 18:27

Prev 1 Next

목록강화학습 (1)

Shakerato

티스토리툴바