Notice
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- Deep Learning
- linux
- keras
- windows
- python3
- gpu memory
- dlib
- error
- python
- YouTube 8M
- shakeratos
- ubuntu
- dataset
- TensorFlow
- Windows 10
- Anaconda
- raspberry pi
- install
- Jupyter notebook
- ppc64le
- colab
- FIle
- colaboratory
- object detection
- 딥러닝
- face_recognition
- download
- pyTorch
- urllib
- CUDA
Archives
- Today
- Total
목록강화학습 (1)
Shakerato
Upper Confidence Bound (UCB) 정리, 보충 설명
Upper Confidence Bound (UCB)에 대한 상세한 내용을 이해하기 위해서는 실버 교수님의 강화학습 강의 1장 ~ 9장 까지 한번은 공부하시길 추천드립니다. UCB는 9장 Exploration and Exploitation에서 다루고 있는 내용입니다. 그림 1.은 3개의 밴딧 머신 (Bandit Machine=슬롯 머신)이 있을때, 각 밴딧 머신의 손잡이 (arm)를 눌러 얻을 수 있는 reward (Q)의 분포를 나타냅니다 (a_1: 파란색 , a_2: 빨간색, a_3:초록색). 그림에 대해 간단하게 예를 들면 a_3는 매번 누를 때마다 30만원에서 50만원사이의 돈을 받을 수 있다고 보고, a_1의 경우 어떨때는 돈을 잃거나 또는 200만원을 받아 일확천금할 수 있다고 받을 수 있다고 ..
Research
2020. 9. 3. 18:27