본문 바로가기

Shakerato

검색하기
Shakerato
프로필사진 Shakeratto

  • 분류 전체보기 (77)
    • Research (67)
    • Photography (1)
Guestbook
Notice
«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
  • install
  • Anaconda
  • object detection
  • gpu memory
  • shakeratos
  • urllib
  • Jupyter notebook
  • FIle
  • linux
  • python3
  • 딥러닝
  • YouTube 8M
  • dataset
  • ppc64le
  • face_recognition
  • ubuntu
  • raspberry pi
  • colaboratory
  • windows
  • python
  • TensorFlow
  • Deep Learning
  • error
  • CUDA
  • Windows 10
  • download
  • colab
  • pyTorch
  • dlib
  • keras
more
Archives
Today
Total
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록UCB (1)

Shakerato

Upper Confidence Bound (UCB) 정리, 보충 설명

Upper Confidence Bound (UCB)에 대한 상세한 내용을 이해하기 위해서는 실버 교수님의 강화학습 강의 1장 ~ 9장 까지 한번은 공부하시길 추천드립니다. UCB는 9장 Exploration and Exploitation에서 다루고 있는 내용입니다. 그림 1.은 3개의 밴딧 머신 (Bandit Machine=슬롯 머신)이 있을때, 각 밴딧 머신의 손잡이 (arm)를 눌러 얻을 수 있는 reward (Q)의 분포를 나타냅니다 (a_1: 파란색 , a_2: 빨간색, a_3:초록색). 그림에 대해 간단하게 예를 들면 a_3는 매번 누를 때마다 30만원에서 50만원사이의 돈을 받을 수 있다고 보고, a_1의 경우 어떨때는 돈을 잃거나 또는 200만원을 받아 일확천금할 수 있다고 받을 수 있다고 ..

Research 2020. 9. 3. 18:27
Prev 1 Next

전체 방문자수 : 오늘 방문자수 : 어제 방문자수 :

티스토리툴바