
이번 포스팅에서는 Monte Carlo Method를 간단한 예제를 통해 알아보도록 하겠습니다. 1. Monte Carlo Method Google에서 Monte Carlo Method를 검색해보면 "몬테카를로 방법(Monte Carlo method)은 난수를 이용하여 함수의 값을 확률적으로 계산하는 알고리즘을 부르는 용어이다." 라고 나와있습니다. 난수를 이용하여 함수의 값을 확률적으로 계산하는 알고리즘을 부르는 용어라는 말을 이해해 보자면, 예를 들어 100원짜리 동전을 던졌을 때 앞면이 나올 확률은?? - 함수의 값 100원짜리 동전을 던지자(앞면이 나올지 뒷면이 나올지 모름) - 난수 100번을 던져서 앞면이 나오는 횟수를 세어보자! - 확률적으로 계산 로 비유해볼 수 있을 것 같습니다. 그러면 ..

이번 포스팅에서는 DQN으로 알려진 논문 Human-level control through deep reinforcement learning 논문에 대해서 리뷰하는 시간을 가져보겠습니다. 이번 포스팅에서 나오는 모든 이미지의 저작권은 위 논문의 저자에게 있습니다. Nature에 2015년에 발표된 논문이고 저자는 DeepMind의 Volodymyr Minih입니다. 제목을 보면 "Deep Reinforcement Learning을 통해 Human Level의 Control이 가능하다"라고 볼 수 있습니다. 그러면 어떤 일에서 어떤 강화학습을 통해 얼만큼 가능한지 살펴보도록 하겠습니다. 1. Introduction 강화학습은 Agent가 환경에서 어떤 행동을 해야하는지에 대해 최적화 하는 방법을 제공합니다..

1. 강화학습이 뭘까? 강화학습이란 머신러닝의 하나 입니다. 그럼 머신러닝은 뭘까? 머신러닝이란 간단하게 기계가 데이터를 가지고 공부를 한다고 생각하면 될 것 같습니다. 그리고 공부한 뒤 다음에 새로운 환경이 주어졌을 때, 그동안 공부했던 것을 기반으로 답을 제시하는 것이라고 생각하면 될 것 같습니다. 그렇다면 강화학습도 머신러닝의 한 종류라고 했으니 같은 맥락으로 이해하면 될 것 같습니다. 그럼 이제 강화학습으로 들어가보겠습니다. 강화학습이란 어떠한 환경(Environment) 안에서 정의된 Agent가 현재의 상태를 인식하여, 선택 가능한 행동(Action)들 중 보상(Reward)을 최대화 하는 행동(Action)이나 행동순서(Policy)를 선택하는 학습 방법입니다. 2. 강화학습의 요소 간단한 ..
- Total
- Today
- Yesterday
- value type
- Unity
- 유니티
- DirectX12
- Bounding Volume Hierarchy
- 루빅스큐브
- RL
- VTK
- CollisionDetection
- transform
- RubiksCube
- reference type
- MeshProcessing
- C#
- 최적화
- Mesh
- Unreal
- 강화학습
- NDC
- Mesh Processing
- 참조 형식
- Scriptable Render Pipeline
- collision detection
- SRP
- Transformation
- 값 형식
- AABB
- normalized device coordinate
- perspective projection
- opengl
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |