코드로 이해하는 심층 강화학습

<aside> 💡 강화학습을 실생활에 적용하여 세상을 더 이롭게 만들고자 합니다.

</aside>

안녕하세요. 강화학습에 관심이 많은 박우성이라고 합니다. 광운대학교 소프트웨어학부에 재학중입니다.

5, 6기를 러너로 참여하였고 이번에 강화학습에 대한 더 깊은 이해를 위하여 스터디를 모집하게 되었습니다.

스터디에 있어서는 전혀 부족함이 없도록 이끌겠습니다.

<aside> 📢 스터디 시간은 매주 화요일 오후 9시입니다

</aside>

스터디/프로젝트 목적

스터디/프로젝트 내용

오픈소스 CleanRL를 참고하여 진행됩니다. 수준 높은 알고리즘 구현이 200~300줄의 한 파일 안에 모두 들어있어 공부용으로 아주 적합합니다.
스터디에서 다루는 알고리즘
기본적인 wandb 문법을 습득하여 강화학습 실험 결과를 wandb 프로젝트에 저장하기

https://github.com/vwxyzjn/cleanrl/blob/master/cleanrl/dqn.py
- GPU(CUDA)로 위 코드를 실행할 수 있어야 합니다. (코드 이해 필요 X)
  - Anaconda, Poetry, Pyenv 등 어떤 수단이던 코드를 실행할 수 있으면 됨
필요 지식 (강화학습 입문 추천 도서 : 바닥부터 배우는 강화학습 - 노승은)
- 필요 언어
  - 파이썬
  - 영어(Reading)
- Pytorch
  - 기본적인 CNN 모델 설계
  - 순환 신경망 이해(LSTM)
    - 구조만 이해하고 있으면 충분합니다.
- Deep Learning
  - 오차 역전파(Back-Propapgation)
  - 경사 하강/상승 알고리즘 (Gradient Descent/Ascent Algorithm)
- 강화학습
  - MDP, Bellman Equation**,** Temporal Difference, Q learning, Actor-Critic
GPU가 확보된 컴퓨터를 사용할 수 있어야 합니다.
- 여건이 안될 경우 Goolge Colab 활용을 추천합니다.

<aside> 💡 오픈 아카데미 형태(=청강 가능)로 진행하며, 발표자료는 가짜연구소를 통해 공개적으로 배포할 수 있도록 할 예정입니다.

</aside>

스터디 방식
1. 논문 리뷰
  - 발표자(1~2): 해당 논문에 대한 내용을 요약하고 발표한다.
  - 나머지: 논문을 읽고 논문의 각 문단별로 가장 중요하다고 생각하는 문장을 노션에 적는다.
2. 코드 리뷰
  - 발표자(1~2) : 코드를 다음 내용을 중점으로 발표한다.
    - Tensor의 차원
    - 코드 ↔ 논문의 수식 대응
  - 나머지 : 어려운 부분에 대해 질문을 남긴다.
학습 활동 (필수)
- 주차별 Chapter 학습 및 개인 블로그에 정리 (발표 주차는 필수, 그 외 권장)
- 어려웠던 부분 / 질문 등 질문 페이지에 정리
- 내용을 본인만의 언어로 3줄 요약 및 정리