1f5adf86-39c5-4f76-bd1a-926fee861990.jfif
✨ 팀 소개
<aside>
💡 강화학습을 실생활에 적용하여 세상을 더 이롭게 만들고자 합니다.
</aside>
🚩 빌더 소개
박우성
안녕하세요. 강화학습에 관심이 많은 박우성이라고 합니다. 광운대학교 소프트웨어학부에 재학중입니다.
5, 6기를 러너로 참여하였고 이번에 강화학습에 대한 더 깊은 이해를 위하여 스터디를 모집하게 되었습니다.
스터디에 있어서는 전혀 부족함이 없도록 이끌겠습니다.
📢 스터디 공지
<aside>
📢 스터디 시간은 매주 화요일 오후 9시입니다
</aside>
👟 학습 활동
스터디/프로젝트 목적
- 심층 강화학습 알고리즘을 코드수준으로 이해하여 알고리즘의 이해를 높이고 환경에 맞춰 수정할 수 있도록 한다.
- 심층 신경망을 활용하여 강화학습을 복잡한 환경에 적용한다.
- 강화학습 환경의 조건에 따라 적합한 알고리즘을 선택할 수 있다.
- 강화학습 환경에 적합한 신경망을 설계할 수 있다.
스터디/프로젝트 내용
- 오픈소스 CleanRL를 참고하여 진행됩니다. 수준 높은 알고리즘 구현이 200~300줄의 한 파일 안에 모두 들어있어 공부용으로 아주 적합합니다.
- 스터디에서 다루는 알고리즘
- 기본적인 wandb 문법을 습득하여 강화학습 실험 결과를 wandb 프로젝트에 저장하기
⭐모집 대상⭐
- https://github.com/vwxyzjn/cleanrl/blob/master/cleanrl/dqn.py
- GPU(CUDA)로 위 코드를 실행할 수 있어야 합니다. (코드 이해 필요 X)
- Anaconda, Poetry, Pyenv 등 어떤 수단이던 코드를 실행할 수 있으면 됨
- 필요 지식 (강화학습 입문 추천 도서 : 바닥부터 배우는 강화학습 - 노승은)
- 필요 언어
- Pytorch
- 기본적인 CNN 모델 설계
- 순환 신경망 이해(LSTM)
- Deep Learning
- 오차 역전파(Back-Propapgation)
- 경사 하강/상승 알고리즘 (Gradient Descent/Ascent Algorithm)
- 강화학습
- MDP, Bellman Equation**,** Temporal Difference, Q learning, Actor-Critic
- GPU가 확보된 컴퓨터를 사용할 수 있어야 합니다.
- 여건이 안될 경우 Goolge Colab 활용을 추천합니다.
스터디 활동 방법
<aside>
💡 오픈 아카데미 형태(=청강 가능)로 진행하며, 발표자료는 가짜연구소를 통해 공개적으로 배포할 수 있도록 할 예정입니다.
</aside>
- 스터디 방식
- 논문 리뷰
- 발표자(1~2): 해당 논문에 대한 내용을 요약하고 발표한다.
- 나머지: 논문을 읽고 논문의 각 문단별로 가장 중요하다고 생각하는 문장을 노션에 적는다.
- 코드 리뷰
- 발표자(1~2) : 코드를 다음 내용을 중점으로 발표한다.
- Tensor의 차원
- 코드 ↔ 논문의 수식 대응
- 나머지 : 어려운 부분에 대해 질문을 남긴다.
- 학습 활동 (필수)
- 주차별 Chapter 학습 및 개인 블로그에 정리 (발표 주차는 필수, 그 외 권장)
- 어려웠던 부분 / 질문 등 질문 페이지에 정리
- 내용을 본인만의 언어로 3줄 요약 및 정리
참고 자료