SparataCodingClub_/[Machine Learning]

1주차 개발일지.

Jieon_ 2021. 7. 17. 15:40

1.1 SOTA (State-of-the-art)

딥러닝 분야의 최신경향들, 최신 기술트렌드, 최신 논문들이 올라가는 사이트
https://paperswithcode.com/sota

 

Papers with Code - Browse the State-of-the-Art in Machine Learning

5027 leaderboards • 2316 tasks • 4316 datasets • 49670 papers with code.

paperswithcode.com

1.2 머신러닝이란?

1. 알고리즘(Algorithm)
: 수학과 컴퓨터 과학, 언어학 또는 관련 분야에서 어떠한 문제를 해결하기 위해 정해진 일련의 절차나 방법을 공식화한 형태로 표현한 것, 계산을 실행하기 위한 단계적 절차

2. 회귀 vs 분류

회귀(regression) 분류(classification)
   연속적인 문제
   입력값(input)과 출력값(output)을 정의 (예측)
   ex) 사람의 얼굴 사진을 보고 몇 살인지 예측하는 문제
   비연속적인 문제
   ex) 대학교 시험 전 날 공부한 시간을 가지고 해당 과목의         이수 여부를 예측하는 문제 (Pass/Fail은 비연속적)

3. 지도학습/비지도학습/강화학습

지도학습(Supervised learning) 비지도학습(Unsupervised learning) 강화학습(Reinforcement learning)
정답을 알려주면서 학습시키는 방법 정답을 알려주지 않고 군집화(Clustering)하는 방법 주어진 데이터 없이 실행과 오류를 반복하면서 학습하는 방법

1.3 선형 회귀(Linear Regression)

1. 선형 회귀와 가설, 손실 함수 Hypothesis & Cost function (Loss function)
: 모든 문제는 선형으로 풀 수 있다는 가정 하에 회귀

1.4 경사 하강법(Gradient descent method)

1. 경사하강법이란?
    : minimum cost 를 찾으려 initial weight가 경사를 따라서 내려간다. 

2. Learning rate
    : 한칸씩 전진하는 단위 (적절한 learning rate를 찾는 것이 관건이다.)
      - 작은 경우 : 최적화하기 까지 시간이 오래걸린다.
      - 큰 경우 : 최소점을 지나칠 수 있고, 최악의 경우 발산하게 될 수도 있다. (Overshooting) 

1.5 데이터셋 분할

1. 학습/검증/테스트 데이터

출처: https://3months.tistory.com/118

- Training set
  :
학습 데이터셋, 트레이닝 셋 = 교과서
    머신러닝 모델을 학습시키는 용도, 전체 데이터셋의 약 80%
- Validation set
  : 검증 데이터셋, 밸리데이션 셋 = 모의고사
    머신러닝 모델의 성능을 검증하고 튜닝하는 지표의 용도, 전체 데이터셋의 약 20%
- Test set
  : 평가 데이터셋, 테스트 셋 = 수능
    정답 라벨이 없는 실제 환경에서의 평가 데이터셋

 

1주차 과제 - Linear Regression 스스로 만들기

https://colab.research.google.com/drive/1mHPhmJEnGR2N4Sx27tJjIbWIIMAr_iSY#scrollTo=2GJXJAxqKVUZ

'SparataCodingClub_ > [Machine Learning]' 카테고리의 다른 글

4주차 개발일지  (0) 2021.07.26
3주차 개발일지  (0) 2021.07.24
2주차 개발일지  (0) 2021.07.24