[CS231n] 01. Introduction to Convolutional Neural Networks for Visual Recognition
업데이트:
Reference
-
Lecture 01 - (Slide Link, ,Youtube Link)
(1) A history of Computer Vision
The Summer Vision Project, MIT (1966)
- 1966년, MIT의 “The Summer Vision Project”를 기점으로 computer vision에 대한 연구가 시작
- 이후, 현재에는 수천명의 연구자들이 CV를 연구하고 있음
Stages of Visual Representation, David Marr (1970s)
- David Marr은 image를 3-D model로 만들려면 아래와 같은 단계가 필요하다 함.
- 시각적인 정보를 어떻게 분석할지에 대한 직관적인 방법을 설명하고 있음.
Generalized cylinder (Stanford) & Pictorial Structure (SRT)
- PC가 보급되기도 전에, 어떻게 object를 인식하고 표현할 수 있을까에 대한 연구가 진행
- 모든 object는 simple object로 구성됨
- complex structure를 simple한 기하학적 형태로 표현하였음
David Lowe (1980s)
- lines, edges, straight lines의 조합을 통해 object를 표현하고자 함.
Object Recognization is too hard… => do object segmentation !!
Nomalized Cut ,shi & Malik (1997)
- Object segmentation(객체 분할) : 의미있는 pixel끼리 crustering
- image segmentation의 문제를 해결하기 위해 그래프이론 도입
Face Detection
- CV에서 발전속도가 굉장히 빨랐음
Machine Learning
- 1999/2000s 에는 ML이 유명했음 (특히 statistic ML)
- SVM(Support Vector Machine), Boosting, Graphical models, NN …
AdaBoost를 이용한 실시간 얼굴인식 (2001)
- 거의 실시간으로 face detection을 함
90년대 후반 ~ 2010, feature based object detection이 인기..
“SIFT” & Object Recognition, David Lowe (1999)
- 두 사진 전체를 매칭하기는 어려움
- but, 두드러지는 특징들은 view point나 angle이 바껴도 invariant함 => critical feature(SIFT)를 추출한 후 서로 matching하기
Spatial Pyramid Matching, Lazebnik, Schmid & Ponce (2006)
- image의 feature를 사용하면서 CV는 엄청 발전
- 그리고 장면 전체를 인식하게 됨
- idea : image의 feature들이 object가 무엇인지에 대한 단서를 제공
- 이미지의 다양한 부분과 해상도를 추출하여 하나의 descripter로 표현한 후 Support Vector Algorithm을 적용
Histogram of Gradients (HoG) Dalal & Triggs (2005) Deformable Part Model Felzenswalb, McAllester, Ramanan (2009)
- 사람의 몸을 좀더 현실적으로 모델링하자
cccc인터넷과 컴퓨터가 발전하면서 실험 데이터가 많아졌음
PASCAL Visual Object Challenge (20 object categories) [Everingham et al. 2006-2012]
- 객체 인식에서의 발전
- 그동안의 기계학습 알고리즘(Graphical Model, SVM, AdaBoost 등)들은 트레이닝 과정에서 overfit을 많이 함.
- 데이터가 너무 high dimension
ImageNet Project
-
3년 정도 걸림. 수십장의 이미지를 wordnet이라는 dictionary로 분류
-
2015년 즈음에는 놀라울만한 성과
- CNN모델 ⭐⭐⭐
(2) CS231n overview
⭐ Image Classification
- object detection, image captioning…
ImageNet
- 2012년을 기점으로 Neural Network가 계속해서 사용됨
- 점점 더 network가 깊어짐
- 2015년 MSRA의 Residual Network에서는 layer가 152개나 됨
- layer가 200개 이상이 되면 GPU가 감당하기가 힘들어짐..
CNN
-
1998년에도 비슷한 시도들이 있었음
-
그러나 이때는 연산 속도가 별로 좋지 않아서 각광을 받지 못했음
-
연산량 증가 : GPU가 병렬 연산에 이점을 보이면서 점점 딥러닝이 가능하게됨
-
잘 분류된 dataset 증가
댓글남기기