[CS231n] 01. Introduction to Convolutional Neural Networks for Visual Recognition

업데이트:

Reference

(1) A history of Computer Vision

The Summer Vision Project, MIT (1966)

  • 1966년, MIT의 “The Summer Vision Project”를 기점으로 computer vision에 대한 연구가 시작
  • 이후, 현재에는 수천명의 연구자들이 CV를 연구하고 있음

Stages of Visual Representation, David Marr (1970s)

  • David Marr은 image를 3-D model로 만들려면 아래와 같은 단계가 필요하다 함.
  • 시각적인 정보를 어떻게 분석할지에 대한 직관적인 방법을 설명하고 있음.

Generalized cylinder (Stanford) & Pictorial Structure (SRT)

  • PC가 보급되기도 전에, 어떻게 object를 인식하고 표현할 수 있을까에 대한 연구가 진행
  • 모든 object는 simple object로 구성됨
  • complex structure를 simple한 기하학적 형태로 표현하였음

David Lowe (1980s)

  • lines, edges, straight lines의 조합을 통해 object를 표현하고자 함.

Object Recognization is too hard… => do object segmentation !!

Nomalized Cut ,shi & Malik (1997)

  • Object segmentation(객체 분할) : 의미있는 pixel끼리 crustering
  • image segmentation의 문제를 해결하기 위해 그래프이론 도입

Face Detection

  • CV에서 발전속도가 굉장히 빨랐음

Machine Learning

  • 1999/2000s 에는 ML이 유명했음 (특히 statistic ML)
  • SVM(Support Vector Machine), Boosting, Graphical models, NN …

AdaBoost를 이용한 실시간 얼굴인식 (2001)

  • 거의 실시간으로 face detection을 함

90년대 후반 ~ 2010, feature based object detection이 인기..

“SIFT” & Object Recognition, David Lowe (1999)

  • 두 사진 전체를 매칭하기는 어려움
  • but, 두드러지는 특징들은 view point나 angle이 바껴도 invariant함 => critical feature(SIFT)를 추출한 후 서로 matching하기

Spatial Pyramid Matching, Lazebnik, Schmid & Ponce (2006)

  • image의 feature를 사용하면서 CV는 엄청 발전
  • 그리고 장면 전체를 인식하게 됨
  • idea : image의 feature들이 object가 무엇인지에 대한 단서를 제공
  • 이미지의 다양한 부분과 해상도를 추출하여 하나의 descripter로 표현한 후 Support Vector Algorithm을 적용

Histogram of Gradients (HoG) Dalal & Triggs (2005) Deformable Part Model Felzenswalb, McAllester, Ramanan (2009)

  • 사람의 몸을 좀더 현실적으로 모델링하자

cccc인터넷과 컴퓨터가 발전하면서 실험 데이터가 많아졌음

PASCAL Visual Object Challenge (20 object categories) [Everingham et al. 2006-2012]

  • 객체 인식에서의 발전
  • 그동안의 기계학습 알고리즘(Graphical Model, SVM, AdaBoost 등)들은 트레이닝 과정에서 overfit을 많이 함.
  • 데이터가 너무 high dimension

ImageNet Project

  • 3년 정도 걸림. 수십장의 이미지를 wordnet이라는 dictionary로 분류

  • 2015년 즈음에는 놀라울만한 성과

  • CNN모델 ⭐⭐⭐

(2) CS231n overview

⭐ Image Classification

  • object detection, image captioning…

ImageNet

  • 2012년을 기점으로 Neural Network가 계속해서 사용됨
  • 점점 더 network가 깊어짐
  • 2015년 MSRA의 Residual Network에서는 layer가 152개나 됨
  • layer가 200개 이상이 되면 GPU가 감당하기가 힘들어짐..

CNN

  • 1998년에도 비슷한 시도들이 있었음

  • 그러나 이때는 연산 속도가 별로 좋지 않아서 각광을 받지 못했음

  • 연산량 증가 : GPU가 병렬 연산에 이점을 보이면서 점점 딥러닝이 가능하게됨

  • 잘 분류된 dataset 증가

댓글남기기