[CS231n] 01. Introduction to Convolutional Neural Networks for Visual Recognition

업데이트: March 03, 2021

Reference

(1) A history of Computer Vision

The Summer Vision Project, MIT (1966)

1966년, MIT의 “The Summer Vision Project”를 기점으로 computer vision에 대한 연구가 시작
이후, 현재에는 수천명의 연구자들이 CV를 연구하고 있음

Stages of Visual Representation, David Marr (1970s)

David Marr은 image를 3-D model로 만들려면 아래와 같은 단계가 필요하다 함.
시각적인 정보를 어떻게 분석할지에 대한 직관적인 방법을 설명하고 있음.

Generalized cylinder (Stanford) & Pictorial Structure (SRT)

PC가 보급되기도 전에, 어떻게 object를 인식하고 표현할 수 있을까에 대한 연구가 진행
모든 object는 simple object로 구성됨
complex structure를 simple한 기하학적 형태로 표현하였음

David Lowe (1980s)

lines, edges, straight lines의 조합을 통해 object를 표현하고자 함.

Object Recognization is too hard… => do object segmentation !!

Nomalized Cut ,shi & Malik (1997)

Object segmentation(객체 분할) : 의미있는 pixel끼리 crustering
image segmentation의 문제를 해결하기 위해 그래프이론 도입

Face Detection

CV에서 발전속도가 굉장히 빨랐음

Machine Learning

1999/2000s 에는 ML이 유명했음 (특히 statistic ML)
SVM(Support Vector Machine), Boosting, Graphical models, NN …

AdaBoost를 이용한 실시간 얼굴인식 (2001)

거의 실시간으로 face detection을 함

90년대 후반 ~ 2010, feature based object detection이 인기..

“SIFT” & Object Recognition, David Lowe (1999)

두 사진 전체를 매칭하기는 어려움
but, 두드러지는 특징들은 view point나 angle이 바껴도 invariant함 => critical feature(SIFT)를 추출한 후 서로 matching하기

Spatial Pyramid Matching, Lazebnik, Schmid & Ponce (2006)

image의 feature를 사용하면서 CV는 엄청 발전
그리고 장면 전체를 인식하게 됨
idea : image의 feature들이 object가 무엇인지에 대한 단서를 제공
이미지의 다양한 부분과 해상도를 추출하여 하나의 descripter로 표현한 후 Support Vector Algorithm을 적용

Histogram of Gradients (HoG) Dalal & Triggs (2005) Deformable Part Model Felzenswalb, McAllester, Ramanan (2009)

사람의 몸을 좀더 현실적으로 모델링하자

cccc인터넷과 컴퓨터가 발전하면서 실험 데이터가 많아졌음

PASCAL Visual Object Challenge (20 object categories) [Everingham et al. 2006-2012]

객체 인식에서의 발전
그동안의 기계학습 알고리즘(Graphical Model, SVM, AdaBoost 등)들은 트레이닝 과정에서 overfit을 많이 함.
데이터가 너무 high dimension

ImageNet Project

3년 정도 걸림. 수십장의 이미지를 wordnet이라는 dictionary로 분류
2015년 즈음에는 놀라울만한 성과

CNN모델 ⭐⭐⭐

(2) CS231n overview

⭐ Image Classification

object detection, image captioning…

ImageNet

2012년을 기점으로 Neural Network가 계속해서 사용됨
점점 더 network가 깊어짐
2015년 MSRA의 Residual Network에서는 layer가 152개나 됨
layer가 200개 이상이 되면 GPU가 감당하기가 힘들어짐..

CNN

1998년에도 비슷한 시도들이 있었음
그러나 이때는 연산 속도가 별로 좋지 않아서 각광을 받지 못했음
연산량 증가 : GPU가 병렬 연산에 이점을 보이면서 점점 딥러닝이 가능하게됨
잘 분류된 dataset 증가

Twitter Facebook LinkedIn

Jihye Back

[CS231n] 01. Introduction to Convolutional Neural Networks for Visual Recognition

(1) A history of Computer Vision

(2) CS231n overview

공유하기

댓글남기기

참고

[Paper Review] RAFT: Adapting Language Model to Domain Specific RAG 논문 리뷰

[4] RAG (Retriever Augumented Generation)

[3-2] A Survey of Large Language Models - Adaptation of LLMs

[3-1] A Survey of Large Language Models - 다양한 LLMs부터, Data, Architecture, Training 까지