인공지능 컴퓨터비전이란? 컴퓨터비전 대표적 기술인 객체검출 이미지세분화 매우 쉬운 설명

728x90

컴퓨터비전은 사람의 눈과 뇌가 처리하는 방식과 비슷하게, 컴퓨터가 디지털 이미지나 비디오에서 정보를 추출하고 처리하는 기술이다.
예를 들어, 카메라로 찍은 사진을 컴퓨터비전 기술을 이용하여 얼굴을 인식하거나, 사물을 판별하거나, 배경과 사물을 분리해내는 등의 작업을 할 수 있다.
대표적인 컴퓨터비전에 해당하는 기술이 이미지 분류(Image Classification), 객체 검출(Object Detection), 이미지 세분화(Image Segmentation)이다.
컴퓨터비전 기술은 딥러닝 기술의 발달로 성능이 매우 향상되었으며 가장 활발하게 연구되는 분야이다.

이미지 분류(Image Classification)는 컴퓨터비전에서 가장 기본적인 작업 중 하나로, 주어진 이미지가 어떤 카테고리(or 클래스)에 속하는지 분류하는 작업이다.
예를 들어, 사람이 있는 이미지인지, 자연 풍경 이미지인지, 동물 사진인지 등을 분류할 수 있다.

객체 검출(Object Detection)은 이미지에서 특정한 물체가 어디에 있는지, 그 물체가 어떤 종류인지를 찾아내는 작업이다. 즉 이미지 분류와 분류한 이미지의 위치좌표(사각형 박스형태)를 찾는 기술이다.
예를 들어, 자동차나 사람, 동물 등의 객체를 이미지내에서 박스형태로 검출할 수 있다.

이미지 세분화(Image Segmentation)는 이미지의 모든 픽셀에 대해서 각각의 라벨을 예측하여 이미지를 분할하는 작업이다.
예를 들어, 컴퓨터가 산 이미지를 처리해야 하는 경우, 그림에서 각기 다른 색상으로 나타난 픽셀들을 같은 그룹으로 묶어서 하나의 객체로 판단하게 된다. 이렇게 분류된 객체들을 다시 분석하면, 어떤 객체는 나무, 어떤 객체는 바위인지 구분할 수 있다.

대표적인 객체 검출 기법은 RCNN 계열의 faster-RCNN과 YOLO 등이 있다.
RCNN 계열의 기술은 먼저 이미지에서 객체가 있을 만한 후보 영역들을 찾은 후, 이 영역들을 각각 CNN(Convolutional Neural Network)에 입력하여 객체를 검출한다.
예를 들어, 이미지에서 차량이 있을 만한 위치들을 미리 찾아놓고, 이 위치들을 각각 CNN에 입력하여 차량을 검출하는 방식이다.
YOLO는 이미지 전체를 한 번에 처리하여 객체를 검출하는 방식으로, RCNN 계열의 기술보다 빠르다.
예를 들어, 이미지 전체를 한 번에 CNN에 입력하여 모든 객체의 위치와 클래스를 예측하는 방식이다.

Fully Convolutional Network(FCN): FCN은 기존의 Convolutional Neural Network(CNN)을 확장하여 이미지 분류(Classification)뿐 아니라 이미지 세분화(Segmentation)도 수행할 수 있도록 개발된 모델입니다. 이를 위해 CNN의 Fully Connected Layer를 제거하고, 대신 Transposed Convolution Layer(up-convolution)를 사용하여 입력 이미지와 동일한 크기의 출력을 생성합니다.
U-Net: U-Net은 FCN의 확장 버전으로, 더욱 정확한 이미지 세분화를 위해 고안된 모델입니다. U자 형태의 구조로 이루어져 있으며, Contracting Path와 Expansive Path로 구성되어 있습니다. Contracting Path에서는 이미지의 정보를 추출하고, Expansive Path에서는 추출한 정보를 사용하여 원본 이미지의 크기로 재조정합니다.

728x90

튜링테스트란? 튜링테스트 쉬운 설명 (0)	2023.04.11
자연어처리란? 인공지능 자연어처리(NLP) 매우 쉬운 설명 (0)	2023.04.10
AI 중단 촉구? AI pause란? 일론머스크 "AI중단" 촉구 (0)	2023.04.08
OpenAI란? OpenAI가 뭐지? 마이크로소프트, 구글과의 관계 (0)	2023.04.06
AGI란? 인공일반지능이란? 특이점이란? 매우 쉬운 설명 (0)	2023.04.05

AI 알리미