본문 바로가기

인공지능개론

이미지&객체탐지관련 알고리즘 조사

Mask RCNN: Mask RCNN은 이미지 내 개별 객체를 분리하고 분류하는 데 효과적인 알고리즘입니다. 이는 Faster R-CNN을 기반으로 하며, ResNeXt-101과 FPN을 사용하여 특징 추출을 강화합니다. 또한, Mask RCNN은 객체의 정확한 영역을 예측하기 위해 ROIAlign 레이어를 도입했습니다. 이 레이어는 정확도를 높이는 데 중요한 역할을 합니다

 

객체 감지 영역에서 딥 러닝을 최초로 적용한 사례입니다. 알고리즘의 핵심 아이디어는 간단합니다. 모든 이미지에 대해 RCNN은 초기에 선택적 검색 알고리즘을 사용하여 약 2000개의 후보 영역을 생성합니다. 이러한 영역은 일관된 차원으로 크기가 조정되고 이후 CNN(Convolutional Neural Network)을 사용하여 해당 기능이 추출됩니다. 그런 다음 영역은 SVM(Support Vector Machine) 분류기를 통해 분류되고 선형 회귀 모델이 배포되어 감지된 각 객체에 대해 보다 정확한 경계 상자를 생성합니다.

한계점:

  • 복잡한 교육 과정: R-CNN은 CNN, SVM, 선형 회귀 모델을 포함한 여러 단계의 모델을 사용합니다. 이들 각각은 별도로 훈련되어야 하며, 이는 교육 과정을 복잡하고 시간이 많이 소요되게 합니다.
  • 느린 추론 속도: R-CNN은 각 이미지에 대해 2000개의 영역 제안을 생성하고, 이러한 각 영역에 대한 CNN 특징을 계산합니다. 이 과정은 많은 계산을 필요로 하며, 추론 속도를 늦춥니다. 평균적으로, 이미지당 약 45초가 소요되며, 이는 대규모 데이터 세트에서의 활용을 어렵게 합니다.

YOLO (You Only Look Once): YOLO는 이미지를 한 번만 처리하여 객체의 위치와 클래스를 동시에 예측하는 '원스테이지' 알고리즘입니다. YOLO는 처리 속도가 매우 빠르며 실시간 성능을 제공합니다. 이 알고리즘은 이미지를 표준 크기로 조정하고, 격자를 오버레이하여 각 격자 셀에 대한 회귀 예측을 수행합니다

  • 개발 배경: YOLO는 2단계 알고리즘의 복잡성과 계산 비용을 줄이기 위해 개발되었습니다.
  • 특징: YOLO는 이미지를 한 번만 처리하여 객체의 위치와 클래스를 동시에 예측합니다. 이는 객체 감지를 엔드투엔드 회귀 문제로 변환하여 계산 효율성을 높입니다.
  • 작업 흐름:
    1. 입력 이미지의 크기를 표준 크기로 조정하고 그 위에 그리드를 오버레이합니다.
    2. 컨볼루션 신경망을 사용하여 이미지의 특징을 추출합니다.
    3. 각 그리드 셀에 대한 회귀 예측을 수행하여 객체의 위치와 클래스를 예측합니다.
  • 한계: YOLO의 거친 그리드 분할 방식은 작은 물체를 감지하는 데에 한계를 가지며, 전반적인 성능은 2단계 알고리즘에 비해 다소 떨어질 수 있습니다.

 

SSD (Single Shot MultiBox Detector): YOLO의 한계를 극복하기 위해 개발된 SSD는 다양한 레이어에서 특징 맵을 사용합니다. 이를 통해 작은 객체 탐지의 정확도를 높입니다. SSD는 다양한 크기와 종횡비를 가진 앵커 박스를 사용하여 객체 탐지를 수행합니다​

  • 개발 배경: YOLO의 한계를 극복하기 위해 개발된 SSD는 2단계 객체 감지 알고리즘에서 영감을 받았습니다.
  • 특징: SSD는 여러 레벨의 특징 맵을 사용하여 작은 객체 감지를 향상시킵니다.
  • 작업 방식:
    1. 다양한 크기의 특징 맵에서 객체를 감지합니다.
    2. 각 그리드 셀에 대해 다양한 스케일과 종횡비를 가진 앵커 박스를 할당합니다.
    3. 컨볼루션 레이어를 사용하여 회귀 예측을 수행합니다.
  • 성능: SSD는 빠른 계산 속도를 유지하면서도 높은 정확도를 제공합니다. 이는 Faster R-CNN과 비슷하거나 더 나은 성능을 보여줍니다.

 

 

 

 

참조

https://www.basic.ai/post/object-detection-algorithms-overview

 

Leading Object Detection Algorithms in 2023: A Comprehensive Overview

A technical guide to leading object detection algorithms for computer vision, covering two-stage, one-stage, and transformer-based algorithm

www.basic.ai