본문 바로가기

AI/딥러닝(Deep Learning)

[딥러닝/DL] Image Embedding

728x90
반응형

Image Embedding 이란?

이미지를 고차원 공간에서 저차원 공간으로 변환하는 과정을 의미한다.

이 과정에서 이미지의 중요한 특징을 추출하여 벡터 형태로 표현한다.

이러한 벡터는 이미지 간의 유사성을 측정하거나, 분류, 검색, 생성 등의 다양한 작업에 활용될 수 있다.

 

이러한 이미지 임베딩은 주로 딥러닝 기술을 기반으로 한다.

 

작동 원리

일반적으로 CNN 아키텍쳐를 사용하여 이미지 처리한다. CNN을 사용하는 이유는 이미지의 공간적 구조를 고려하여 특징을 추출하는 데 매우 효과적이다.

  • 특징 추출 : CNN의 여러 층을 통해 이미지의 저수준 특징(예: 엣지, 텍스처)고수준 특징(예: 객체, 장면)을 추출한다.
  • 차원 축소 : 추출된 특징을 저차원 벡터로 변환하여 이미지의 임베딩을 생성한다. 이 과정에서 PCA(Principal Component Analysis)t-SNE(t-distributed Stochastic Neighbor Embedding)와 같은 기법이 사용될 수 있다.
  • 유사성 측정 : 생성된 임베딩 벡터를 사용하여 이미지 간의 유사성을 측정한다. 일반적으로 코사인 유사도나 유클리드 거리를 사용한다.

 

 

이미지 임베딩 모델의 활용 사례

이미지 검색 : 사용자가 입력한 이미지와 유사한 이미지를 데이터베이스에서 검색하는 데 사용된다. (ex. 구글 이미지 검색)

 

추천 시스템 : 사용자에게 맞춤형 이미지를 추천하는 데 활용된다. (ex. 소셜 미디어 플랫폼에서는 사용자의 취향에 맞는 이미지를 추천하기 위해 이미지 임베딩을 사용함)

 

객체 인식 및 분류 : 이미지의 내용을 이해하고 분류하는 데 사용된다. (ex. 자율주행차, 보안 시스템에서 객체 인식 기술에 사용)

 

생성 모델 : GAN, Diffusion과 같은 생성 모델에서도 이미지 임베딩이 활용된다. (ex. 이미지 생성 또는 기존 이미지 변형)

 

 

이미지 임베딩 모델 종류

CNN(Convolutional Neural Networks)

  • 이미지의 공간적 구조를 고려하여 특징을 추출한다.
  • CNN의 각 층은 이미지의 저수준 및 고수준 특징을 학습한다.

 

 

ResNet(Residual Network)

  • 깊은 신경망의 학습을 용이하게 하기 위해 잔차 학습(residual learning) 개념을 도입한 모델이다.
  • 여러 층을 쌓아도 성능이 저하되지 않도록 설계되었고, 매우 깊은 네트워크에서도 효과적으로 특징을 추출이다.
  • 이미지 임베딩을 위한 강력한 기반 모델로 많이 사용된다. 

 

 

VGGNet

  • 간단한 구조와 깊은 네트워크를 특징으로 하는 모델이다.
  • 주로 3x3 Conv 필터를 사용하여 이미지의 특징을 추출하고, 깊이가 깊어질수록 성능이 향상되는 경향이 있다.

 

 

Inception (GoogLeNet)

  • 다양한 크기의 합성곱 필터를 동시에 적용하여 여러 수준의 특징을 추출하는 구조를 가진다.
  • 모델은 효율적인 계산과 높은 성능을 제공하며, 이미지 임베딩 및 분류 작업에서 효과적이다.

 

 

EfficientNet

  • 크기와 성능을 최적화하기 위해 네트워크의 깊이, 너비, 해상도를 균형 있게 조정하는 방법론을 사용한다.
  • 모델은 적은 파라미터 수로도 높은 성능을 발휘하여 이미지 임베딩에 적합하다.

 

 

Siamese Network

  • 두 개의 동일한 신경망을 사용하여 두 개의 입력 이미지 간의 유사성을 학습하는 구조이다.
  • 이 모델은 이미지 간의 거리 또는 유사성을 측정하는 데 유용하고, 얼굴 인식 및 이미지 검색 시스템에서 많이 사용된다.

 

 

Triplet Network

  • 세 개의 입력(앵커, 긍정, 부정)을 사용하여 이미지 간의 관계를 학습한다.
  • 이 모델은 앵커 이미지와 긍정 이미지 간의 거리는 가깝고, 앵커 이미지와 부정 이미지 간의 거리는 멀어지도록 학습한다. 주로 얼굴 인식 및 유사 이미지 검색에 활용된다.

 

 

ViT(Vision Transformers)

  • 이미지 데이터를 패치(patch)로 나누고, 이를 시퀀스 데이터로 변환하여 Transformer 아키텍처를 적용하는 모델이다.
  • 이 모델은 이미지의 전역적인 관계를 잘 포착할 수 있어, 이미지 임베딩 및 분류 작업에서 좋은 성능을 보인다.

 

 

2024년 이미지 임베딩 최신 기술 트렌드

OmniFormer와 같은 모델이 등장하여 적응형 토큰 임베딩 기술을 도입, 입력 시퀀스의 특성에 따라 동적으로 임베딩 차원을 조정한다.

 

멀티 모달 AI의 발전이 두드러지며, 이미지와 텍스트를 결합한 새로운 임베딩 기법이 주목받고 있다.

 

 

Vector DB의 활용이 증가하여 임베딩된 벡터를 효율적으로 저장하고 검색하는 방법이 발전하고 있다.

728x90
반응형