[Computer Vision] IP-Adapter

728x90

GitHub - tencent-ailab/IP-Adapter: The image prompt adapter is designed to enable a pretrained text-to-image diffusion model to

The image prompt adapter is designed to enable a pretrained text-to-image diffusion model to generate images with image prompt. - GitHub - tencent-ailab/IP-Adapter: The image prompt adapter is des...

github.com

🔥 github 내용과 논문을 기반으로 포스트를 작성하였습니다.
https://arxiv.org/abs/2308.06721

T2I(Text-to-Image) diffusion model의 성공으로 인해 이미지 생성은 많은 발전을 이뤘다.

그러나 사용자가 원한는 콘텐츠를 생성하기 위해서는 좋은 텍스트 프롬프트를 작성해야하고 이는 복잡한 프롬프트 엔지니어링이 필요한 경우가 많기 때문에 쉽지 않다. 텍스트는 복잡한 장면이나 개념을 표현하기에 유익하지 않고 콘텐츠 제작에 방해가 될 수 있다.

이러한 텍스트 프롬프트 제한 사항을 고려하여 이미지를 생성할 수 있는 다른 프롬프트 유형이 있을까? 라는 의문이 있다.

대부분의 T2I diffusion model은 이미지 생성을 위해 Text Conditioning 된다.

이 연구에서는 간단한 방식으로 T2I diffusion model에 대한 이미지 프롬프트를 통해 생성 능력을 활성화 시켜본다.

SD Image Variations, Stable unCLIP과 같은 이전 연구들에서는 이미지 프롬프팅 능력을 달성을 위해 이미지 임베딩에서 직접 텍스트 조건부 diffusion model을 fine-tuning 함으로써 효과를 입증했다. 그러나 이와같은 접근법의 단점은 다음과 같다.

텍스트를 사용하여 이미지를 생성하는 원래의 능력을 제거하고 fine-tuning을 위해 대규모 컴퓨팅 리소스가 필요한 경우가 많다.
Fine-tuning된 모델은 일반적으로 재사용이 불가능하다. 이미지 프롬프팅 능력을 동일한 T2I 기반 모델에서 파생된 다른 커스텀 모델로 직접 전송할 수 없기 때문이다.
새로운 모델은 ControlNet과 같은 기존 구조 제어 도구와 호환되지 않는 경우가 많아 다운스트림 애플리케이션에 심각한 문제를 야기한다.

Fine-tuning의 단점으로 인해 일부 연구에서는 fine-tuning을 피하면서 텍스트 인코더를 이미지 인코더로 대체하는 것을 선택하였다.

그러나 이 방법도 여전히 몇 가지 단점이 있다.

이미지 프롬프트만 지원되므로 사용자가 텍스트와 이미지 프롬프트를 동시에 사용하여 이미지 생성할 수 없다.
이미지 인코더를 fine-tuning 하는 것만으로는 이미지 품질을 보장하기에 충분하지 않은 경우가 많으며 일반화 문제가 발생할 수 있다.

저자들은 원본 T2I 모델을 수정하지 않고 이미지 프롬프트를 사용할 수 있는지에 대해 관심을 가졌다.

ControlNet과 T2I-adapter에서는 이미지 생성을 가이드하기 위해 기존 T2I diffusion model에 추가 네트워크를 효과적으로 연결할 수 있음이 입증되었다.

이를 위해 CLIP 이미지 인코더에서 추출된 이미지 Feature는 학습이 가능한 네트워크를 통해 새로운 Feature에 매핑되고 다음 텍스트 Feature와 concatenate된다.

원본 텍스트 Feature를 대체함으로써 concatenate된 Feature가 diffusion model의 UNet에 공급되어 이미지 생성을 가이드한다.

이러한 adapter는 이미지 프롬프트를 사용하는 방법으로 볼 수 있지만 생성된 이미지는 프롬프팅된 이미지에 부분적으로만 충실하고, 결과가 처음부터 학습된 모델, fine-tuning된 이미지 프롬프트 모델보다 더 안좋은 경우가 많다.

저자들은 이 문제점이 T2I Diffusion model의 cross-attention 모듈에 있다고 주장했다.

사전 학습 diffusion model에서 cross-attention layer의 key, value projection 가중치는 텍스트 feature에 맞게 학습됨.
이미지 feature와 텍스트 feature를 cross-attention layer에 병합 시 이미지 feature를 텍스트 feature에 정렬하는 것만 달성.
이러한 이유 때문에 일부 이미지 관련 정부 누락 -> 레퍼런스 이미지를 사용한 제어 가능한 대략적인 생성만 가능.

이러한 단점을 피하기 위해 IP-Adapter라는 보다 효과적인 이미지 어댑터를 제안했다.

이미지 feature와 텍스트 feature에 대해 decoupled cross-attention 메커니즘을 채택함.
UNet diffusion model의 모든 cross-attention layer에 대해 이미지 feature에 대해서만 추가 cross-attention 레이어를 추가
학습 단계에서는 새로운 cross-attention layer의 파라미터만 학습되고 원래 UNet 모델은 유지된다.

⭐️ IP-Adapter는 가볍고 효율적이다.

2200만 개의 파라미터만을 가진 IP-Adapter의 생성 성능은 T2I diffusion model에서 완전히 fine-tuing된 모델과 비슷하다.
뛰어난 일반화 능력
텍스트 프롬프트와 호환

IP-Adapter는 두 부분으로 구성된다.

이미지 프롬프트에서 이미지 feature를 추출하는 이미지 인코더
이미지 feature를 사전 학습된 T2I diffusion model에 삽입하기 위해 decoupled cross-attention이 있는 적응형 모듈

Image Encoder

대부분의 방법들을 따라 사전 학습된 CLIP Image Encoder 모델을 사용하여 이미지 프롬프트에서 이미지 feature 추출한다.

CLIP 모델은 이미지-텍스트 쌍이 포함된 대규모 데이터셋에 대한 contrastive learning을 통해 학습된 Multi Modal Model이다.

이미지 캡션과 잘 정렬되고 이미지의 풍부한 콘텐츠와 스타일을 표현할 수 있는 CLIP Image Encoder의 글로벌 이미지 임베딩을 활용한다. 학습 단계에서 CLIP Image Encoder가 고정된다.

글로벌 이미지 임베딩을 효과적으로 분해하기 위해 학습 가능한 작은 Projection Network를 사용하여 이미지 임베딩을 길이 N의 feature sequence로 project한다. 이미지 feature의 차원은 사전 학습된 diffusion model의 텍스트 feature 차원과 동일하다.

여기서 사용된 Projection Network는 Linear Layer와 Layer normalization으로 구성된다.

Decoupled Cross-Attention

이미지 feature는 cross-attention이 분리된 적응형 모듈을 통해 학습된 UNet 모델에 통합된다.

원본 Stable Diffusion 모델에서 CLIP 텍스트 인코더의 텍스트 feature는 cross-attention layer에 공급되어 UNet 모델에 연결된다.

Query feature Z와 텍스트 feature Ct가 주어지면 cross-attention의 출력 Zl은 다음 방정식으로 정의될 수 있다.

Q,K,V : attention 연산의 query, key, value 행렬
Wq, Wk, Wv : linear projection layer의 가중치 행렬

연구에서 텍스트 feature와 이미지 특징에 대한 cross-attention layer가 분리된 decoupled cross-attention 메커니즘을 제안하였다.

UNet 모델의 각 cross-attention layer에 대해 새로운 cross-attention layer를 추가하여 이미지 feature를 삽입한다.

이미지 feature ci가 주어지면 새로운 cross-attention의 출력 Z'' 은 다음과 같이 계산된다.

텍스트 cross-attention과 이미지 cross-attention에 대해 동일한 query를 사용한다.

cross-attention layer에 대해 두 개의 파라미터 W'k, W'v 만 추가하면 된다.
수렴 속도를 높이기 위해 W'k, W'v은 Wk와 Wv에서 초기화 된다.
초기화 후 다음 이미지 cross-attention 출력을 텍스트 cross-attention 출력에 더하기만 하면 된다.

decoupled cross-attention의 최종 공식은 다음과 같이 정의된다.

Training and Inference

학습 중에는 사전 학습된 diffusion model의 파라미터를 고정된 상태로 유지하면서 IP-Adapter만 최적화한다.

또한 IP-Adapter는 원본 Stable Diffusion과 동일한 학습 목적 함수를 사용하여 이미지-텍스트 쌍이 포함된 데이터셋에 대해 학습된다.

또한 inference 단계에서 classifier-free guidance를 활성화하기 위해 학습 단계에서 이미지 조건을 무작위로 제거한다.

이미지 조건 제거 후 CLIP 이미지 임베딩을 0으로 설정한다.

텍스트 cross-attention과 이미지 cross-attention이 분리되어 있으므로 inference 단계에서 이미지 조건의 가중치를 조정할 수 있다.

λ는 가중치이고 $λ = 0$ 인 경우 모델은 원본 T2I diffusion model이 된다.

DEMO 버전

ip_adapter_demo.ipynb

Run, share, and edit Python notebooks

colab.research.google.com

728x90

저작자표시 변경금지 (새창열림)

'AI > Computer Vision' 카테고리의 다른 글

[Computer Vision] Inpainting (0)	2024.03.25
[Computer Vision] DreamBooth (0)	2024.03.11
[Computer Vision] LoRA(Low-Rank Adaptation) (0)	2024.03.10
[Computer Vision] Control Net (0)	2024.03.09
[Computer Vision] Image Segmentation (0)	2024.03.09

Pupbani's Lab