๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

AI/Computer Vision

[Computer Vision] IP-Adapter

728x90
๋ฐ˜์‘ํ˜•
 

GitHub - tencent-ailab/IP-Adapter: The image prompt adapter is designed to enable a pretrained text-to-image diffusion model to

The image prompt adapter is designed to enable a pretrained text-to-image diffusion model to generate images with image prompt. - GitHub - tencent-ailab/IP-Adapter: The image prompt adapter is des...

github.com

๐Ÿ”ฅ github ๋‚ด์šฉ๊ณผ ๋…ผ๋ฌธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํฌ์ŠคํŠธ๋ฅผ ์ž‘์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.
https://arxiv.org/abs/2308.06721

 

T2I(Text-to-Image) diffusion model์˜ ์„ฑ๊ณต์œผ๋กœ ์ธํ•ด ์ด๋ฏธ์ง€ ์ƒ์„ฑ์€ ๋งŽ์€ ๋ฐœ์ „์„ ์ด๋ค˜๋‹ค.

 

๊ทธ๋Ÿฌ๋‚˜ ์‚ฌ์šฉ์ž๊ฐ€ ์›ํ•œ๋Š” ์ฝ˜ํ…์ธ ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ข‹์€ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž‘์„ฑํ•ด์•ผํ•˜๊ณ  ์ด๋Š” ๋ณต์žกํ•œ ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๊ธฐ ๋•Œ๋ฌธ์— ์‰ฝ์ง€ ์•Š๋‹ค. ํ…์ŠคํŠธ๋Š” ๋ณต์žกํ•œ ์žฅ๋ฉด์ด๋‚˜ ๊ฐœ๋…์„ ํ‘œํ˜„ํ•˜๊ธฐ์— ์œ ์ตํ•˜์ง€ ์•Š๊ณ  ์ฝ˜ํ…์ธ  ์ œ์ž‘์— ๋ฐฉํ•ด๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค. 

 

์ด๋Ÿฌํ•œ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ ์ œํ•œ ์‚ฌํ•ญ์„ ๊ณ ๋ คํ•˜์—ฌ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค๋ฅธ ํ”„๋กฌํ”„ํŠธ ์œ ํ˜•์ด ์žˆ์„๊นŒ? ๋ผ๋Š” ์˜๋ฌธ์ด ์žˆ๋‹ค.

๋Œ€๋ถ€๋ถ„์˜ T2I diffusion model์€ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ์œ„ํ•ด Text Conditioning ๋œ๋‹ค.

 

์ด ์—ฐ๊ตฌ์—์„œ๋Š” ๊ฐ„๋‹จํ•œ ๋ฐฉ์‹์œผ๋กœ T2I diffusion model์— ๋Œ€ํ•œ ์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•ด ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ™œ์„ฑํ™” ์‹œ์ผœ๋ณธ๋‹ค.

 

SD Image Variations, Stable unCLIP๊ณผ ๊ฐ™์€ ์ด์ „ ์—ฐ๊ตฌ๋“ค์—์„œ๋Š” ์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŒ… ๋Šฅ๋ ฅ์„ ๋‹ฌ์„ฑ์„ ์œ„ํ•ด ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ์—์„œ ์ง์ ‘ ํ…์ŠคํŠธ ์กฐ๊ฑด๋ถ€ diffusion model์„ fine-tuning ํ•จ์œผ๋กœ์จ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด์™€๊ฐ™์€ ์ ‘๊ทผ๋ฒ•์˜ ๋‹จ์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ํ…์ŠคํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์›๋ž˜์˜ ๋Šฅ๋ ฅ์„ ์ œ๊ฑฐํ•˜๊ณ  fine-tuning์„ ์œ„ํ•ด ๋Œ€๊ทœ๋ชจ ์ปดํ“จํŒ… ๋ฆฌ์†Œ์Šค๊ฐ€ ํ•„์š”ํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.
  • Fine-tuning๋œ ๋ชจ๋ธ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์žฌ์‚ฌ์šฉ์ด ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค. ์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŒ… ๋Šฅ๋ ฅ์„ ๋™์ผํ•œ T2I ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์—์„œ ํŒŒ์ƒ๋œ ๋‹ค๋ฅธ ์ปค์Šคํ…€ ๋ชจ๋ธ๋กœ ์ง์ ‘ ์ „์†กํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
  • ์ƒˆ๋กœ์šด ๋ชจ๋ธ์€ ControlNet๊ณผ ๊ฐ™์€ ๊ธฐ์กด ๊ตฌ์กฐ ์ œ์–ด ๋„๊ตฌ์™€ ํ˜ธํ™˜๋˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•„ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ์‹ฌ๊ฐํ•œ ๋ฌธ์ œ๋ฅผ ์•ผ๊ธฐํ•œ๋‹ค.

 

 

Fine-tuning์˜ ๋‹จ์ ์œผ๋กœ ์ธํ•ด ์ผ๋ถ€ ์—ฐ๊ตฌ์—์„œ๋Š” fine-tuning์„ ํ”ผํ•˜๋ฉด์„œ ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋ฅผ ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”๋กœ ๋Œ€์ฒดํ•˜๋Š” ๊ฒƒ์„ ์„ ํƒํ•˜์˜€๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ด ๋ฐฉ๋ฒ•๋„ ์—ฌ์ „ํžˆ ๋ช‡ ๊ฐ€์ง€ ๋‹จ์ ์ด ์žˆ๋‹ค.

  • ์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŠธ๋งŒ ์ง€์›๋˜๋ฏ€๋กœ ์‚ฌ์šฉ์ž๊ฐ€ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋™์‹œ์— ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ์ƒ์„ฑํ•  ์ˆ˜ ์—†๋‹ค.
  • ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”๋ฅผ fine-tuning ํ•˜๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋Š” ์ด๋ฏธ์ง€ ํ’ˆ์งˆ์„ ๋ณด์žฅํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์œผ๋ฉฐ ์ผ๋ฐ˜ํ™” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค.

 

์ €์ž๋“ค์€ ์›๋ณธ T2I ๋ชจ๋ธ์„ ์ˆ˜์ •ํ•˜์ง€ ์•Š๊ณ  ์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•ด ๊ด€์‹ฌ์„ ๊ฐ€์กŒ๋‹ค.

 

ControlNet๊ณผ T2I-adapter์—์„œ๋Š” ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ๊ฐ€์ด๋“œํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ์กด T2I diffusion model์— ์ถ”๊ฐ€ ๋„คํŠธ์›Œํฌ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์—ฐ๊ฒฐํ•  ์ˆ˜ ์žˆ์Œ์ด ์ž…์ฆ๋˜์—ˆ๋‹ค.

์ด๋ฅผ ์œ„ํ•ด CLIP ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”์—์„œ ์ถ”์ถœ๋œ ์ด๋ฏธ์ง€ Feature๋Š” ํ•™์Šต์ด ๊ฐ€๋Šฅํ•œ ๋„คํŠธ์›Œํฌ๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด Feature์— ๋งคํ•‘๋˜๊ณ  ๋‹ค์Œ ํ…์ŠคํŠธ Feature์™€ concatenate๋œ๋‹ค.

 

์›๋ณธ ํ…์ŠคํŠธ Feature๋ฅผ ๋Œ€์ฒดํ•จ์œผ๋กœ์จ concatenate๋œ Feature๊ฐ€ diffusion model์˜ UNet์— ๊ณต๊ธ‰๋˜์–ด ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ๊ฐ€์ด๋“œํ•œ๋‹ค.

์ด๋Ÿฌํ•œ adapter๋Š” ์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์ง€๋งŒ ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€๋Š” ํ”„๋กฌํ”„ํŒ…๋œ ์ด๋ฏธ์ง€์— ๋ถ€๋ถ„์ ์œผ๋กœ๋งŒ ์ถฉ์‹คํ•˜๊ณ , ๊ฒฐ๊ณผ๊ฐ€ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šต๋œ ๋ชจ๋ธ, fine-tuning๋œ ์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŠธ ๋ชจ๋ธ๋ณด๋‹ค ๋” ์•ˆ์ข‹์€ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.

 

์ €์ž๋“ค์€ ์ด ๋ฌธ์ œ์ ์ด T2I Diffusion model์˜ cross-attention ๋ชจ๋“ˆ์— ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ–ˆ๋‹ค.

  • ์‚ฌ์ „ ํ•™์Šต diffusion model์—์„œ cross-attention layer์˜ key, value projection ๊ฐ€์ค‘์น˜๋Š” ํ…์ŠคํŠธ feature์— ๋งž๊ฒŒ ํ•™์Šต๋จ.
  • ์ด๋ฏธ์ง€ feature์™€ ํ…์ŠคํŠธ feature๋ฅผ cross-attention layer์— ๋ณ‘ํ•ฉ ์‹œ ์ด๋ฏธ์ง€ feature๋ฅผ ํ…์ŠคํŠธ feature์— ์ •๋ ฌํ•˜๋Š” ๊ฒƒ๋งŒ ๋‹ฌ์„ฑ.
  • ์ด๋Ÿฌํ•œ ์ด์œ  ๋•Œ๋ฌธ์— ์ผ๋ถ€ ์ด๋ฏธ์ง€ ๊ด€๋ จ ์ •๋ถ€ ๋ˆ„๋ฝ -> ๋ ˆํผ๋Ÿฐ์Šค ์ด๋ฏธ์ง€๋ฅผ ์‚ฌ์šฉํ•œ ์ œ์–ด ๊ฐ€๋Šฅํ•œ ๋Œ€๋žต์ ์ธ ์ƒ์„ฑ๋งŒ ๊ฐ€๋Šฅ.

 

 

์ด๋Ÿฌํ•œ ๋‹จ์ ์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด IP-Adapter๋ผ๋Š” ๋ณด๋‹ค ํšจ๊ณผ์ ์ธ ์ด๋ฏธ์ง€ ์–ด๋Œ‘ํ„ฐ๋ฅผ ์ œ์•ˆํ–ˆ๋‹ค. 

  • ์ด๋ฏธ์ง€ feature์™€ ํ…์ŠคํŠธ feature์— ๋Œ€ํ•ด decoupled cross-attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ฑ„ํƒํ•จ.
  • UNet diffusion model์˜ ๋ชจ๋“  cross-attention layer์— ๋Œ€ํ•ด ์ด๋ฏธ์ง€ feature์— ๋Œ€ํ•ด์„œ๋งŒ ์ถ”๊ฐ€ cross-attention ๋ ˆ์ด์–ด๋ฅผ ์ถ”๊ฐ€
  • ํ•™์Šต ๋‹จ๊ณ„์—์„œ๋Š” ์ƒˆ๋กœ์šด cross-attention layer์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํ•™์Šต๋˜๊ณ  ์›๋ž˜ UNet ๋ชจ๋ธ์€ ์œ ์ง€๋œ๋‹ค.

 

โญ๏ธ IP-Adapter๋Š” ๊ฐ€๋ณ๊ณ  ํšจ์œจ์ ์ด๋‹ค. 

  • 2200๋งŒ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ์„ ๊ฐ€์ง„ IP-Adapter์˜ ์ƒ์„ฑ ์„ฑ๋Šฅ์€ T2I diffusion model์—์„œ ์™„์ „ํžˆ fine-tuing๋œ ๋ชจ๋ธ๊ณผ ๋น„์Šทํ•˜๋‹ค.
  • ๋›ฐ์–ด๋‚œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ
  • ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์™€ ํ˜ธํ™˜

 

IP-Adapter ์•„ํ‚คํ…์ฒ˜

 

 

IP-Adapter๋Š” ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

  1. ์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŠธ์—์„œ ์ด๋ฏธ์ง€ feature๋ฅผ ์ถ”์ถœํ•˜๋Š” ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”
  2. ์ด๋ฏธ์ง€ feature๋ฅผ ์‚ฌ์ „ ํ•™์Šต๋œ T2I diffusion model์— ์‚ฝ์ž…ํ•˜๊ธฐ ์œ„ํ•ด decoupled cross-attention์ด ์žˆ๋Š” ์ ์‘ํ˜• ๋ชจ๋“ˆ

 

 

Image Encoder

๋Œ€๋ถ€๋ถ„์˜ ๋ฐฉ๋ฒ•๋“ค์„ ๋”ฐ๋ผ ์‚ฌ์ „ ํ•™์Šต๋œ CLIP Image Encoder ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŠธ์—์„œ ์ด๋ฏธ์ง€ feature ์ถ”์ถœํ•œ๋‹ค.

CLIP ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ์ด ํฌํ•จ๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ contrastive learning์„ ํ†ตํ•ด ํ•™์Šต๋œ Multi Modal Model์ด๋‹ค. 

์ด๋ฏธ์ง€ ์บก์…˜๊ณผ ์ž˜ ์ •๋ ฌ๋˜๊ณ  ์ด๋ฏธ์ง€์˜ ํ’๋ถ€ํ•œ ์ฝ˜ํ…์ธ ์™€ ์Šคํƒ€์ผ์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” CLIP Image Encoder์˜ ๊ธ€๋กœ๋ฒŒ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ์„ ํ™œ์šฉํ•œ๋‹ค. ํ•™์Šต ๋‹จ๊ณ„์—์„œ CLIP Image Encoder๊ฐ€ ๊ณ ์ •๋œ๋‹ค.

 

๊ธ€๋กœ๋ฒŒ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ์„ ํšจ๊ณผ์ ์œผ๋กœ ๋ถ„ํ•ดํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์ž‘์€ Projection Network๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ์„ ๊ธธ์ด N์˜ feature sequence๋กœ projectํ•œ๋‹ค. ์ด๋ฏธ์ง€ feature์˜ ์ฐจ์›์€ ์‚ฌ์ „ ํ•™์Šต๋œ diffusion model์˜ ํ…์ŠคํŠธ feature ์ฐจ์›๊ณผ ๋™์ผํ•˜๋‹ค.

 

์—ฌ๊ธฐ์„œ ์‚ฌ์šฉ๋œ Projection Network๋Š” Linear Layer์™€ Layer normalization์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

 

 

Decoupled Cross-Attention

์ด๋ฏธ์ง€ feature๋Š” cross-attention์ด ๋ถ„๋ฆฌ๋œ ์ ์‘ํ˜• ๋ชจ๋“ˆ์„ ํ†ตํ•ด ํ•™์Šต๋œ UNet ๋ชจ๋ธ์— ํ†ตํ•ฉ๋œ๋‹ค. 

์›๋ณธ Stable Diffusion ๋ชจ๋ธ์—์„œ CLIP ํ…์ŠคํŠธ ์ธ์ฝ”๋”์˜ ํ…์ŠคํŠธ feature๋Š” cross-attention layer์— ๊ณต๊ธ‰๋˜์–ด UNet ๋ชจ๋ธ์— ์—ฐ๊ฒฐ๋œ๋‹ค.

Query feature Z์™€ ํ…์ŠคํŠธ feature Ct๊ฐ€ ์ฃผ์–ด์ง€๋ฉด cross-attention์˜ ์ถœ๋ ฅ Zl์€ ๋‹ค์Œ ๋ฐฉ์ •์‹์œผ๋กœ ์ •์˜๋  ์ˆ˜ ์žˆ๋‹ค.

 

  • Q,K,V : attention ์—ฐ์‚ฐ์˜ query, key, value ํ–‰๋ ฌ
  • Wq, Wk, Wv : linear projection layer์˜ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ

 

์—ฐ๊ตฌ์—์„œ ํ…์ŠคํŠธ feature์™€ ์ด๋ฏธ์ง€ ํŠน์ง•์— ๋Œ€ํ•œ cross-attention layer๊ฐ€ ๋ถ„๋ฆฌ๋œ decoupled cross-attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ์•ˆํ•˜์˜€๋‹ค.

UNet ๋ชจ๋ธ์˜ ๊ฐ cross-attention layer์— ๋Œ€ํ•ด ์ƒˆ๋กœ์šด cross-attention layer๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ์ด๋ฏธ์ง€ feature๋ฅผ ์‚ฝ์ž…ํ•œ๋‹ค.

 

์ด๋ฏธ์ง€ feature ci๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ์ƒˆ๋กœ์šด cross-attention์˜ ์ถœ๋ ฅ Z'' ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐ๋œ๋‹ค.

 

 

ํ…์ŠคํŠธ cross-attention๊ณผ ์ด๋ฏธ์ง€ cross-attention์— ๋Œ€ํ•ด ๋™์ผํ•œ query๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

  • cross-attention layer์— ๋Œ€ํ•ด ๋‘ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ W'k, W'v ๋งŒ ์ถ”๊ฐ€ํ•˜๋ฉด ๋œ๋‹ค.
  • ์ˆ˜๋ ด ์†๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด W'k, W'v์€ Wk์™€ Wv์—์„œ ์ดˆ๊ธฐํ™” ๋œ๋‹ค.
  • ์ดˆ๊ธฐํ™” ํ›„ ๋‹ค์Œ ์ด๋ฏธ์ง€ cross-attention ์ถœ๋ ฅ์„ ํ…์ŠคํŠธ cross-attention ์ถœ๋ ฅ์— ๋”ํ•˜๊ธฐ๋งŒ ํ•˜๋ฉด ๋œ๋‹ค.

 

decoupled cross-attention์˜ ์ตœ์ข… ๊ณต์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋œ๋‹ค.

 

 

Training and Inference

ํ•™์Šต ์ค‘์—๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ diffusion model์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ณ ์ •๋œ ์ƒํƒœ๋กœ ์œ ์ง€ํ•˜๋ฉด์„œ IP-Adapter๋งŒ ์ตœ์ ํ™”ํ•œ๋‹ค.

๋˜ํ•œ IP-Adapter๋Š” ์›๋ณธ Stable Diffusion๊ณผ ๋™์ผํ•œ ํ•™์Šต ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ์ด ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ํ•™์Šต๋œ๋‹ค.

๋˜ํ•œ inference ๋‹จ๊ณ„์—์„œ classifier-free guidance๋ฅผ ํ™œ์„ฑํ™”ํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต ๋‹จ๊ณ„์—์„œ ์ด๋ฏธ์ง€ ์กฐ๊ฑด์„ ๋ฌด์ž‘์œ„๋กœ ์ œ๊ฑฐํ•œ๋‹ค.

์ด๋ฏธ์ง€ ์กฐ๊ฑด ์ œ๊ฑฐ ํ›„ CLIP ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ์„ 0์œผ๋กœ ์„ค์ •ํ•œ๋‹ค.

ํ…์ŠคํŠธ cross-attention๊ณผ ์ด๋ฏธ์ง€ cross-attention์ด ๋ถ„๋ฆฌ๋˜์–ด ์žˆ์œผ๋ฏ€๋กœ inference ๋‹จ๊ณ„์—์„œ ์ด๋ฏธ์ง€ ์กฐ๊ฑด์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

λ๋Š” ๊ฐ€์ค‘์น˜์ด๊ณ  ์ธ ๊ฒฝ์šฐ ๋ชจ๋ธ์€ ์›๋ณธ T2I diffusion model์ด ๋œ๋‹ค.

 

 

 

DEMO ๋ฒ„์ „

 

ip_adapter_demo.ipynb

Run, share, and edit Python notebooks

colab.research.google.com

  •  
728x90
๋ฐ˜์‘ํ˜•

'AI > Computer Vision' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[Computer Vision] Inpainting  (0) 2024.03.25
[Computer Vision] DreamBooth  (0) 2024.03.11
[Computer Vision] LoRA(Low-Rank Adaptation)  (0) 2024.03.10
[Computer Vision] Control Net  (0) 2024.03.09
[Computer Vision] Image Segmentation  (0) 2024.03.09