๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

AI/Coursera

[Coursera] 7. Hyperparameter tuning, Batch Normalization

728x90
๋ฐ˜์‘ํ˜•
๐Ÿฅ‘ Coursera์˜ "Improving Deep Neural Networks: Hyperparameter Tuning, Regularization and
Optimization" ๊ฐ•์ขŒ์˜ ๋‚ด์šฉ์„ ๋ฐฐ์šฐ๋ฉด์„œ ๊ฐœ์ธ์ ์œผ๋กœ ์ •๋ฆฌํ•œ ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค.

 

Hyperparameter Tuning

ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๊ตฌ๋ถ„ํ•˜์—ฌ ์‚ฌ์šฉ์ž๊ฐ€ ๋”ฅ๋Ÿฌ๋‹์„ ์œ„ํ•ด ์„ค์ •ํ•˜๋Š” ๊ฐ’๋“ค์„ ๋ชจ๋‘ ์ง€์นญํ•œ๋‹ค. 

ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๋‹ค์–‘ํ•˜๊ฒŒ ์กด์žฌํ•˜์ง€๋งŒ ์ค‘์š”์„ฑ์€ ๋‹ค๋ฅด๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

  • Adam์˜ B1, B2, e์€ ๊ฑฐ์˜ ๋ณ€๊ฒฝํ•˜์ง€ ์•Š๊ณ  ๊ธฐ๋ณธ๊ฐ’์„ ์‚ฌ์šฉํ•œ๋‹ค.(๊ฑฐ์˜ ์ค‘์š”ํ•˜์ง€ ์•Š์Œ...)
  • hidden units, mini-batch size ๋“ฑ์€ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ์™€ ์ข…๋ฅ˜์— ๋”ฐ๋ผ ์„ค์ •ํ•ด์•ผํ•œ๋‹ค.(์ค‘์š”!)

 

์ด๋Ÿฐ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐ’์€ ํŠœ๋‹ํ•˜๋ ค๊ณ  ํ•  ๋•Œ, ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์–ด๋–ป๊ฒŒ ์„ค์ •ํ•ด์„œ ํƒ์ƒ‰ ํ•ด์•ผํ• ๊นŒ?

 

Machine Learning

๋จธ์‹ ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋ฐœ ์ดˆ๊ธฐ์—, 2๊ฐœ์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ 5x5 grid๋กœ ์„ค์ •ํ•˜๊ณ  25๊ฐœ์˜ point ์ค‘ ์ž˜ ๋™์ž‘ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๊ณจ๋ž๋‹ค.

ํ•˜์ง€๋งŒ ์ด ๋ฐฉ๋ฒ•์€ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋น„๊ต์  ๋งŽ์ง€ ์•Š์€ ๊ฒฝ์šฐ์— ์ž˜ ๋™์ž‘ํ•˜๋Š” ํŽธ์ด๋‹ค.

 

Deep Learning

๋”ฅ๋Ÿฌ๋‹์˜ ๊ฒฝ์šฐ์— ์ถ”์ฒœํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๊ฐ point์˜ ์œ„์น˜๋ฅผ ์ž„์˜๋กœ ์„ ํƒํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

์ด ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๋Š”, ์–ด๋–ค ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ํ•ด๊ฒฐํ•˜๋ ค๋Š” ๋ฌธ์ œ์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ์ง€ ๋ฏธ๋ฆฌ ์•Œ ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

 

์ฒซ๋ฒˆ์งธ ๋ฐฉ๋ฒ•๋Œ€๋กœ ์ƒ˜ํ”Œ๋ง์„ ์ง„ํ–‰ํ•œ ๊ฒฝ์šฐ 25๊ฐœ์˜ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋‚˜ 5๊ฐœ์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐ’(25๊ฐœ์˜ ๋ชจ๋ธ ํ•™์Šต)์œผ๋กœ ์‹œ๋„ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋‘๋ฒˆ์งธ ๋ฐฉ๋ฒ•๋Œ€๋กœ ์ƒ˜ํ”Œ๋ง ๋ฌด์ž‘์œ„๋กœ ์ง„ํ–‰ํ•œ๋‹ค๋ฉด, ๊ฐ๊ฐ ๋ชจ๋ธ๋งˆ๋‹ค 25๊ฐœ์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐ’(625๊ฐœ์˜ ๋ชจ๋ธ ํ•™์Šต)์„ ์‹œ๋„ํ•˜๊ฒŒ ๋œ๋‹ค.

 

ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ƒ˜ํ”Œ๋ง์˜ ๊ฒฝ์šฐ Coarse to find searching ๋ฐฉ๋ฒ•์ด ์ž์ฃผ ์‚ฌ์šฉ๋œ๋‹ค.

Coarse to find searching

  • ์ดˆ๊ธฐ์—๋Š” ๋„“์€ ๋ฒ”์œ„์—์„œ ํƒ์ƒ‰์„ ์‹œ์ž‘ํ•˜์—ฌ ์ ์ฐจ์ ์œผ๋กœ ์„ธ๋ถ€ ๋ฒ”์œ„๋กœ ์ขํ˜€๊ฐ€๋ฉฐ ํšจ์œจ์ ์ธ ํƒ์ƒ‰์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

 

๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ ˆ์ฐจ๋กœ ์ˆ˜ํ–‰๋œ๋‹ค.

1. Coarse Search(๋„“์€ ๋ฒ”์œ„ ํƒ์ƒ‰)

  • ์ดˆ๊ธฐ์—๋Š” ๋„“์€ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๋ฒ”์œ„๋ฅผ ์ •์˜ํ•œ๋‹ค.
  • ์ด ๋ฒ”์œ„์—์„œ ๋ช‡ ๊ฐœ์˜ ์ƒ˜ํ”Œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์กฐํ•ฉ์„ ์„ ํƒํ•˜์—ฌ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๊ณ  ๊ฒ€์ฆํ•œ๋‹ค.
  • ์ด ๊ณผ์ •์€ ์ดˆ๊ธฐ ํƒ์ƒ‰ ๋‹จ๊ณ„์ด๋ฏ€๋กœ ์„ธ๋ฐ€ํ•œ ์กฐ์ •๋ณด๋‹ค๋Š” ๋Œ€๋žต์ ์ธ ํŠธ๋ Œ๋“œ ํŒŒ์•…์— ์ดˆ์ ์„ ๋‘”๋‹ค.

 

2. Fine Search(์„ธ๋ถ€ ๋ฒ”์œ„ ํƒ์ƒ‰)

  • Coarse Search๋ฅผ ํ†ตํ•ด ์–ป์€ ๊ฒฐ๊ณผ๋ฅผ ๋ถ„์„ํ•˜๊ณ , ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์กฐํ•ฉ์„ ์„ ์ •ํ•œ๋‹ค.
  • ์ด ์„ ํƒ๋œ ์กฐํ•ฉ ์ฃผ๋ณ€์˜ ์ข์€ ๋ฒ”์œ„์—์„œ ์ถ”๊ฐ€์ ์ธ ํƒ์ƒ‰์„ ์ง„ํ–‰ํ•œ๋‹ค.
  • ์ด ๋‹จ๊ณ„์—์„œ๋Š” ๋” ์„ธ๋ถ€์ ์ธ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐ’์„ ํƒ์ƒ‰ํ•˜์—ฌ ์ตœ์ ์˜ ์กฐํ•ฉ์„ ์ฐพ๋Š”๋‹ค.

 

์ž„์˜์˜ ์ƒ˜ํ”Œ๋ง์„ ์ง„ํ–‰ํ•˜๊ณ , ์ถฉ๋ถ„ํžˆ ํƒ์ƒ‰ํ•œ ํ›„์— ์„ ํƒ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋ฉด ๋œ๋‹ค.

 

 

๋ฒ”์œ„๊ฐ€ ๋‹ค๋ฅธ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์—์„œ ํšจ์œจ์ ์œผ๋กœ ํƒ์ƒ‰

๋‹จ์ˆœํžˆ ์ž„์˜๋กœ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๊ฒƒ์€ ํŠน์ •ํ•œ ์œ ํšจํ•œ ๋ฒ”์œ„์—์„œ ํƒ์ƒ‰ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์— ๋น„ํšจ์œจ์ ์ผ ์ˆ˜ ์žˆ๋‹ค.

๋•Œ๋ฌธ์— ์ ํ•ฉํ•œ scale์„ ์„ ํƒํ•ด์„œ ํƒ์ƒ‰ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค.

 

์˜ˆ์‹œ1 :

hidden unit์˜ ๊ฐœ์ˆ˜๊ฐ€ n[l]์˜ ๊ฐ’์„ ํƒ์ƒ‰ํ•œ๋‹ค๊ณ  ๊ฐ€์ •, ์ž˜ ๋™์ž‘ํ•˜๋Š” ๋ฒ”์œ„๊ฐ€ 50 ~ 100์ผ ๋•Œ

hidden unit์˜ ๊ฐœ์ˆ˜๊ฐ€ 50 ~ 100 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ๋น„๊ต์  ํ•ฉ๋ฆฌ์ ์ธ ๋ฐฉ๋ฒ•์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

์˜ˆ์‹œ2 :

NN์˜ layer ๊ฐœ์ˆ˜๋ฅผ ๊ฒฐ์ •ํ•˜๋ ค๊ณ  ํ•˜๋ฉด, 2 ~ 4๊ฐœ๊ฐ€ ์ž˜ ๋™์ž‘ํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•  ๋•Œ 2,3,4 ์‚ฌ์ด์—์„œ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ํ•ฉ๋ฆฌ์ ์ด๋‹ค.

 

์˜ˆ์‹œ3:

learning rate alpha๋ฅผ ํƒ์ƒ‰ํ•  ๋•Œ, 0.0001 ~ 1 ๊ฐ’ ์‚ฌ์ด๋กœ ์ž„์˜๋กœ ๊ท ์ผํ™”๋˜๊ฒŒ ์ƒ˜ํ”Œ๋ง์„ ์ง„ํ–‰ํ•˜๋ฉด, ์•ฝ 90% ๊ฐ’์ด 0.1 ~ 1 ์‚ฌ์ด์— ์žˆ์„ ๊ฒƒ์ด๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์ƒ˜ํ”Œ๋ง์˜ 90% ์ •๋„๋ฅผ 0.1 ~ 1 ๊ฐ’์— ์ง‘์ค‘, 10% ์ •๋„๋งŒ์ด 0.0001๊ณผ 0.1 ์‚ฌ์ด์˜ ๊ฐ’์— ์ง‘์ค‘ํ•˜๊ธฐ ๋•Œ๋ฌธ์— log scale์„ ์ ์šฉํ•ด์„œ ํƒ์ƒ‰ํ•˜๋Š” ๊ฒƒ์ด ๋” ์ ํ•ฉํ•  ๊ฒƒ์ด๋‹ค.

 

 

ํ•œ ๋ถ„์•ผ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์ ์ ˆํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋‹ค๋ฅธ ๋ถ„์•ผ์— ์ ์šฉ(Cross-fertilization)์ด ๋  ์ˆ˜ ์žˆ๋‹ค.

Ex. Confonets or ResNets -> NLP

 

ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์‹œ๊ฐ„์ด ์ง€๋‚˜๋ฉด ๋ฐ์ดํ„ฐ๊ฐ€ ๋ณ€ํ•˜๊ฑฐ๋‚˜ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋” ์ด์ƒ ์ตœ์ ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์•„๋‹ˆ๊ฒŒ ๋  ์ˆ˜ ์žˆ๋‹ค. 

๊ทธ๋Ÿฌ๋ฏ€๋กœ re-evaluateํ•˜๋Š” ์ถ”์ฒœํ•œ๋‹ค.

 

ํƒ์ƒ‰ ๋ฐฉ๋ฒ•์—๋Š” 2๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค.

1. Babysitting one model

  • ํ•˜๋‚˜์˜ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๋™์•ˆ ์ง‘์ค‘์ ์œผ๋กœ ๊ด€์ฐฐํ•˜๊ณ  ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.
  • ๋ฐ์ดํ„ฐ๊ฐ€ ์•„์ฃผ ๋งŽ๊ฑฐ๋‚˜, ์—ฐ์‚ฐ์„ ์œ„ํ•œ Resource๊ฐ€ ๋งŽ์ด ์—†์„ ๋•Œ(GPU๋“ฑ..๊ฐ€ ์ถฉ๋ถ„ํ•˜์ง€ ์•Š๊ณ  ํ•œ๋ฒˆ์— 1๊ฐ€์ง€ ๋ชจ๋ธ๋งŒ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์„ ๊ฒฝ์šฐ)
  • ๋ชจ๋ธ ํ•™์Šต ๋„์ค‘ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ๋ฅผ ์‹ ์†ํ•˜๊ฒŒ ๊ฐ์ง€ํ•˜๊ณ  ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ์„ ์ง€์†์ ์œผ๋กœ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๋ฉฐ, ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •์ด๋‚˜ ํ•™์Šต ๊ณผ์ • ์ˆ˜์ •์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.
  • ์„ธ๋ฐ€ํ•œ ์กฐ์ •์„ ํ†ตํ•ด ์ตœ์ƒ์˜ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ์‹œ๊ฐ„๊ณผ ์ธ๋ ฅ์ด ๋งŽ์ด ์†Œ์š”๋  ์ˆ˜ ์žˆ๋‹ค.

 

2. Training many models in parallel

  • ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ชจ๋ธ์„ ๋™์‹œ์— ๋ณ‘๋ ฌ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.
  • ์–ด๋Š ํ•œ ๋ชจ๋ธ์— ๋Œ€ํ•ด์„œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐ’์„ ์„ค์ •ํ•ด์„œ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ณ , ์—ฌ๋Ÿฌ ๋ชจ๋ธ์— ๋Œ€ํ•œ Learning curve๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.
  • ๋ชจ๋ธ์˜ ์ˆ˜๊ฐ€ ๋งŽ์„์ˆ˜๋ก ๊ณ„์‚ฐ ๋น„์šฉ์ด ์ฆ๊ฐ€ํ•˜๊ณ  ์ž์›์†Œ๋ชจ๊ฐ€ ํฌ๊ธฐ ๋•Œ๋ฌธ์— ์ถฉ๋ถ„ํ•œ ์ปดํ“จํŒ… ์ž์›์ด ํ•„์š”ํ•˜๋‹ค.

 

Batch Normalization

Batch Normalization์€ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํƒ์ƒ‰์„ ๋” ์‰ฝ๊ฒŒ ๋งŒ๋“ค์–ด ์ค€๋‹ค.

 

์•ž์—์„œ ํฌ์ŠคํŒ… Normalization ๋‚ด์šฉ์— ๋Œ€ํ•ด ์‚ดํŽด๋ณด๋ฉด Normalization์€ input์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ์กฐ์ ˆํ•ด ๋” ๋™๊ทธ๋ž—๊ฒŒ cost๋ฅผ ๋ณ€ํ˜•ํ•ด์„œ GD์˜ ์†๋„๋ฅผ ๋†’ํ˜€์ค€๋‹ค.

 

deep model์˜ ๊ฒฝ์šฐ ์ž…๋ ฅ์ด X๋งŒ ์žˆ๋Š”๊ฒŒ ์•„๋‹ˆ๋ผ a[1],[2](๋ชจ๋ธ์˜ ๋ ˆ์ด์–ด ๊ฐ„์˜ ์ถœ๋ ฅ), ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ํ†ต๊ณผํ•œ ๊ฒฐ๊ณผ ๋“ฑ์ด ์žˆ๋‹ค. ์ด ๊ฒฝ์šฐ Batch Normalization ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉํ•œ๋‹ค. 

 

์ ์šฉํ•˜๋Š” ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

1. Mini-batch ๋‹จ์œ„๋กœ ์ •๊ทœํ™”

  • ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ Mini-batch ๋‹จ์œ„๋กœ ๋‚˜๋ˆ„์–ด ์ •๊ทœํ™”๋ฅผ ์ˆ˜ํ–‰

 

2. ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ ๊ณ„์‚ฐ

  • Mini-batch ๋‚ด์˜ ๊ฐ feature map์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ๊ณ„์‚ฐ
  • ์ด๋ฅผ ํ†ตํ•ด Mini-batch ๋‚ด์˜ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜  ์žˆ์Œ

 

3. ์ •๊ทœํ™”

  • ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ์‚ฌ์šฉํ•˜์—ฌ Mini-batch ๋‚ด์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ •๊ทœํ™”
  • ๊ฐ feature map์˜ ๊ฐ’๋“ค์„ ํ‰๊ท ์„ ๋นผ๊ณ , ๋ถ„์‚ฐ์œผ๋กœ ๋‚˜๋ˆ„์–ด ์ •๊ทœํ™”
  • ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ํ‰๊ท ์ด 0์ด๊ณ  ๋ถ„์‚ฐ์ด 1์ธ ๋ถ„ํฌ๋กœ ์กฐ์ •

 

4. ์Šค์ผ€์ผ ์กฐ์ •๊ณผ ์ด๋™

  • ์ •๊ทœํ™”๋œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด scale ์กฐ์ •๊ณผ shift๋ฅผ ์ˆ˜ํ–‰
  • ์Šค์ผ€์ผ ์กฐ์ • ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ์ด๋™ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ์กฐ์ •
  • ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ์ตœ์ ์˜ ๋ถ„ํฌ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋„์›€์„ ์คŒ

 

5. ํ™œ์„ฑํ™” ํ•จ์ˆ˜ ์ ์šฉ

  • ์ •๊ทœํ™”๋œ ๋ฐ์ดํ„ฐ์— ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์ ์šฉ
  • ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋Š” ๋น„์„ ํ˜•์„ฑ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์คŒ

 

 

Deep learning Framework๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ ์ง์ ‘ ๊ตฌํ˜„ํ•  ํ•„์š” ์—†์ด, tf.nn.batch_normalization์„ ์‚ฌ์šฉํ•˜๋ฉด๋œ๋‹ค.

 

Batch Normalization์ด ์™œ ์ž˜ ๋™์ž‘ํ•˜๋Š” ์ด์œ 

  • input feature๋ฅผ normalization ํ•˜์—ฌ ํ‰๊ท  0, ๋ถ„์‚ฐ์„ 1๋กœ ๋งŒ๋“ค์–ด ํ•™์Šต์˜ ์†๋„๋ฅผ ์ฆ๊ฐ€
  • ๋ชจ๋“  ํŠน์„ฑ์„ normalization ํ•˜๊ธฐ ๋•Œ๋ฌธ์—. input feature x๊ฐ€ ๋น„์Šทํ•œ ๋ฒ”์œ„๋ฅผ ๊ฐ–๊ฒŒ ๋จ
  • batch normalization์„ ํ†ตํ•ด ๋ชจ๋ธ์ด weight์˜ ๋ณ€ํ™”์— ๋œ ๋ฏผ๊ฐํ•ด์ง

 

Batch Norm์˜ ๊ณต์‹

 

 

 

Batch Normalization.ipynb

Colaboratory notebook

colab.research.google.com

 

728x90
๋ฐ˜์‘ํ˜•

'AI > Coursera' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[Coursera] 8. Softmax  (0) 2024.01.01
[Coursera] 6. Opitmization  (0) 2023.12.31
[Coursera] 5. Optimization Problem  (0) 2023.12.28
[Coursera] 4. Practical Aspects of Deep Learning  (0) 2023.12.27
[Coursera] 3. Gradient Descent  (0) 2023.12.27