๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

AI/Coursera

[Coursera] 4. Practical Aspects of Deep Learning

728x90
๋ฐ˜์‘ํ˜•
๐Ÿฅ‘ Coursera์˜ "Improving Deep Neural Networks: Hyperparameter Tuning, Regularization and
Optimization" ๊ฐ•์ขŒ์˜ ๋‚ด์šฉ์„ ๋ฐฐ์šฐ๋ฉด์„œ ๊ฐœ์ธ์ ์œผ๋กœ ์ •๋ฆฌํ•œ ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค.

 

 

Train/Dev/Test

์ฒ˜์Œ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ๊ตฌํ˜„ํ•  ๋•Œ ํ•œ๋ฒˆ์— ์ ์ ˆํ•œ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐ’์„ ์ฐพ๋Š” ๊ฒƒ์€ ๊ฑฐ์˜ ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค.

๊ทธ๋ž˜์„œ ๋ฐ˜๋ณต์ ์ธ ๊ณผ์ •์„ ํ†ตํ•ด ๊ฐ’์„ ์ˆ˜์ •ํ•˜๋ฉฐ ์ ์ ˆํ•œ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐ’์„ ์ฐพ์•„์•ผํ•œ๋‹ค.

 

 

 

์ด ๋ฐ˜๋ณต ๊ณผ์ •์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ๊ฒƒ์€ ๋ฐ˜๋ณต ๊ณผ์ •์„ ์–ผ๋งˆ๋‚˜ ํšจ์œจ์ ์œผ๋กœ ํ•˜๋Š๋ƒ์ด๋‹ค.

์šฐ๋ฆฌ๋Š” Data๋ฅผ Train/Dev/Test Set ์ด 3๊ฐœ์˜ ๊ทธ๋ฃน์œผ๋กœ ๋ถ„๋ฆฌํ•˜๊ณ  ์ ์ ˆํžˆ ์„ค์ •ํ•˜๋ฉด ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

Training Set

  • ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ณ„์† ์ˆ˜ํ–‰ํ•œ๋‹ค.

  

Dev or CV Set

  • ๋‹ค๋ฅธ ๋งŽ์€ ๋ชจ๋ธ ์ค‘์— ์–ด๋– ํ•œ ๋ชจ๋ธ์ด ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์€์ง€ ํ‰๊ฐ€ํ•œ๋‹ค.
  • Test Set๊ณผ ๊ฐ™์€ ๋ถ„ํฌ๋„๋ฅผ ๊ฐ€์ง€๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.

 

Test Set

  • Dev or CV Set์„ ํ†ตํ•ด ๊ฐ€์žฅ ์ ์ ˆํ•œ ๋ชจ๋ธ์„ ์ฐพ์œผ๋ฉด ์ตœ์ข…์ ์œผ๋กœ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•œ๋‹ค.
  • bias๊ฐ€ ์—†๋Š” ๊ฒฐ๊ณผ๊ฐ’์ด ๋ชฉํ‘œ์ด๋ฏ€๋กœ ์‚ฌ์šฉ๋œ๋‹ค.
  • bias๊ฐ€ ์ค‘์š”ํ•˜์ง€ ์•Š๋‹ค๋ฉด ์‚ฌ์šฉํ•˜์ง€ ์•Š์•„๋„ ๋œ๋‹ค.

 

 

์ผ๋ฐ˜์ ์œผ๋กœ Training ๊ณผ Test๋กœ ๋ถ„๋ฆฌํ•  ๊ฒฝ์šฐ 70:30 ๋น„์œจ๋กœ, Dev๊ฐ€ ์ถ”๊ฐ€๋˜๋ฉด 60:20:20์œผ๋กœ ๋ถ„๋ฆฌํ•˜๊ฒŒ ๋œ๋‹ค.

ํ•˜์ง€๋งŒ, ์ด๊ฒฝ์šฐ๋Š” ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๊ฐ€ ์ž‘์„ ๊ฒฝ์šฐ ํ•ฉ๋ฆฌ์ ์ธ ๋ฐฉ๋ฒ•์ด๋‹ค. 

 

๋น…๋ฐ์ดํ„ฐ ๊ฐ™์€ ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๊ฐ€ ์ˆ˜๋ฐฑ๋งŒ๊ฐœ๊ฐ€ ๋„˜์–ด๊ฐ€๊ธฐ ๋•Œ๋ฌธ์— Dev, Test๋Š” ์ž‘์€ ๋น„์œจ์„ ์ฐจ์ง€ํ•œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด 1,000,000๊ฐœ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ์„ ๊ฒฝ์šฐ Dev์™€ Test๋Š” 10,000๊ฐœ ์ •๋„๋ฉด ์ถฉ๋ถ„ํ•˜๋‹ค.

 

 

Bias/Variance

๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ 3๊ฐ€์ง€๋ฅผ ๋น„๊ตํ•˜๋ฉฐ ์‚ดํŽด๋ณด์ž

 

High Bias ๊ทธ๋ฆผ์€ ๋ฐ์ดํ„ฐ๊ฐ€ Fitting ๋˜์ง€ ์•Š์•„์„œ Underfitting์˜ ๋ฌธ์ œ๋ฅผ ๊ฐ€์ง„๋‹ค.

High Variance ๊ทธ๋ฆผ์€ ์•„์ฃผ ๋ณต์žกํ•œ ๋ถ„๋ฅ˜๊ธฐ(ex. DNN)์— Fitting ์‹œ์ผฐ๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ Fittingํ•˜๊ฒŒ๋˜์„œ Overfitting์˜ ๋ฌธ์ œ๋ฅผ ๊ฐ€์ง„๋‹ค.

Just Right ๊ทธ๋ฆผ์€ ์ ์ ˆํ•˜๊ฒŒ Fitting๋œ ๋ชจ๋ธ์ด๋‹ค.

 

์ด ๊ทธ๋ฆผ๋“ค ์ฒ˜๋Ÿผ 2๊ฐœ์˜ ์ž…๋ ฅ์— ๋Œ€ํ•ด Decision Boundary๋ฅผ ๊ทธ๋ฆฌ๋ฉด ์‹œ๊ฐ์ ์œผ๋กœ ํ™•์ธ์ด ๊ฐ€๋Šฅํ•˜์ง€๋งŒ ๊ณ ์ฐจ์›์˜ ์ž…๋ ฅ์„ ๊ฐ€์ง€๋Š” ๊ฒฝ์šฐ๋Š” ์‹œ๊ฐ์ ์œผ๋กœ ํ™•์ธ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•˜๋‹ค.

 

๋ฐฉ๋ฒ•1 : Cross Validation์„ ํ™œ์šฉํ•œ ์„ฑ๋Šฅ ํ‰๊ฐ€

  • ๋ฐ์ดํ„ฐ๋ฅผ Train/Val/Test๋กœ ๋‚˜๋ˆ„์–ด ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๊ณ  ์„ฑ๋Šฅ์„ ํ‰๊ฐ€.
  • Underfitting : Train๊ณผ Val ๋ชจ๋‘ ์„ฑ๋Šฅ์ด ๋‚ฎ๊ฒŒ ๋‚˜์˜ด.
  • Overfitting : Train์€ ๋†’์ง€๋งŒ Val์˜ ์„ฑ๋Šฅ์ด ๋‚ฎ๊ฒŒ ๋‚˜์˜ด.

 

 

๋ฐฉ๋ฒ•2 : ํ•™์Šต ๊ณก์„ (Learning Curve) ๋ถ„์„

  • ํ•™์Šต ๊ณก์„ ์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ์— ๋”ฐ๋ฅธ ํ›ˆ๋ จ ์„ธํŠธ์™€ ๊ฒ€์ฆ ์„ธํŠธ์˜ ์„ฑ๋Šฅ ๋ณ€ํ™”๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฏ€๋กœ ์ด๊ฒƒ์„ ํ†ตํ•ด ํ™•์ธ.
  • Underfitting : Train๊ณผ Val ๋ชจ๋‘์—์„œ ์„ฑ๋Šฅ์ด ์ˆ˜๋ ด.
  • Overfitting : Train์€ ๋†’์ง€๋งŒ Val์˜ ์„ฑ๋Šฅ์ด ์ˆ˜๋ ดํ•˜์ง€ ์•Š์Œ.

 

 

๋ฐฉ๋ฒ•3 : ๋ณต์žก๋„์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ๋น„๊ต

  • ๋ชจ๋ธ์˜ ๋ณต์žก๋„๋ฅผ ์กฐ์ ˆํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•จ.
  • Underfitting : ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ๋‹จ์ˆœํ•˜์—ฌ Train์˜ ์„ฑ๋Šฅ์ด ๋งค์šฐ ๋‚ฎ๊ฒŒ ๋‚˜์˜ด.
  • Overfitting : ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ๋ณต์žกํ•˜์—ฌ Train์˜ ์„ฑ๋Šฅ์ด ๋งค์šฐ ๋†’๊ฒŒ ๋‚˜์˜ด. 

 

์ด ์ •๋ณด๋“ค์„ Basic Recipe๋ผ๊ณ  ํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋จธ์‹ ๋Ÿฌ๋‹์˜ ์‹œ์Šคํ…œ์ ์ธ ๋ถ€๋ถ„์„ ์•Œ ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๊ณ  ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ฑ๋Šฅ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด ์ดˆ๊ธฐ ๋ชจ๋ธ ํ•™์Šต ์ดํ›„ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด High Bias๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค๋ฉด, ๋” ๋ณต์žกํ•œ ๋ชจ๋ธ์„ ์„ ํƒํ•˜๊ฑฐ๋‚˜ ๋” ๋งŽ์€ ๋ฐ˜๋ณต ํ•™์Šต, ์ตœ์ ํ™”๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ ํƒ์„ ํ•  ์ˆ˜ ์žˆ๊ณ , High Bias ๋ฌธ์ œ๊ฐ€ ์—†๊ณ  High Variance ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค๋ฉด, ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ฑฐ๋‚˜ ์ •๊ทœํ™”(Regularization)์„ ์‹œ๋„ํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

 

Regularization

์–ด๋Š ๋ชจ๋ธ์ด Overfitting ํ•˜๋‹ค๋ฉด High Variance ๋ฌธ์ œ๊ฐ€ ์žˆ๋Š” ๊ฒƒ์ด๊ณ , ์ •๊ทœํ™”๋ฅผ ์‹œ๋„ํ•ด๋ด์•ผ ํ•œ๋‹ค.

๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ˆ˜์ง‘ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ์ง€๋งŒ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์–ด๋ ต๊ฑฐ๋‚˜ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ธฐ ๋•Œ๋ฌธ์— ์ •๊ทœํ™”๋ฅผ ์ด์šฉํ•œ๋‹ค.

 

๊ฐ€์žฅ ์ผ๋ฐ˜์ ์ธ ์ •๊ทœํ™” ๋ฐฉ๋ฒ•์œผ๋กœ L1๊ณผ L2 ๊ทœ์ œ๊ฐ€ ์ž‡๋‹ค.

 

L1 Regularization

 

  • ๊ฐ€์ค‘์น˜์˜ ์ ˆ๋Œ“๊ฐ’์— ๋น„๋ก€ํ•˜๋Š” ํŒจ๋„ํ‹ฐ๋ฅผ ๋ถ€๊ณผํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ทœ์ œํ•˜๋Š” ์ •๊ทœํ™” ๋ฐฉ๋ฒ•์ด๋‹ค.
  • ์ผ๋ถ€ ๊ฐ€์ค‘์น˜๋ฅผ 0์œผ๋กœ ๋งŒ๋“ค ์ˆ˜ ์žˆ์–ด Feature Selection ํšจ๊ณผ(์ค‘์š”ํ•˜์ง€ ์•Š์€ ํŠน์„ฑ ์ œ๊ฑฐ)๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค.
  • ํฌ์†Œ์„ฑ(Sparsity)์„ ๊ฐ€์ง€๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๊ณ  ์ ์€ ์ˆ˜์˜ ์ค‘์š” ํŠน์„ฑ๋“ค๋งŒ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.
  • Lasso ๊ทœ์ œ๋ผ๊ณ ๋„ ํ•œ๋‹ค.
  • Manhatten Distance(ํŠน์ • ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ์›€์ง์ผ ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ์˜ ๋‘ ๋ฒกํ„ฐ๊ฐ„์˜ ์ตœ๋‹จ ๊ฑฐ๋ฆฌ๋ฅผ ์ฐพ๋Š” ๋ฐฉ๋ฒ•)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€์ค‘์น˜์˜ ์ ˆ๋Œ“๊ฐ’์— ๋น„๋ก€ํ•˜๋Š” ํŒจ๋„ํ‹ฐ๋ฅผ ๋ถ€๊ณผํ•œ๋‹ค.

Manhatten Distance

alpha = 0.1  # ๊ทœ์ œ์˜ ๊ฐ•๋„๋ฅผ ์กฐ์ ˆํ•˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜

# ๊ธฐ์กด ๋น„์šฉ ํ•จ์ˆ˜
cost = ...

# L1 ๊ทœ์ œ๋ฅผ ์ ์šฉํ•œ ๋น„์šฉ ํ•จ์ˆ˜
l1_regularization = alpha * (abs(w1) + abs(w2) + ... + abs(wn))
cost_with_l1 = cost + l1_regularization

 

 

L2 Regularization

  • ๊ฐ€์ค‘์น˜์˜ ์ œ๊ณฑ์— ๋น„๋ก€ํ•˜๋Š” ํŒจ๋„ํ‹ฐ๋ฅผ ๋ถ€๊ณผํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ทœ์ œํ•˜๋Š” ์ •๊ทœํ™” ๋ฐฉ๋ฒ•์ด๋‹ค.
  • ๋ชจ๋“  ๊ฐ€์ค‘์น˜๊ฐ€ 0์— ๊ฐ€๊นŒ์›Œ์ง€๋„๋ก ๋งŒ๋“ค์–ด ์ „์ฒด์ ์œผ๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ์ค„์ด๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ๋‹ค.
  • ๊ฐ€์ค‘์น˜๋ฅผ 0์— ๊ฐ€๊น๊ฒŒ ๋งŒ๋“ค์ง€๋งŒ 0์ด๋˜์ง€ ์•Š๊ณ  ์•„์ฃผ ์ž‘์€ ๊ฐ’์„ ๊ฐ€์ง„๋‹ค. Feature Selection ํšจ๊ณผ๊ฐ€ L1๋ณด๋‹ค ์ž‘๋‹ค.
  • ์ด์ƒ์น˜์— ์ทจ์•ฝํ•˜๋‹ค.
  • Ridge ๊ทœ์ œ๋ผ๊ณ ๋„ ํ•œ๋‹ค.
  • Euclidean Distance(๋‘ ์  ์‚ฌ์ด์˜ ์ตœ๋‹จ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ •ํ•  ๋•Œ ์‚ฌ์šฉ)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€์ค‘์น˜์˜ ์ œ๊ณฑ์— ๋น„๋ก€ํ•˜๋Š” ํŒจ๋„ํ‹ฐ๋ฅผ ๋ถ€๊ณผํ•œ๋‹ค.

Euclidean Distance

alpha = 0.1  # ๊ทœ์ œ์˜ ๊ฐ•๋„๋ฅผ ์กฐ์ ˆํ•˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜

# ๊ธฐ์กด ๋น„์šฉ ํ•จ์ˆ˜
cost = ...

# L2 ๊ทœ์ œ๋ฅผ ์ ์šฉํ•œ ๋น„์šฉ ํ•จ์ˆ˜
l2_regularization = alpha * (w1**2 + w2**2 + ... + wn**2)
cost_with_l2 = cost + l2_regularization

 

 

Deep Learning์—์„œ ์ด ๊ทœ์ œ๋“ค์ด ์–ด๋–ป๊ฒŒ Overfitting์„ ๋ง‰์•„์ฃผ๋Š” ๊ฒƒ์ผ๊นŒ?

 

์˜ˆ๋ฅผ ๋“ค์–ด L1 ๋˜๋Š” L2 ๊ทœ์ œ๋ฅผ ๊ฐ•ํ•˜๊ฒŒ ๊ฐ€ํ•˜๊ฒŒ ๋˜๋ฉด W๊ฐ’์„ 0๋˜๋Š” 0์— ๊ฐ€๊นŒ์šด ๊ฐ’์œผ๋กœ ๋งŒ๋“ค๊ธฐ ๋•Œ๋ฌธ์— Hidden Layer์˜ Unit๋“ค์˜ ์˜ํ–ฅ์„ 0์œผ๋กœ ๋งŒ๋“ค๊ธฐ ๋•Œ๋ฌธ์— ์‹ ๊ฒฝ๋ง์„ ๊ฐ„๋‹จํ•˜๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค. (* L2์˜ ๊ฒฝ์šฐ 0์ด ์•„๋‹ˆ๋ผ 0์— ๊ฐ€๊นŒ์šด ๊ฐ’์ด๋ฏ€๋กœ hidden unit์˜ ์˜ํ–ฅ์ด ์ค„์–ด๋“ ๊ฒƒ์ด๊ณ  ์‚ฌ์šฉ ์•ˆํ•˜๋Š” ๊ฒƒ์€ ์•„๋‹˜!)

์ถœ์ฒ˜ : https://www.baeldung.com/cs/hidden-layers-neural-network

 

 

Dropout Regularization

ํ›ˆ๋ จ๊ณผ์ •์—์„œ ์‹ ๊ฒฝ๋ง์˜ ์ผ๋ถ€ ๋‰ด๋Ÿฐ์„ ๋ฌด์ž‘์œ„๋กœ ์„ ํƒํ•˜์—ฌ ์ œ์™ธํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•œ๋‹ค.(L2 ์ •๊ทœํ™”์™€ ๋น„์Šทํ•˜๊ฒŒ ๋™์ž‘)

์ด๋Š” ๊ฐ ๋‰ด๋Ÿฐ์ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๋…๋ฆฝ์ ์œผ๋กœ ๊ธฐ์—ฌํ•˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋œ๋‹ค. 

 

์ฃผ๋กœ Computer Vision(๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ๊ฐ€ ์ผ๋ฐ˜์ ์ด๋ฏ€๋กœ Overfitting์ด ๊ฑฐ์˜ ํ•ญ์ƒ ์ผ์–ด๋‚จ)๋œ๋‹ค.

 

์‹ ๊ฒฝ๋ง์˜ ๋‰ด๋Ÿฐ๋“ค์— ์˜์กดํ•˜์ง€ ์•Š๊ณ  ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ๋ถ€๋ถ„์ง‘ํ•ฉ์œผ๋กœ ์ž‘๋™ํ•˜๋„๋ก ์œ ๋„๋œ๋‹ค.

  • ์‹ ๊ฒฝ๋ง์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ํ–ฅ์ƒ์‹œํ‚ด.
  • ์—ฌ๋Ÿฌ๊ฐ€์ง€ ํŠน์ง•์„ ๊ณจ๊ณ ๋ฃจ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋„์™€์คŒ.

 

์ผ๋ฐ˜์ ์œผ๋กœ ํ›ˆ๋ จ๊ณผ์ •์—์„œ๋งŒ ์ ์šฉ๋˜๋ฉฐ ํ›ˆ๋ จ ์ข…๋ฃŒ ํ›„์—๋Š” ๋“œ๋กญ์•„์›ƒ์„ ๋น„ํ™œ์„ฑํ™”ํ•˜๊ณ  ๋ชจ๋“  ๋‰ด๋Ÿฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

ํ•˜์ง€๋งŒ, ์ ์ ˆํ•œ ๋น„์œจ๊ณผ ์‚ฌ์šฉ๋ฐฉ๋ฒ•์€ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ผ ๋‹ค๋ฅด๋ฏ€๋กœ ์ ์ ˆํžˆ ์‚ฌ์šฉํ•ด์•ผ ํ•œ๋‹ค.

 

Dropout, ์ถœ์ฒ˜ : Ki's Blog

 

๋‹จ์ 

  • Cross-validation์—์„œ ์„ค์ •ํ•ด์•ผํ•  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์ฆ๊ฐ€ํ•œ๋‹ค.
  • Cost Function J๊ฐ€ ๋ช…ํ™•ํ•˜๊ฒŒ ์ •์˜(๋ฐ˜๋ณต ๋งˆ๋‹ค ๋…ธ๋“œ๋ฅผ ๋ฌด์ž‘์œ„๋ฅผ ์ œ๊ฑฐํ•˜๊ธฐ ๋•Œ๋ฌธ)๋˜์ง€ ์•Š๋Š”๋‹ค.
  • Gradient Descent ์„ฑ๋Šฅ์„ ๋”๋ธ” ์ฒดํฌํ•˜๊ธฐ ์–ด๋ ต๋‹ค.

 

 

Data augmentation

๋ฐ์ดํ„ฐ๊ฐ€ ๋น„์‹ธ๊ณ  ์ˆ˜์ง‘ํ•˜๊ธฐ ์–ด๋ ค์šด ๊ฒฝ์šฐ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ์›๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ์กฐ๊ธˆ์”ฉ ์ˆ˜์ •ํ•ด์„œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

ex. ์ด๋ฏธ์ง€๋ฅผ ๋’ค์ง‘๊ธฐ, ํšŒ์ „, ์ฐŒ๊ทธ๋Ÿฌ๋œจ๋ฆฌ๊ธฐ, ์คŒ์ธ ๋“ฑ์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์ƒ์„ฑ

 

์ด ๋ฐฉ๋ฒ•์€ ํฐ ๋น„์šฉ ์—†์ด overfitting์„ ์ค„์ด๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

 

 

Early Stopping

Gradient Descent๋ฅผ ์‹คํ–‰ํ•˜๋ฉด์„œ Training Set Error๋‚˜ Cost function๊ณผ Dev set error ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ ค W๊ฐ€ middle-size์ผ ๋•Œ ์ค‘๋‹จ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. 

  • ํ•™์Šต์„ ํ•˜๋ฉด W๋Š” ์ฆ๊ฐ€ํ•˜๊ฒŒ๋˜๋Š”๋ฐ W์˜ ๋น„์œจ์ด ์ค‘๊ฐ„ ์ •๋„๋˜๋Š” ์ง€์ ์— ์ค‘์ง€ํ•œ๋‹ค.
  • ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์˜ ์†์‹ค์ด ์ผ์ • ๊ธฐ๊ฐ„ ๋™์•ˆ ๊ฐ์†Œํ•˜์ง€ ์•Š๊ฑฐ๋‚˜ ์ฆ๊ฐ€ํ•˜๊ธฐ ์‹œ์ž‘ํ•˜๋Š” ๊ฒฝ์šฐ ํ›ˆ๋ จ์„ ์กฐ๊ธฐ ์ข…๋ฃŒํ•œ๋‹ค.

 

ํ›ˆ๋ จ ์‹œ๊ฐ„๊ณผ ๋ฆฌ์†Œ์Šค๋ฅผ ์ ˆ์•ฝํ•  ์ˆ˜ ์žˆ๋Š” ์ •๊ทœํ™” ๋ฐฉ๋ฒ•์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, ์ตœ์ ํ™”๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ํ•˜์ง€ ๋ชปํ•˜๊ณ  Cost Function์„ ๋”์ด์ƒ ์ค„์ผ ์ˆ˜ ์—†์œผ๋ฏ€๋กœ ์ดํ›„ ์ตœ์ ํ™”๋ฅผ ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋“ค์„ ๋” ๋ณต์žกํ•˜๊ฒŒ ํ•˜๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค.

 

 

 

 

Practical Aspects of Deep Learning.ipynb

Colaboratory notebook

colab.research.google.com

 

728x90
๋ฐ˜์‘ํ˜•

'AI > Coursera' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[Coursera] 6. Opitmization  (0) 2023.12.31
[Coursera] 5. Optimization Problem  (0) 2023.12.28
[Coursera] 3. Gradient Descent  (0) 2023.12.27
[Coursera] 2. Logistic Regression  (0) 2023.12.17
[Coursera] 1. Neural Network  (0) 2023.08.28