๐ฅ Coursera์ "Neural Networks and Deep Learning" ๊ฐ์ข์ ๋ด์ฉ์ ๋ฐฐ์ฐ๋ฉด์ ๊ฐ์ธ์ ์ผ๋ก ์ ๋ฆฌํ ๋ด์ฉ์
๋๋ค.
๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ ๋น์ฉ ํจ์(Cost Function)์ ์ต์๊ฐ์ ๊ตฌํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ ์ค์ ๋ก ๋จธ์ ๋ฌ๋์์ ๋ชจ๋ ๊ณณ์์ ์ฌ์ฉ์ค์ด๋ค.
๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์งํํ๋ ๊ณผ์
1. θ์ ๋ํด ์์์ ์ด๊ธฐ๊ฐ(์์์ )์ ์ก๋๋ค.
2. J๊ฐ ์ต์๊ฐ ๋ ๋ ๊น์ง θ๊ฐ ๊ฐฑ์ ์ ๋ฐ๋ณตํ์ฌ ์ต์๊ฐ์ ๋๋ฌํ์ ๋์ θ๋ฅผ ์ฐพ๋๋ค.
๋ฏธ๋ถ ๊ฐ์ ๋ํด
๊ฒฝ์ฌํ๊ฐ๋ฒ์์ ๋ฏธ๋ถ ๊ฐ์ ๋น์ฉ ํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋ํ๋ธ๋ค.
๋น์ฉ ํจ์์ ๊ธฐ์ธ๊ธฐ๋ ํ์ฌ ํ๋ผ๋ฏธํฐ์์ ๋น์ฉ ํจ์์ ๋ณํ์จ์ ๋ํ๋ด๋ฉฐ, ๊ฒฝ์ฌ์ ๋ฐฉํฅ๊ณผ ํฌ๊ธฐ๋ฅผ ๊ฒฐ์ ํ๋ค.
๊ธฐ์ธ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ๋น์ฉ ํจ์๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๋ค.
α๊ฐ ์์๊ฐ์ด๋ผ๋ฉด θ(=w)๊ฐ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐฑ์ ๋๋ฉด์ ์ต์๊ฐ์ ๋๋ฌํ๊ฒ ๋ ๊ฒ์ด๋ค.
θ์ ๊ฐฑ์ ์ ๊ธฐ์ธ๊ธฐ ํ๊ฐ๊ณผ ๊ธฐ์ธ๊ธฐ ์์น ๋๊ฐ์ง๋ก ๋๋๋ค.
1. ๋์นญ์ถ์ ๊ธฐ์ค์ผ๋ก ์ค๋ฅธ์ชฝ ์์ญ์ ํ ์ง์ ์ ์ด๊ธฐ๊ฐ์ผ๋ก ์ค์ ํ ๊ฒฝ์ฐ
- ์ค๋ฅธ์ชฝ ์์ญ์ ๊ธฐ์ธ๊ธฐ(๋ฏธ๋ถ๊ฐ)๋ ์์
- ๊ฐฑ์ ์ θ๋ ๊ฐ์ํ์ฌ ์ต์๊ฐ ์ง์ ์ผ๋ก ์ด๋
2. ๋์นญ์ถ์ ๊ธฐ์ค์ผ๋ก ์ผ์ชฝ ์์ญ์ ํ ์ง์ ์ ์ด๊ธฐ๊ฐ์ผ๋ก ์ค์ ํ ๊ฒฝ์ฐ
- ์ค๋ฅธ์ชฝ ์์ญ์ ๊ธฐ์ธ๊ธฐ(๋ฏธ๋ถ๊ฐ)๋ ์์
- ๊ฐฑ์ ์ θ๋ ์ฆ๊ฐํ์ฌ ์ต์๊ฐ ์ง์ ์ผ๋ก ์ด๋
์ด๋ฌํ ์ด์ ๋ก ๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ์์๋ ์ด๊ธฐ๊ฐ์ ์ด๋๋ก ์ค์ ํ๋ ๊ฒฐ๊ตญ์ ์ต์๊ฐ์ผ๋ก ์ด๋ํ๊ฒ๋๋ค.
Learning Rate(ํ์ต ์๋)
Learning Rate๋ ๊ฐฑ์ ์๋๋ฅผ ์กฐ์ ํ๋ค. Learning Rate๊ฐ ์๋ค๋ฉด ๊ฐฑ์ ์ ์์ฃผ ์กฐ๊ธ ์ด๋ํ๊ณ ํฌ๋ค๋ฉด ์์ฃผ ๋ง์ด ์ด๋ํ๋ค.
๊ทธ๋ฆผ์ ํตํด ์์ธํ ์์๋ณด์.
Learning Rate๊ฐ ์ง๋์น๊ฒ ์์ ๊ฒฝ์ฐ ์ต์๊ฐ์ ๋๋ฌํ๊ธฐ ์ํด ๋ง์ ์ฐ์ฐ์ด ์๊ตฌ๋๋ค.
Learning Rate๊ฐ ์ง๋์น๊ฒ ํฌ๋ค๋ฉด ์ต์๊ฐ์ ๋๋ฌํ๊ธฐ ์ํด ๋ฐ๋ํธ์ ์ค๊ฐ๋ฉฐ ๋งค์ฐ ํฐ ๊ฑฐ๋ฆฌ๋ฅผ ์ด๋ํ๋ฉฐ ์ต์๊ฐ์์ ์ ์ ๋ฉ์ด์ง๋ค.
์ด ๋๊ฐ์ง ๊ฒฝ์ฐ๊ฐ ์๊ธฐ ๋๋ฌธ์ ์ ์ ํ Learning Rate๋ฅผ ์ค์ ํ๋ ๊ฒ์ ๋งค์ฐ ์ค์ํ๋ค.
w(= θ)์ ์๋ ด ์กฐ๊ฑด
๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ด ๋ฉ์ถ๋ ์กฐ๊ฑด(์๋ ด ์กฐ๊ฑด)์ ๋ํด ์์๋ณด์.
๊ทน์ ์์ ํจ์๋ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด๋ฏ๋ก w๊ฐ ์ต์๊ฐ์ ๋๋ฌํ๋ค๋ฉด ํด๋น ์ง์ ์์ ๋ฏธ๋ถ๊ฐ์ด 0์ผ ๊ฒ์ด๊ณ ์ด ๊ฒฝ์ฐ ๋ฐ๋ก ์ง์ ์ ๊ฐ๊ณผ ๊ฐฑ์ ๊ฐ ์ฌ์ด์ ๋ณํ๊ฐ ์์ ๊ฒ์ด๋ค. ์ด๋๊ฐ Cost Function์ด ์ต์๊ฐ ๋๋ ๊ฒฝ์ฐ์ด๊ธฐ ๋๋ฌธ์ ๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ด ๊ฐฑ์ ์ ๋ฉ์ถ๊ฒ๋๋ค.
Local Optima
๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ Cost Function์ด ์ต์๊ฐ๋๋ ๊ฒฝ์ฐ ๊ฐฑ์ ์ ๋ฉ์ถ๋ค. ํ์ง๋ง ์ด ๋ฉ์ถ๋ ๊ณณ์ด ๋ฐ๋์ ์ฐ๋ฆฌ๊ฐ ์ฐพ๋ Global Optima๊ฐ ์๋ ์ ์๋ค.
๊ทธ ๊ฒฝ์ฐ๋ Local Optima์ ๋๋ฌํ์ ๊ฒฝ์ฐ์ธ๋ฐ ์ด ๊ฒฝ์ฐ๋ ์ต์๊ฐ์ด ๋ ์กด์ฌํ์ง๋ง ๊ฐฑ์ ์ ๋ ์งํํ ๊ฒฝ์ฐ Loss๊ฐ ๋์ด๋๊ธฐ ๋๋ฌธ์ ์๊ณ ๋ฆฌ์ฆ์ด ๊ฐฑ์ ์ ๋ฉ์ถ๋ ๊ฒฝ์ฐ์ด๋ค.
Local Optima์ ๋น ์ง๋ ๊ฒฝ์ฐ๋ Optimization์ ์๋ชปํ ๊ฒฝ์ฐ์ด๋ค. ๊ฒฝ์ฌ ํ๊ฐ์ ์ด๊ธฐ ์ง์ ๋ถํฐ Global Optima๋ก ์ด๋ํ๋ ๋์ค์ Local Optima์ ๋๋ฌํ๊ธฐ ๋๋ฌธ์ด๋ค.
ํ์ง๋ง ์์ฆ trend์ ์ํ๋ฉด ์ค์ ๋ฅ๋ฌ๋์์ Local Optima์ ๋น ์ง ํ๋ฅ ์ด ๊ฑฐ์ ์๊ธฐ ๋๋ฌธ์ Local Optima ํด๊ฒฐ์ ์ํด Optimization์ ํ ์ด์ ๊ฐ ์๋ค๊ณ ํ๋ค.
- ๋น์ ํ์ฑ : ๊ฐ์ค์น ๊ณต๊ฐ์์ ๋ง์ Local Optima๋ฅผ ๊ฐ์ง ์ ์์ผ๋, Cost Function์ ๋๋ถ๋ถ ๋ณต์กํ๊ณ ๋ค์ฐจ์์ ์ธ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ์ค์ ๋ก Local Optima์ ๋น ์ง๋ ๊ฒฝ์ฐ๋ ๋๋ฌผ๋ค.
- ์ด๊ธฐํ์ ๋ค์ํ ํด ํ์ : ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ ์ด๊ธฐ์ ๋ฌด์์๋ก ์ด๊ธฐํ๋๊ณ ์ด ๊ฐ์ค์น๋ ๋ค์ํ ํด ๊ณต๊ฐ์ ํ์ํ๋ฉฐ ๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ด Local Optima์ ๋น ์ง๋ ๊ฐ๋ฅ์ฑ์ ์ค์ธ๋ค.
- ํ์ค ์์ฝ : w๊ฐ ๋งค์ฐ ๋ง์(cost function์ ์ฐจ์์ด ํผ), ๋ชจ๋ ์ฐจ์์ ๋ํด w๋ฅผ ๋ฏธ๋ถํ์ ๊ฒฝ์ฐ ์์์ฌ์ผ ํจ(๋ชจ๋ w๊ฐ local optima์ ๋น ์ง), ์ด ๊ฐ๋ฅ์ฑ์ ๋งค์ฐ ํฌ๋ฐํจ.
Plateau ๋ฌธ์
ํ์ต ๊ณผ์ ์์ Cost Function์ด ๋ ๊ฐ์ํ์ง ์๊ณ ์ผ์ ํ ์์ค์์ ์ ์ฒด๋๋ ํ์์ ๋งํ๋ค.
(์ฆ, ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํด๋ Cost Function์ ๊ฐ์ด ๊ฑฐ์ ๋ณํ์ง ์๋ ์ํ)
์ด ๋ฌธ์ ๋ Local Optima์ ๋ค๋ฅด๊ฒ ๊ณ ๋ฏผํด๋ด์ผ ํ ๋ฌธ์ ์ด๋ค.
๋ฐ์ํ๋ ์ํฉ์ ๋ค์๊ณผ ๊ฐ๋ค.
- Local Optima: ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ local optima์ ๋น ์ง ์ ์์ผ๋ฉฐ, ์ด ๊ฒฝ์ฐ ๋น์ฉ ํจ์๊ฐ ๋ ์ด์ ๊ฐ์ํ์ง ์๊ณ ์ ์ฒด๋ ์ ์๋ค. ์ง์ญ ์ต์ ํด์ ๊ฐํ ๊ฒฝ์ฐ global optimum๋ก ์๋ ดํ์ง ๋ชปํ๊ณ ํ๋ผํ ์ํ์ ๋น ์ง ์ ์๋ค.
- ํ์ต๋ฅ : ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์์ ํ์ต๋ฅ (learning rate)์ ๊ฐ์ค์น ์ ๋ฐ์ดํธ์ ํฌ๊ธฐ๋ฅผ ๊ฒฐ์ ํ๋ ์์์ด๋ค. ํ์ต๋ฅ ์ด ๋๋ฌด ์์ผ๋ฉด ์ ๋ฐ์ดํธ๊ฐ ๋๋ฌด ๋๋ฆฌ๊ฒ ์ด๋ฃจ์ด์ง๊ณ , ํ์ต๋ฅ ์ด ๋๋ฌด ํฌ๋ฉด ๋ฐ์ฐํ ์ ์์ต๋๋ค. ์ ์ ํ ํ์ต๋ฅ ์ ์ ํํ์ง ๋ชปํ๋ฉด ํ๋ผํ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋ค.
- ๋ณผ๋กํ์ง ์์ ๋น์ฉ ํจ์: ๋น์ ํํ๊ฑฐ๋ ๋ค์ฐจ์์ ์ธ ๋น์ฉ ํจ์๋ ๋ณผ๋กํ์ง ์์ ์ ์๋ค. ์ด๋ฌํ ๋น์ฉ ํจ์์์๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ด ๋ณผ๋กํ ์์ญ์ ๊ฐํ ์ ์์ผ๋ฉฐ, ํ๋ผํ ์ํ์ ๋น ์ง ์ ์๋ค.
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์๋ Learning Rate๋ฅผ ์กฐ์ ํ๊ฑฐ๋ ๋ค๋ฅธ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๊ฑฐ๋ ์ด๊ธฐํ๋ฅผ ๋ค๋ฅด๊ฒ ์ค์ ํ์ฌ ๊ทน๋ณตํ ์ ์๋ค.
๋, ๊ฐ์ค์น ์กฐ๊ธฐํ, ๋ฐฐ์น ์ ๊ทํ, ํ์ต๋ฅ ์ค์ผ์ค๋ง ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ํ์ต ๊ณผ์ ์ ์์ ํ ์ํฌ ์ ์๋ค.
'AI > Coursera' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Coursera] 6. Opitmization (0) | 2023.12.31 |
---|---|
[Coursera] 5. Optimization Problem (0) | 2023.12.28 |
[Coursera] 4. Practical Aspects of Deep Learning (0) | 2023.12.27 |
[Coursera] 2. Logistic Regression (0) | 2023.12.17 |
[Coursera] 1. Neural Network (0) | 2023.08.28 |