본문 바로가기

728x90
반응형

AI

(95)
[기계학습/ML]15. 비지도학습 - 주성분 분석 Pupbani는 과일 분류 비지도학습 모델을 완성하였다. 하지만 이 모델을 사용하여 분류한 사진들을 저장하다보니 용량이 너무 많아져 저장 공간이 부족해졌다. 마케팅 팀장은 Pupbani에게 나중에 분류에 영향을 끼지지 않으면서 업로드된 사진의 용량을 줄이는 방법은 없을까 하고 물어 봤다. Pupbani는 그 질문에 차원축소를 사용해보겠다고 답한 후 차원축소 알고리즘을 작성하러 떠났다. 차원과 차원축소 지금까지 우리는 데이터가 가진 속성을 특성이라고 불렀다. 과일 사진의 경우 10,000개의 픽셀(100 x 100)이 있기 때문에 10,000개의 특성이 있다고 생각하면 된다. 머신러닝에서는 이러한 특성을 차원(dimension)이라고도 부른다. 차원의 저주(Curse of Dimentionality) 1차..
[기계학습/ML]14. 비지도학습 - K-평균(K-Means) Pupbani는 샘플의 이름 즉 타깃값을 모르는 상태에서의 분류를 하는 방법을 고민하다가 방법을 찾아 냈다. 바로 K-평균 군집 알고리즘이다. 평균값을 자동으로 찾아준다. 평균값은 군집의 중심에 존재한다. 이를 "클러스터 중심(Cluster Center)" 또는 "센트로이드(Centroid)" 라고 부른다. K-평균을 사용해서 비지도학습 모델을 만들어보자. K-Means 동작 방식은 다음과 같다. 무작위로 K갱의 클러스터 중심을 정한다. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정한다. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경한다. 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복한다. 이제 K-Means 모델을 직접 만들어보자. 먼저 300개의 과일 ..
[기계학습/ML]13. 비지도학습 - 군집(Clustering) Pupbani가 다니는 회사인 물꼬기는 이번에 새로운 비즈니스 진출을 하기로 결정했다. 그것은 바로 농산물 판매 마켓이였다. 마케팅 팀은 개업 기념으로 새로운 이벤트를 기획하고 있는데 내용은 다음과 같다. 고객이 마켓에서 사고 싶은 과일 사진을 보내면 그 중 가장 많은 요청을 받은 과일 판매하려고 한다. 1위로 선정된 과일 사진을 보낸 고객 중 몇명을 뽑아 당첨자로 선정할 것 이다. 마케팅 팀 박팀장은 Pupbani에게 고객이 보낸 사진들을 분류하는 머신러닝을 만들어달라고 요청했다. Pupbani는 이 문제를 어떻게 해결해야 할까 고민이 깊어졌다.... Target을 모르는 비지도 학습 타겟을 모를 때 데이터들을 종류별로 분류하는 머신러닝 알고리즘이 있다. 바로 "비지도 학습(Unsupervised Le..
[기계학습/ML]12. 앙상블 학습 - 랜덤 포레스트, 엑스트라 트리, 그레이디언트 부스팅 박 팀장이 Pupbani를 불렀다. "이사님이 베스트 머신러닝 알고리즘을 보고 하라 하시네요.." "랜덤 포레스트를 사용해봐!!" Pupbani는 박 팀장이 말한 랜덤 포레스트를 한번 해보기로 했다. 정형 데이터(Structured data) 쉽게 말해 어떤 구조로 되어 있다는 뜻 csv, 데이터베이스, 엑셀에 저장하기 좋다. 앙상블 학습(Ensemble Learning) 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘이다. 랜덤 포레스트, 엑스트라 트리, 그레이디언트 부스팅 등 비정형 데이터(Unstructured data) 정형 데이터와 반대되는 데이터 책의 글, 텍스트 데이터, 디지털카메라로 찍은 사진, 핸드폰으로 듣는 디지털 음악 등 신경망 알고리즘에 사용한다. 랜덤 포레스트(Rando..
[기계학습/ML]11. 검증 세트 - 교차 검증, 그리드 서치 Pupbani와 신팀장의 보고를 받은 이사님은 다음과 같은 질문을 던졌다. max_depth를 3말고 다른 값으로 하면 성능이 달라지나요?" "네" 라고 Pupbani가 대답했다. "이런저런 값으로 모델을 많이 만들어서 테스트 세트로 평가하면 결국 테스트 세트에 잘 맞는 모델이 만들어지는게 아닌가요?" Pupbani는 그 말을 듣고 기존에 했던 작업들을 돌아봤다. 훈련 세트에서 모델을 훈련하고 테스트 세트에서 모델을 평가했다. 이렇게 평가된 점수를 보고 일반화 성능을 가늠했다. 그런데 이렇게 테스트 세트를 자꾸 사용해서 성능을 확인하다보면 결국 모델을 테스트 세트에 맞추게 되는 셈입니다. 올바른 모델 개발을 위해 테스트 세트는 모델을 만들고 나서 마지막에 딱 한 번만 사용하는 것이 좋다. 그렇다면 어떻게..

728x90
반응형