본문 바로가기

728x90
반응형

AI/기계학습(Machine Learning)

(16)
[기계학습/ML]16. SVM(Support Vector Machine) 서포트 벡터 머신 SVM(Support Vector Machine)이란? SVM은 선형이나 비선형 분류, 회귀, 이상치 탐색 등에 사용 가능한 다목적 머신러닝 모델이다. 분류에 적용 라지 마진 분류(Large Margin Classification)에 해당한다. 클래스를 구분 짓는 가장 폭이 넓은 도로 찾기 서포트 벡터(Support Vector) : 도로 경계(결정 경계)에 위치한 샘플 ex. 붓꽃 데이터의 분류 특성 스케일에 민감하다. 특성 스케일링을 통해 더 나은 결정 경계(SV) 생성이 가능하다. ex. 스케일링에 따른 결정 경계 차이 비선형 SVM 분류 - 하드 마진 분류 모든 샘플이 경계(Support Vector) 밖에 분류 되어야 한다. 마진 오류 = 0 이상치에 민감하다. 서포트 벡터를 찾지 못할 수도 있..
[기계학습/ML]15. 비지도학습 - 주성분 분석 Pupbani는 과일 분류 비지도학습 모델을 완성하였다. 하지만 이 모델을 사용하여 분류한 사진들을 저장하다보니 용량이 너무 많아져 저장 공간이 부족해졌다. 마케팅 팀장은 Pupbani에게 나중에 분류에 영향을 끼지지 않으면서 업로드된 사진의 용량을 줄이는 방법은 없을까 하고 물어 봤다. Pupbani는 그 질문에 차원축소를 사용해보겠다고 답한 후 차원축소 알고리즘을 작성하러 떠났다. 차원과 차원축소 지금까지 우리는 데이터가 가진 속성을 특성이라고 불렀다. 과일 사진의 경우 10,000개의 픽셀(100 x 100)이 있기 때문에 10,000개의 특성이 있다고 생각하면 된다. 머신러닝에서는 이러한 특성을 차원(dimension)이라고도 부른다. 차원의 저주(Curse of Dimentionality) 1차..
[기계학습/ML]14. 비지도학습 - K-평균(K-Means) Pupbani는 샘플의 이름 즉 타깃값을 모르는 상태에서의 분류를 하는 방법을 고민하다가 방법을 찾아 냈다. 바로 K-평균 군집 알고리즘이다. 평균값을 자동으로 찾아준다. 평균값은 군집의 중심에 존재한다. 이를 "클러스터 중심(Cluster Center)" 또는 "센트로이드(Centroid)" 라고 부른다. K-평균을 사용해서 비지도학습 모델을 만들어보자. K-Means 동작 방식은 다음과 같다. 무작위로 K갱의 클러스터 중심을 정한다. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정한다. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경한다. 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복한다. 이제 K-Means 모델을 직접 만들어보자. 먼저 300개의 과일 ..
[기계학습/ML]13. 비지도학습 - 군집(Clustering) Pupbani가 다니는 회사인 물꼬기는 이번에 새로운 비즈니스 진출을 하기로 결정했다. 그것은 바로 농산물 판매 마켓이였다. 마케팅 팀은 개업 기념으로 새로운 이벤트를 기획하고 있는데 내용은 다음과 같다. 고객이 마켓에서 사고 싶은 과일 사진을 보내면 그 중 가장 많은 요청을 받은 과일 판매하려고 한다. 1위로 선정된 과일 사진을 보낸 고객 중 몇명을 뽑아 당첨자로 선정할 것 이다. 마케팅 팀 박팀장은 Pupbani에게 고객이 보낸 사진들을 분류하는 머신러닝을 만들어달라고 요청했다. Pupbani는 이 문제를 어떻게 해결해야 할까 고민이 깊어졌다.... Target을 모르는 비지도 학습 타겟을 모를 때 데이터들을 종류별로 분류하는 머신러닝 알고리즘이 있다. 바로 "비지도 학습(Unsupervised Le..
[기계학습/ML]12. 앙상블 학습 - 랜덤 포레스트, 엑스트라 트리, 그레이디언트 부스팅 박 팀장이 Pupbani를 불렀다. "이사님이 베스트 머신러닝 알고리즘을 보고 하라 하시네요.." "랜덤 포레스트를 사용해봐!!" Pupbani는 박 팀장이 말한 랜덤 포레스트를 한번 해보기로 했다. 정형 데이터(Structured data) 쉽게 말해 어떤 구조로 되어 있다는 뜻 csv, 데이터베이스, 엑셀에 저장하기 좋다. 앙상블 학습(Ensemble Learning) 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘이다. 랜덤 포레스트, 엑스트라 트리, 그레이디언트 부스팅 등 비정형 데이터(Unstructured data) 정형 데이터와 반대되는 데이터 책의 글, 텍스트 데이터, 디지털카메라로 찍은 사진, 핸드폰으로 듣는 디지털 음악 등 신경망 알고리즘에 사용한다. 랜덤 포레스트(Rando..

728x90
반응형