본문 바로가기

728x90
반응형

AI

(95)
[기계학습/ML]10. 트리알고리즘 - 결정트리 '물꼬기'에서 근무하던 Pupbani는 같은 계열사인 '와인판다'로 파견을 가게 되었다. 와인판다에서는 신제품으로 캔와인을 만들어서 팔기로 했는데 너무 급하게 만들다보니 레드, 화이트 와인 표시가 누락되었습니다. 신팀장은 Pupbani를 불러 다음과 같이 말했습니다. "캔에 인쇄된 알코올 도수, 당도, pH 값으로 와인 종류를 구별하는 머신러닝 프로그램을 만들어주세요." "품질 확인용으로 뜯은 캔들도 있기 때문에 데이터는 충분할겁니다." Pupbani는 로지스틱 회귀 모델을 적용해보기로 했다. 데이터 준비 pandas 라이브러리를 통해 데이터를 불러왔다. 데이터가 누락된 값이 있는지 확인해보자 - info() 메서드 데이터 열에 대한 간단한 통계를 알아보자 - describe() 메서드 mean : 평균..
[기계학습/ML]9. 확률적 경사 하강법 - 손실 함수, 에포크 마켓 "물꼬기"는 럭키백 이벤트를 오픈하고 매출이 껑충 뛰었다. 이제 각지에서 수산물을 공급하겠다고 합니다. 영업팀은 이제 Pupbani에게 7개의 생선 중에서 일부를 무작위로 제공해 머신러닝 모델을 학습할 수 있도록 하고 있다. 하지만 수산물을 제공하는 기관이 많아 샘플을 골라내는 일이 너무 힘들다. 어느 생선이 먼저 올지도, 모든 생선이 도착할 때까지 기다릴 수도 없다. 어떻게 해야할까...? 점진적인 학습 기존의 훈련 데이터에 새로운 데이터를 추가하여 모델을 새로 훈련한다면? 시간이 지남에 따라 데이터의 크기가 엄청 늘어나서 모델 훈련을 위한 서버를 늘려야하기 때문에 사용할 수 없다. 이전 데이터를 버리고 훈련 데이터 크기를 일정하게 유지한다면? 데이터 셋의 크기가 늘어나지는 않지만 데이터를 버릴 ..
[기계학습/ML]8. 회귀 알고리즘(3) - 로지스틱 회귀 이제 Pupbani는 회귀 문제를 다룰 수 있고 특성값을 전처리하거나 특성을 조합해 새로운 특성을 만들 수 있게 되었다. 어느날 마케팅 팀에서 Pupbani에게 다음과 같은 요청을 했다. "7개의 생선이 랜덤하게 들어 있는 럭키백 이벤트를 진행할 것인데 이 럭키백에 있는 생선들이 나올 확률을 구해주세요!" "생선의 무게 ,길이, 높이, 두께, 대각선 길이 데이터도 같이 드릴게요!" Pupbani는 새로운 과제에 대해 생각에 잠겼다. 갑자기 번뜩이는 아이디어가 떠올랐다. K-최근접 이웃은 주변 이웃을 찾아주니까 이웃의 클래스 비율을 확률이라고 출력하면 되지 않을까? 사각형이 나올 확률 30% 원이 나올 확률 20% 삼각형이 나올 확룰 50% 사이킷런의 K-최근접 이웃 분류기로 하면 될 것 같다. 데이터 준..
[기계학습/ML]7. 회귀 알고리즘(2) - 다중 회귀, 릿지(Ridge), 라쏘(Lasso) Pupbani는 다항 회귀로 농어의 무게를 어느 정도 예측할 수 있었다. 하지만 모델이 과소적합이 된 것이 자꾸 신경쓰였다. 이러한 문제점을 해결하려면 제곱보다 고차항을 넣어야하는데 얼만큼 고차항을 넣어야하는지 모르겠고 수동으로 넣는 것도 힘들었다. 그래서 정 선배에게 물어보기로 했다. 정 선배는 다음과 같은 답변을 주었다. "길이 데이터만 사용하니까 그렇지! 선형 회귀는 특성이 많을 수록 더 좋다고 ~" "높이, 두꼐, 길이를 모두 함께 다항 회귀에 적용해봐" Pupbani는 선배의 말대로 해보기로 했다. 다중 회귀(Multiple Regression) 다중 회귀는 기존에 사용했던 회귀 모델 처럼 1개의 특성을 쓰는 것이 아니라 여러 개의 특성을 사용하는 모델이다. 특성의 개수에 따라 모델이 학습하는 ..
[기계학습/ML]6. 회귀 알고리즘(1) - K-최근접 이웃 회귀, 선형회귀 박팀장은 도미와 빙어를 성공적으로 분류한 Pupbani에게 다음과 같은 머신러닝 프로그램을 만들라고 했다. "농어의 길이, 높이, 두께 데이터로 농어의 무게를 예측할 수 있는 프로그램을 만들어 주세요." "농어의 무게를 정확하게 측정한 샘플 56개, 농어의 길이, 높이, 두께를 측정한 데이터를 보내줄게요." "이렇게 예측하는 문제를 회귀 문제라고 하더 군요. 부탁합니다." 회귀라는 단어에 힌트를 얻어서 머신러닝 프로그램을 작성해보자. 회귀(Regression) 지도학습은 크게 분류와 회귀로 나뉜다. 분류는 이전에 했던 방식으로 말 그대로 샘플을 몇 개의 클래스 중 하나로 분류하는 것이다. 회귀는 임의의 어떤 숫자를 예측하는 문제이다. 예를 들어 배달이 도착할 시간을 예측하는 것 두 변수 사이의 상관관계를..

728x90
반응형