[TIL] 혼공머 - 데이터 전처리

Computer Vision & AI/ML 2023. 5. 8. 21:47

둘이 비슷하지만 tuple은 수정이 불가능▶ 매개변수 값으로 사용됨

(책 95p 의 예시)

knn으로 모델을 훈련하고 특정 데이터를 넣었는데 예상치 못한 결과가 나왔다.

산점도를 봤을 때는 도미데이터에 가까워 보이는데, 결과는 빙어라고 나옴...

원인은!

x축과 y축의 단위가 달랐기 때문이다.

x축은 1단위이고 y축은 100단위라면, 같은 '길이'임에도 y축이 더 큰 값을 가지게 된다.

knn은 가장 가까운 n개의 데이터를 찾는데 가까운 것의 기준이 거리라면, y방향으로 떨어진 데이터의 거리 값은 크게 나온다.

이를 스케일이라고 한다.

알고리즘이 샘플 간의 거리의 영향을 받기 때문에, 특성값을 일정한 기준으로 맞춰줘야 한다

데이터 전처리 방법 중 하나,

Z-score (표준점수)

그래프의 모양은 원본과 동일하지만, 축의 값이 generation된다.

그래서 단위의 영향을 받지 않게된다. 오로지 평균값을 기준으로 데이터가 얼마나 떨어져있는지를 나타내는 값이 z-score이다.

오늘은 이론,

다음번에는 실습 예제 코드를 테스트 해봐야겠다.

_heyna의 작업실_ _heyna의 작업실_