outlier판별
-
[Python] Outlier(이상치) 찾기 , 마할라노비스 거리 (이론)Programming/Python 2022. 12. 28. 12:23
이상치에 대해 정리된 문서 이상치 탐색을 위한 통계적 방법과 활용 방안.pdf (hira.or.kr) 내가 사용하는 알고리즘에서 outlier를 계산하는 부분의 문제를 발견하였다. 위의 그림에서 맨 밑의 파란 점(outlier)을 제거하면 주황색 선이 더 효율적인 모양으로 바뀔 것이다. 그래서 나는 처음에 z-score라는 방법으로 outlier를 계산했었다. 위 그림처럼 z-score값을 그래프로 나타낸 후, 내가 지정한 threshold값을 넘는 것을 outlier로 판단하였다. 그런데! 여기서 문제가 발생했다. 아래 그림을 보자. 이러한 케이스에서 가로축 60에 가까운 데이터들이 전부 outlier로 판단되는 상황이 발생하였다. 물론 이 상황은 내가 원하던 게 아니다. 그래프의 경향에서 크게 벗어난..