ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 모두콘 - <딥러닝을 활용한 이상탐지> 세미나 후기
    Computer Vision & AI/ML 2023. 8. 23. 11:54

     

     

    이상치 탐지에 대해 관심이 있어서 패스트 캠퍼스 강의를 듣고 있었는데

    마침 모두콘 세미나에서 해당 주제를 다뤄서 참가하게 되었습니다!

    기록은 제 이해 기준이라 틀린 정보가 있을 수 있는 점 참고 부탁드립니다.

    회색 글씨는 제 추가 생각 입니다,.


     

     

    💡딥러닝을 활용한 이상탐지

    이동하 교수님 (연세대 인공지능학과)

     

     

     

    Data mining process

    : 사람에게 유용한 지식을 추출

    Data mining이란 
    대량의 데이터에서 유용한 정보와 패턴을 추출하고 분석하는 프로세스이다.
    (컴퓨터가 의미있는 계산을 할 수 있도록 의미 있는 정보를 추출한다.)

     

     

     

     

    Anomaly data 

    이상데이터도 다양하게 정의될 수 있다.

    (무엇을 이상데이터로 보느냐의 기준에 따라 달라짐)

    정상 데이터는 비슷한 특징을 가지고 있을 확률이 높다.

    = 데이터 분포에서 밀도가 낮은 지점에 위치한 데이터

     

    시계열에서는 정상 패턴에서 벗어난 경우, 그 구간을 anomalous하다고 봄.

     

    기대 행동에 순응하지 않는 데이터 패턴을 찾는 문제.

     

     

     

     

     

     

    Anomaly data와 Outlier data의 차이

    (비슷한 용어로 생각했는데 해당 개념을 제대로 정의하기 위해서 정확한 용어의 뜻을 파악할 필요가 있다.

    단, 연구자마다 용어 분류 차이가 난다

    이상데이터와 비정상데이터라고 번역하면 될까..? 한국어 번역에서도 주의를 기울여야 할 듯.)

    Anomaly data
    다른 데이터와 특성이 다른 데이터

    Outlier data
    대부분의 데이터와 본질적인 특성이 다른 데이터

    → outlier가 더 부정적인 데이터.
    예를 들어, 여러개의 고구마들이 있을 때 anomaly는 호박 고구마라면, outlier는 사과임.
    outlier는 분석에서 큰 영향을 미치기 때문에 미리 제거하는 것이 좋음.

    참고)

    Anomaly detection - 개요, 확률분포기반 (tistory.com)

     

    Anomaly detection - 개요, 확률분포기반

    Novelty vs Anomaly vs Outlier Novelty 데이터 : 데이터의 본질적인 특성은 같지만, 유형이 다른 관측치 일반 호랑이가 정상 데이터라고 할 때 백호 긍정의 의미를 가짐 Anomaly 데이터 : 대부분의 데이터와

    dive-into-ds.tistory.com

     

     

     

     

     

     

     

    Anomaly detection

    : 데이터 셋에서 일반적인 패턴에서 벗어난 이상 동작이나 사건을 식별하는 기술

     

     

    label을 사용할 수 있는지 없는지에 따라 큰 차이가 난다.

     

    Positive unlabeled 방법

    → PU 라고도 함. 실제 상황에서는 positive, negative가 모두 라벨링 된 케이스가 드물다.

    (이상 데이터가 미리 정의된 것이 아니므로.)

    unlabeled 데이터를 negative취급해서 P vs N으로 분류함.

     

     

    Weakly supervised 방법

    일부 이상 데이터에만 labeling이 된 경우

     

     

     

     

     

     

    💥Challenges

     

    Unseen Anomaly

    : 이전에 학습한 것과 다른 새로운 종류의 이상 패턴을 감지하기 어려움

    Unseen Anomaly의 Challenges
    1. Generalization : 어떻게 이전에 보지 못한 이상 패턴을 감지할 것인가? 일반화 능력을 갖춘 모델을 구현하기 어려움
    2. Labeling : 새로운 이상 패턴이 발생할 경우 다시 라벨링 하려면 비용이 발생함
    3. Data scarcity : 그런 패턴은 굉장히 드물게 나타남
    4. Adaption : 새로운 패턴이 나타날 때 적응하기 어려움

     

     

     

     

     

     

    What is nomal??

    : use normality score

     

     

    데이터 분포 → 가우시안 분포 → complex...

    (가우시안 분포는 아주 이상적인 모델이고, 실제 혼합 가우시간이나 kernel같은 very high case)

     

     

     

     

    DeepSVDD

    distance를 계산하고 이를 HyperSphere공간에서 표현

     

     

     

    Out of Distribution detection : OOD

    잠재공간으로 mapping시키는 함수. 선형이 아닌 구형 결정경계 사용.

    1. 반지름을 줄이도록 학습

    2. 경계에 있는 데이터가 소속된 클래스에 가깝도록 학습

    Classification & Anomaly detection 둘 다 잘 할 수 있도록

     

    softmax만으로는 불충분 → 원점 부근에 classification이 잘 안 됨.

    이런식으로 원점부근에 하얀색들이 뭉쳐서 분류가 잘 안 됨.

    출처)

    Review · Multi-Class Data Description for Out-of-distribution Detection · Daily AI Archive

     

    Review · Multi-Class Data Description for Out-of-distribution Detection

    Wrapping in-distribution samples into a hypersphere is better than separating them with a hyperplane

    dailyai.github.io

     

     

     

    교수님의 제안 방법

    하나의 이벤트를 특정해서 detecting함

    동적인 segmentation

    1. Anomaly score

    2. Segmentation mask

    DTW Alignment방법 사용

    DTW Alignment
    = Dynamic Time Warping
    시계열 데이터 간의 유사성을 측정하고 비교
    시간 축에 따라 변화하는 패턴 분석.

    Sequential Pseudo-label

    가장 중요한 시점을 찾음.

     

    (시계열 데이터 분석 발표를 보면서, 팀에서 진행하던 golf sound detection에 이런 방법을 적용해보면 좋겠다는 생각이 들었다. 고정 segment로 분할하면 너무 러프하게 잡힐 수 있고, sound데이터 특성 상 소리 파형이 한개만 발생하는게 아니고, 그렇다고 threshold 이상을 탐지하면 같은 소리 내에서 여러번 측정될 수 있는데 pseudo label방법을 적용하면 극복할 수 있을듯..?)

     

     

     

     

     

     

    댓글

Designed by Tistory.