이상 탐지


  • 예상되거나 기대하는 관찰 값이 아닌 데이터의 패턴 개체의 이상 값을 찾아내는 것
  • 우리가 가지고 있는 어떤 징후 같은 것.
  • 이상 값은 정상이 아닌 값이다.
  • ex) 이상치, 이상징후, 극단값, 비정상, 노이즈, 아우터라인

이상탐지 기법

  • 특정한 알고리즘이 아니라 우리가 기대하는 결과를 얻기위해 여러가지 알고리즘과 분석론을 활용한 분석 어플리케이션을 의미한다.
  • 어떤 데이터 인지, 어떤 분야에서 적용하는지, 목적이 무엇인지에 따라 매우 광범위하고 다양한 방법에 활용되고 있다.

이상 탐지

  • 어려움
    • 얼마나 많은 이상치가 데이터에 있나?
    • 방법이 비지도이다.
      • 검증은 매우 어려울 수 있다.
    • 모래에서 바늘찾기
  • 작업 가정
    • 데이터에 이상치보다 정상치가 훨씬 더 많다.

이상 탐지 이슈

  • 일반적인 단계
    • 일반적인 행동 프로파일을 만든다.
      • 프로파일은 전체 모집단에 대한 패턴 또는 요약 통계일 수 있다.
  • 이상 탐지를 위해 일반적인 프로파일을 사용한다.
    • 이상 징후는 특성이 정규 프로파일이 크게 다른 관측치이다.
  • 이상 탐지 스키마의 타입
    • 시각&통계 기반
    • 거리 기반
    • 모델 기반

그래픽적 접근

  • BoxPlot(1-D)
  • Scatter plot (2-D)
  • Spin plot (3-D)
  • 한계점
    • 시간 소비
    • 주관적

Convex Hull 방법

  • 극점이 이상치로 추정된다.
  • convex hull 방법은 극한 값을 감지하는데 사용된다.
  • K-117

통계 접근법

  • K-118

  • 데이터 분포를 설명하는 모형을 가정한다. (ex. 정규 분포)
  • 통계 테스트를 적용한다.
    • 데이터 분포 - 가우스, 포아송,
    • 분포 파라미터 (평균, 변수)
    • 예상 이상치 수 (확신 제한)

Grubbs’ Test

K-119

  • 일변량 데이터의 특이치를 갖고오는 것을 의미
  • 우리가 가질 수 있는 최대 정규화된 전차 검정, 편차 검정, 특이치를 탐지하는데 사용한다.
  • 금융 데이터를 작업한다고 하면 통계라고도 얘기하고, 데이터셋의 이상치가 한개 이상 있다고 하면 이상탐지라고 한다.
  • 최소한 7개의 데이터는 있어야 한다.
  • data set안에 하나의 이상치가 있는지 없는지 판단하는 부분

통계 기반 - 가능성 접근 방식

  • 데이터 집합D에서 확률 분포에 혼합물이 포함되어 있더라고 가정한다

    • M은 다수 분포 부정분포
    • A는 변칙 분포
  • 일반적 접근 :
    • 처음에는 모든 데이터 점이 M에 속한다고 가정한다.
    • L_t(D)를 시간 t의 log likehood가 되도록 한다.
    • M에 속하는 각 점 x_t에 대해 A로 이동한다.
  • 데이터 분포, M=정상치 분포, A= 이상치 분포

    • K-120
  • K-121

통계 접근의 한계점

  • 대부분의 테스트들은 단일 속성을 위한 것이다.
  • 대부분의 경우, 데이터 분포는 알수 없을지도 모른다.
  • 고차원 데이터에 대해, 참된 분포를 측정하는게 어려울지도 모른다.

거리기반 접근

  • 데이터는 벡터로 표현된다.
  • 세가지 주요 접근법
    • 가장 가까운 이웃 기반
      • 평균
    • 밀도 기반
      • 상대 밀도 : 내가 가지고 있는 값들이 존재하면 1, 3이 있고, 6.8이다, 다른 밀도의 값들이 1.3다. 라는 이상치 스코어가 우리가 어디다 라는 밀도를 나타내는 것들이 거리를 어떻게 나타낼 수 있는지 찾아낸다.
    • 클러스터링 기반

밀도 기반 : LOF(Local Outlier Factor) 접근법

K-123

  • 각 점에 대해 해당 지역 인접 지역의 밀도 계산
  • 표본 p의 로컬 특이치 요인(LOF)을 표본 p의 밀도 비율과 가장 가까운 이웃의 밀도 비율의 평균으로 계산합니다.

군집 기반(Clustering-Based)

K-122

  • 데이터를 서로 다른 밀도의 그룹으로 클러스터링
  • 작은 군집의 점을 후보 특이치로 선택
  • 후보 지점과 비가시 군집 사이의 거리를 계산합니다.
    • 후보 점들이 다른 모든 비결정적 점들과 멀리 떨어져 있으면 특이치입니다.