이상 탐지
- 예상되거나 기대하는 관찰 값이 아닌 데이터의 패턴 개체의 이상 값을 찾아내는 것
- 우리가 가지고 있는 어떤 징후 같은 것.
- 이상 값은 정상이 아닌 값이다.
- ex) 이상치, 이상징후, 극단값, 비정상, 노이즈, 아우터라인
이상탐지 기법
- 특정한 알고리즘이 아니라 우리가 기대하는 결과를 얻기위해 여러가지 알고리즘과 분석론을 활용한 분석 어플리케이션을 의미한다.
- 어떤 데이터 인지, 어떤 분야에서 적용하는지, 목적이 무엇인지에 따라 매우 광범위하고 다양한 방법에 활용되고 있다.
이상 탐지
- 어려움
-
- 얼마나 많은 이상치가 데이터에 있나?
- 방법이 비지도이다.
-
- 검증은 매우 어려울 수 있다.
- 모래에서 바늘찾기
- 작업 가정
-
- 데이터에 이상치보다 정상치가 훨씬 더 많다.
이상 탐지 이슈
- 일반적인 단계
-
- 일반적인 행동 프로파일을 만든다.
-
- 프로파일은 전체 모집단에 대한 패턴 또는 요약 통계일 수 있다.
- 이상 탐지를 위해 일반적인 프로파일을 사용한다.
-
- 이상 징후는 특성이 정규 프로파일이 크게 다른 관측치이다.
- 이상 탐지 스키마의 타입
-
- 시각&통계 기반
- 거리 기반
- 모델 기반
그래픽적 접근
- BoxPlot(1-D)
- Scatter plot (2-D)
- Spin plot (3-D)
- 한계점
-
- 시간 소비
- 주관적
Convex Hull 방법
- 극점이 이상치로 추정된다.
- convex hull 방법은 극한 값을 감지하는데 사용된다.
통계 접근법
- 데이터 분포를 설명하는 모형을 가정한다. (ex. 정규 분포)
- 통계 테스트를 적용한다.
-
- 데이터 분포 - 가우스, 포아송,
- 분포 파라미터 (평균, 변수)
- 예상 이상치 수 (확신 제한)
Grubbs’ Test
- 일변량 데이터의 특이치를 갖고오는 것을 의미
- 우리가 가질 수 있는 최대 정규화된 전차 검정, 편차 검정, 특이치를 탐지하는데 사용한다.
- 금융 데이터를 작업한다고 하면 통계라고도 얘기하고, 데이터셋의 이상치가 한개 이상 있다고 하면 이상탐지라고 한다.
- 최소한 7개의 데이터는 있어야 한다.
- data set안에 하나의 이상치가 있는지 없는지 판단하는 부분
통계 기반 - 가능성 접근 방식
-
데이터 집합D에서 확률 분포에 혼합물이 포함되어 있더라고 가정한다
-
- M은 다수 분포 부정분포
- A는 변칙 분포
- 일반적 접근 :
-
- 처음에는 모든 데이터 점이 M에 속한다고 가정한다.
- L_t(D)를 시간 t의 log likehood가 되도록 한다.
- M에 속하는 각 점 x_t에 대해 A로 이동한다.
-
데이터 분포, M=정상치 분포, A= 이상치 분포
-
통계 접근의 한계점
- 대부분의 테스트들은 단일 속성을 위한 것이다.
- 대부분의 경우, 데이터 분포는 알수 없을지도 모른다.
- 고차원 데이터에 대해, 참된 분포를 측정하는게 어려울지도 모른다.
거리기반 접근
- 데이터는 벡터로 표현된다.
- 세가지 주요 접근법
-
- 가장 가까운 이웃 기반
-
- 평균
- 밀도 기반
-
- 상대 밀도 : 내가 가지고 있는 값들이 존재하면 1, 3이 있고, 6.8이다, 다른 밀도의 값들이 1.3다. 라는 이상치 스코어가 우리가 어디다 라는 밀도를 나타내는 것들이 거리를 어떻게 나타낼 수 있는지 찾아낸다.
- 클러스터링 기반
밀도 기반 : LOF(Local Outlier Factor) 접근법
- 각 점에 대해 해당 지역 인접 지역의 밀도 계산
- 표본 p의 로컬 특이치 요인(LOF)을 표본 p의 밀도 비율과 가장 가까운 이웃의 밀도 비율의 평균으로 계산합니다.
군집 기반(Clustering-Based)
- 데이터를 서로 다른 밀도의 그룹으로 클러스터링
- 작은 군집의 점을 후보 특이치로 선택
- 후보 지점과 비가시 군집 사이의 거리를 계산합니다.
-
- 후보 점들이 다른 모든 비결정적 점들과 멀리 떨어져 있으면 특이치입니다.