데이터마이닝이란?


  • 대량의 데이터로부터 그 안에 숨어있는 새롭고, 가치있고, 의사 결정에 유용한 정보를 찾는 작업

  • 대규로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이다.

데이터(Data)


  • 연구나 조사 등의 바탕이 되는 재료
  • 데이터 객체와 속성들의 모임

엑셀로 예를 들자면 행과 열로 구성되어 있다.

  • 속성(Attribute)는 객체(Object)의 특성이다. Attribute 집합으로 하나의 객체를 설명할 수 있다.

마이닝(Mining)


  • 채굴, 채광, 채광 산업을 말한다.

데이터 타입


데이터 집합을 이루는 데이터 객체들은 객체의 특성이라 할 수 있는 속성으로 설명될 수 있다.

  • 정량적 : 양이 정해져 있는 상태, 길이 같은 것

비밀번호 6글자, 10명이내로 이루어진 그룹 등등..

  • 정성적 : 주관성이 들어가 있는 것

“저 사람 예쁘다.” 같은..?

데이터 품질


  • 데이터 품질을 이해하고 개선하는 경우

  • 잡음, 이상치의 존재, 누락, 비일관적, 중복 데이터 포함
  • 편중된 데이터 등 모집단을 대표하기 어려운 데이터 포함

데이터 전처리


  • 데이터 마이닝의 기본중에 가장 중요하다고 할 수 있는 부분!
  • 데이터 품질 개선, 데이터 마이닝 기법에 적합하도록 데이터를 수정한다.

관계 측면에서 데이터 분석


  • 유사도를 통한 객체들 간 관계 분석

치킨을 사면 콜라를 같이산다.

  • 군집화, 분류, 이상치 탐지 등의 분석을 수행한다.

속성 값(Attribute Values)


  • 속성 값에는 숫자 또는 심볼이 들어간다.
  • 같은 속성이라도 다른 속성값 또는 의미를 가질 수 있다.

높이는 feet 또는 meters로 측정될 수 있다.

  • 같은 속성값이라도 다른 속성에 들어갈 수 있다.

직원의 계정 ID번호, 학번 등

속성 타입(Types of Attributes)


  • 범주적(Categorical), 정성적(Qualitative)

    1. 명목형(Nominal)

      ID 번호, 눈 색깔, zip codes, 성별

      • 유일성을 가진다. (=, !=) -> 1:1 맵핑
    2. 서열형(Ordinal)

      랭킹, 학년, 키, 광석의 경도, 몸무게, 좋고 나쁨을 표현

      • 유일성, 순서을 가진다. (=, !=, >, <)
  • 수치적(Numeric), 정량적(Quantitative)

    1. 구간(Interval)

      날짜, 온도(화씨, 섭씨), 섭씨를 화씨로 나타내는 방법

      • 유일성, 순서, 덧셈을 가진다. (=, !=, >, <, +, -)
    2. 비율(Ratio)

      시간, 수, 길이, 질량, 전류, 화폐수량

      • 유일성, 순서, 덧셈, 곱셈을 가진다. (=, !=, <, >, +, -, /, *)
  • 이산 속성(discrete attribute)

    • 유한개의 값 또는 셀 수 있는 무한 집합의 값을 갖는다.
    • int형 변수로 종종 표현된다.
  • 연속 속성(Continuous Attribute)

    • 실수 값을 가지며 온도, 높이, 깊이와 같은 속성
    • 보통 부동 소수점 변수로 표현한다.

    • float형 같은 변수
  • 비대칭 이진 속성(Asymmetric binary attribute)

    • 존재하는 값만이 중요하게 간주
    • 예/아니오로 표현하지만 반드시 존재하는 값만으로 판단

Example


스크린샷 2021-03-21 오전 2 44 43

ID : 명목형

입사일, 퇴직일 : 구간을 나타낼 수 있다,

근무 일수 : 구간, 이산속성

직급, 기본급 : 서열형

근무평점, 키(cm, feet) : 서열형

머리색 : 정성적으로 표현할 수 있다.

Questions


a. AM과 PM으로 표시한 시간

  • 이산 속성
  • 정성적(오후인거 같아요~)

b. 광 미터로 측정된 밝기

  • 정량적으로 표현
  • 비율로 표현

c. 사람의 판단으로 측정된 밝기

  • 정성적 - 내 기준에 따라 어두울 수도 밝을 수도 있는부분
  • 이산 속성

d. 0에서 360도 사이의 각도로 측정된 각

  • 연속적
  • 양적 비율

e. 올림필에서 부여되는 금, 은, 동메달

  • 이산적
  • 정성적 - 동메달을 딴사람이 잘했나요? -> 개개인 마다 다르게 느낌
  • 서수형

f. 해수면 위의 고도

  • 연속적이거나 양적
  • 비율적

g. 병원 내 환자 수

  • 비율적
  • 이산적 -> 많다 적다

h. 책의 ISBN 번호

  • 이산적 -> 있다 없다로 표현
  • 정성적으로 많이 있다.
  • 서열성

i. 빛을 통과시킬 수 있는 능력 : 불투명, 반투명, 투명

  • 이산, 정성, 서수

j. 군대의 계급

  • 이산, 정성, 서수

k. 캠퍼스 중심으로부터의 거리

  • 중심에서 얼마나 떨어져 있느냐? = 거리 -> 연속적, 정량적, 비율

l. g/cm^3 으로 표시한 물질의 밀도

  • 이산, 정량, 비율

m. 코트 보관 번호

  • 이벤트에 참석했을 때 코트를 찾을 때 불러준다. 있는지 없는지 판단가능 -> 정성적, 서열형