본문 바로가기
CS/Data Mining

[DataMining] 1-1 . Introduction to Data Mining

by 쵸빙 2020. 4. 27.

DataMining 카테고리에서는 데이터마이닝에 대한 개념을 정리하도록 하겠다.

 

 

 

● Why Mine Data?

Commercial ViewPoint

- web data, e-commerce(전자상거래), 백화점과 상점에서 구매한 내역들, 은행과 신용카드 거래내역 등 많은

  데이터들이 저장되어지고 있다.

- 컴퓨터들이 점점 싸지고 더 처리 성능이 발전되어간다.

- 시장 경제가 심화되어서 매출 증대 목적으로 더 나은 고객 서비스를 제공하려고 한다.

 

 

Scientific ViewPoint

- 상업적 데이터뿐만 아니라 과학적 데이터도 많이 쌓인다.

- 데이터가 수집되고 저장되는 것이 매우 빠른 속도로 이루어진다. (GB/hour)

  인공위성에서의 원격 센서 데이터

  하늘을 관찰하는 천문 관측 데이터

  유전 정보 데이터를 생성하는 microarrays

  테라바이트의 데이터를 생산하는 과학적 simulation

 

 

 

- 많은 데이터 속에 숨겨진 정보가 있을 수 있다. 인간이 직접 알아보는 데 엄청난 시간이 걸리므로 데이터 마이닝

  기법을 이용하자.

 

 

 

● Data Mining이 무엇인가?

- 데이터에서 이전에는 알려지지 않았고, 잠재적으로 유용할 것 같은 정보들을 추출해내는 것.

- 자동으로 또는 반자동으로 유의미한 패턴을 발견해내기 위해 큰 데이터에서 탐색, 분석하는 것.

 

 

* Data Mining 과정

Data

- disk 안에 데이터들이 쌓여있음

Selection

- 분석할 데이터 (target data) 선택

Preprocessing

- 전처리 → 처리하기 쉬운 형태로 변형

Transformation

- 알고리즘마다 적합한 형태로 변형

Data Mining

- 패턴을 발견. 사람이 아니라 컴퓨터 알고리즘이 발견한다.

Interpretation / Evaluation

- 사람이든 프로그램이든 발견한 패턴을 해석하고 평가해서 어떤 것이 중요한 것인지 고름.

 

 

 

● Data Mining과 아닌 것의 차이

- 데이터 마이닝이 아닌 것의 예

  → 핸드폰 주소록에서 특정 전화번호 찾는 것

  → 웹 검색 엔진에서 특정 정보를 찾는 것.

  이것들은 검색이지 데이터에서 유용한 정보를 찾아내는 데이터 마이닝이 아니다.

 

- 데이터 마이닝의 예

  → 특정 미국 지역에서 특정 이름들이 더 자주 나온다.

      → O'Brien, O'Rurke, O'Reilly는 Boston 지역에서 자주 나오는 이름들.

  → 검색 엔진에서 나온 유사한 문서들을 내용에 따라 그룹화하는 것.

      → Amazon rainforest, Amazon.com 같은 것

 

 

 

 

 

● The Origins of Data Mining

- machine learning/AI, pattern recognition, statistics, database systems에서 나온 개념.

- 기존의 기술들은 거대한 데이터의 크기, 데이터의 큰 차원, heterogeneous, 분포된 데이터의 특징 등으로 인해

  적합하지 않았다.

 

 

 

 

 

 

 

● The Origins of Data Mining

Prediction Methods (예측)

- 모르는 데이터를 이미 아는 데이터로부터 예측

- 과거의 변수로 미래의 변수를 예측한다.

 

Description Methods (해석)

- 유용한 정보를 해석하고 서술하는 목적

- 데이터를 분석함으로써 얻는 정보에 인간이 해석을 붙이는 것.

 

 

 

 

 

다음 시간에는 classification, clustering, association rule discovery, sequential pattern discovery, regression, deviation detection 등 data mining tasks에 대해 배워보도록 하겠다.

'CS > Data Mining' 카테고리의 다른 글

[DataMining] Deep Learning  (1) 2020.05.03
[DataMining] AI & Machine Learning  (0) 2020.05.03
[DataMining] 2-2. Data Preprocessing  (0) 2020.04.30
[DataMining] 1-2. Data Mining Tasks  (0) 2020.04.27