DataMining 카테고리에서는 데이터마이닝에 대한 개념을 정리하도록 하겠다.
● Why Mine Data?
① Commercial ViewPoint
- web data, e-commerce(전자상거래), 백화점과 상점에서 구매한 내역들, 은행과 신용카드 거래내역 등 많은
데이터들이 저장되어지고 있다.
- 컴퓨터들이 점점 싸지고 더 처리 성능이 발전되어간다.
- 시장 경제가 심화되어서 매출 증대 목적으로 더 나은 고객 서비스를 제공하려고 한다.
② Scientific ViewPoint
- 상업적 데이터뿐만 아니라 과학적 데이터도 많이 쌓인다.
- 데이터가 수집되고 저장되는 것이 매우 빠른 속도로 이루어진다. (GB/hour)
→ 인공위성에서의 원격 센서 데이터
→ 하늘을 관찰하는 천문 관측 데이터
→ 유전 정보 데이터를 생성하는 microarrays
→ 테라바이트의 데이터를 생산하는 과학적 simulation
- 많은 데이터 속에 숨겨진 정보가 있을 수 있다. 인간이 직접 알아보는 데 엄청난 시간이 걸리므로 데이터 마이닝
기법을 이용하자.
● Data Mining이 무엇인가?
- 데이터에서 이전에는 알려지지 않았고, 잠재적으로 유용할 것 같은 정보들을 추출해내는 것.
- 자동으로 또는 반자동으로 유의미한 패턴을 발견해내기 위해 큰 데이터에서 탐색, 분석하는 것.
* Data Mining 과정
① Data
- disk 안에 데이터들이 쌓여있음
② Selection
- 분석할 데이터 (target data) 선택
③ Preprocessing
- 전처리 → 처리하기 쉬운 형태로 변형
④ Transformation
- 알고리즘마다 적합한 형태로 변형
⑤ Data Mining
- 패턴을 발견. 사람이 아니라 컴퓨터 알고리즘이 발견한다.
⑥ Interpretation / Evaluation
- 사람이든 프로그램이든 발견한 패턴을 해석하고 평가해서 어떤 것이 중요한 것인지 고름.
● Data Mining과 아닌 것의 차이
- 데이터 마이닝이 아닌 것의 예
→ 핸드폰 주소록에서 특정 전화번호 찾는 것
→ 웹 검색 엔진에서 특정 정보를 찾는 것.
→ 이것들은 검색이지 데이터에서 유용한 정보를 찾아내는 데이터 마이닝이 아니다.
- 데이터 마이닝의 예
→ 특정 미국 지역에서 특정 이름들이 더 자주 나온다.
→ O'Brien, O'Rurke, O'Reilly는 Boston 지역에서 자주 나오는 이름들.
→ 검색 엔진에서 나온 유사한 문서들을 내용에 따라 그룹화하는 것.
→ Amazon rainforest, Amazon.com 같은 것
● The Origins of Data Mining
- machine learning/AI, pattern recognition, statistics, database systems에서 나온 개념.
- 기존의 기술들은 거대한 데이터의 크기, 데이터의 큰 차원, heterogeneous, 분포된 데이터의 특징 등으로 인해
적합하지 않았다.
● The Origins of Data Mining
① Prediction Methods (예측)
- 모르는 데이터를 이미 아는 데이터로부터 예측
- 과거의 변수로 미래의 변수를 예측한다.
② Description Methods (해석)
- 유용한 정보를 해석하고 서술하는 목적
- 데이터를 분석함으로써 얻는 정보에 인간이 해석을 붙이는 것.
다음 시간에는 classification, clustering, association rule discovery, sequential pattern discovery, regression, deviation detection 등 data mining tasks에 대해 배워보도록 하겠다.
'CS > Data Mining' 카테고리의 다른 글
[DataMining] Deep Learning (1) | 2020.05.03 |
---|---|
[DataMining] AI & Machine Learning (0) | 2020.05.03 |
[DataMining] 2-2. Data Preprocessing (0) | 2020.04.30 |
[DataMining] 1-2. Data Mining Tasks (0) | 2020.04.27 |