Jump to content

User:SoeunK/sandbox

From Wikipedia, the free encyclopedia

데이터 마이닝

[edit]

개요

[edit]

데이터 마이닝은 대규모 데이터 세트에서 패턴을 추출하고 발견하는 과정으로, 기계 학습, 통계학, 데이터베이스 시스템의 교차점에서 사용되는 방법들을 포함합니다.[1] 데이터 마이닝은 컴퓨터 과학과 통계학의 융합 분야로, 데이터 세트에서 지능적인 방법을 통해 정보를 추출하고, 그 정보를 추가적인 사용을 위해 이해할 수 있는 구조로 변환하는 것이 그 궁극적인 목표입니다.[1][2][3][4]데이터 마이닝은 KDD(데이터베이스에서의 지식 발견) 과정의 분석 단계로 간주됩니다.[5] 데이터 마이닝은 단순한 분석을 넘어, 데이터베이스 및 데이터 관리, 데이터 전처리, 모델 및 추론 고려, 흥미도 측정, 복잡성 고려, 발견된 구조의 후처리, 시각화, 온라인 업데이트 등을 포함합니다.[1]

"데이터 마이닝"이라는 용어는 엄밀히 말하면 잘못된 명칭입니다. 그 이유는 데이터 자체를 추출하는 것이 아니라 대량의 데이터에서 패턴과 지식을 추출하는 것이 목적이기 때문입니다.[6] 이 용어는 종종 유행어로 사용되며, 대규모 데이터나 정보 처리(수집, 추출, 저장, 분석, 통계) 또는 컴퓨터 기반 의사결정 지원 시스템(예: 인공지능 및 비즈니스 인텔리전스)과 관련된 모든 응용에 적용됩니다. 일반적으로는 대규모 데이터 분석이나 분석이라는 더 포괄적인 용어가 더 적절하며, 실제 방법론을 언급할 때는 인공지능이나 기계 학습이라는 용어가 더 적합합니다.

실제 데이터 마이닝 작업은 대량의 데이터를 자동 또는 반자동으로 분석하여 이전에 알지 못했던 흥미로운 패턴을 추출하는 것입니다. 이러한 패턴은 데이터 레코드의 군집(군집 분석), 이상치(이상 탐지), 의존성(연관 규칙 마이닝, 순차 패턴 마이닝) 등을 포함할 수 있습니다. 이는 일반적으로 공간 인덱스와 같은 데이터베이스 기법을 사용하는데, 이렇게 발견된 패턴은 입력 데이터의 요약으로 간주될 수 있으며, 추가 분석이나 기계 학습, 예측 분석 등에 활용될 수 있습니다. 예를 들어, 데이터 마이닝 단계에서 여러 그룹을 식별하면, 이러한 그룹을 통해 의사결정 지원 시스템에서 더 정확한 예측 결과를 도출할 수 있습니다. 데이터 수집, 데이터 준비, 결과 해석 및 보고는 데이터 마이닝 단계에 포함되지 않지만, 이들은 전체 KDD 과정에서 추가 단계로 간주됩니다.

데이터 분석과 데이터 마이닝의 차이점은, 데이터 분석은 데이터 세트에 대한 모델과 가설을 테스트하는 데 사용되는 반면, 데이터 마이닝은 기계 학습과 통계 모델을 사용하여 대규모 데이터에서 숨겨진 패턴을 발견하는 데 중점을 둔다는 점입니다. 예를 들어, 데이터 분석은 마케팅 캠페인의 효과를 분석하는 데 사용될 수 있지만, 데이터의 양에 관계없이 적용될 수 있습니다. 반면, 데이터 마이닝은 대량의 데이터에서 은밀하거나 숨겨진 패턴을 찾아내는 데 중점을 둡니다.[7]

관련 용어인 데이터 드레징, 데이터 피싱, 데이터 스누핑은 더 큰 데이터 집합의 일부분을 샘플링하여 신뢰할 수 있는 통계적 추론을 하기에는 너무 작은 패턴을 발견하려는 데이터 마이닝 방법을 의미합니다. 이러한 방법들은 더 큰 데이터 집단에 대해 새로운 가설을 생성하는 데 유용할 수 있습니다.

어원

[edit]

1960년대에는 통계학자와 경제학자들이 데이터 피싱(data fishing)이나 데이터 드레징(data dredging)이라는 용어를 사용하여 사전 가설 없이 데이터를 분석하는 나쁜 관행을 비판적으로 지칭했습니다. "데이터 마이닝"이라는 용어도 비슷한 비판적 의미로 사용되었는데, 경제학자 마이클 러벨(Michael Lovell)이 1983년 Review of Economic Studies에 게재한 논문에서 처음으로 이 용어를 사용했습니다.[8][9] 러벨은 이 관행이 긍정적인 의미의 "실험(experimentation)"에서부터 부정적인 의미의 "피싱(fishing)"이나 "스누핑(snooping)"에 이르기까지 다양한 이름으로 위장되어 있다고 언급했습니다.

데이터 마이닝이라는 용어는 1990년대에 데이터베이스 커뮤니티에서 등장했으며, 일반적으로 긍정적인 의미로 사용되었습니다. 1980년대에 잠시 동안 "데이터베이스 마이닝(database mining)"이라는 표현이 사용되었으나, 이 용어가 샌디에이고에 본사를 둔 HNC라는 회사에서 Database Mining Workstation을 홍보하기 위해 상표로 등록되면서[10] 연구자들은 대신 데이터 마이닝(data mining)이라는 용어를 채택하게 되었습니다. 이 외에도 데이터 고고학(data archaeology), 정보 수확(information harvesting), 정보 발견(information discovery), 지식 추출(knowledge extraction) 등의 용어가 사용되었습니다.

그레고리 피아테츠키-샤피로(Gregory Piatetsky-Shapiro)는 1989년 처음 개최된 워크숍(KDD-1989)에서 "데이터베이스에서의 지식 발견(Knowledge Discovery in Databases)"이라는 용어를 처음으로 사용했으며, 이 용어는 인공지능 및 기계 학습 커뮤니티에서 점차 인기를 끌게 되었습니다. 그러나 데이터 마이닝이라는 용어는 주로 비즈니스와 언론에서 더 널리 사용되었습니다.[11] 현재는 데이터 마이닝과 지식 발견이라는 용어가 상호 교환적으로 사용되고 있습니다.

역사적 배경

[edit]

데이터에서 패턴을 수작업으로 추출하는 과정은 수세기 동안 이루어져 왔습니다. 데이터에서 패턴을 식별하는 초기 방법으로는 베이즈 정리(1700년대)와 회귀 분석(1800년대)이 있습니다.[12] 컴퓨터 기술의 보급, 만연, 그리고 증가하는 성능은 데이터 수집, 저장 및 조작 능력을 획기적으로 향상시켰습니다. 데이터 세트의 크기와 복잡성이 커짐에 따라 직접적인 "수작업" 데이터 분석은 점점 더 간접적이고 자동화된 데이터 처리로 보완되었으며, 특히 기계 학습 분야에서의 새로운 발견들이 이를 촉진했습니다. 예를 들어, 신경망, 군집 분석, 유전 알고리즘(1950년대), 의사 결정 트리 및 의사 결정 규칙(1960년대), 서포트 벡터 머신(1990년대) 등이 이러한 기법에 해당합니다.

데이터 마이닝은 이러한 방법을 적용하여 대규모 데이터 세트에서 숨겨진 패턴을 발견하려는 과정입니다.[13] 데이터 마이닝은 응용 통계학과 인공지능(대개 수학적 배경을 제공하는 분야)에서 데이터베이스 관리로 이어지는 다리 역할을 합니다. 데이터베이스에서 데이터를 저장하고 색인화하는 방식을 활용하여 학습 및 발견 알고리즘을 더 효율적으로 실행할 수 있게 하며, 이를 통해 이러한 방법을 점점 더 큰 데이터 세트에 적용할 수 있습니다.

과정

[edit]

데이터베이스에서의 지식 발견(KDD) 과정은 일반적으로 다음과 같은 단계로 정의됩니다:

  1. 선택(Selection)
  2. 전처리(Pre-processing)
  3. 변환(Transformation)
  4. 데이터 마이닝(Data mining)
  5. 해석/평가(Interpretation/Evaluation)[5]

그러나 이 과정은 다양한 변형이 존재합니다. 예를 들어, 데이터 마이닝을 위한 업계 표준 프로세스(CRISP-DM)는 다음과 같은 6단계를 정의합니다:

  1. 비즈니스 이해(Business Understanding)
  2. 데이터 이해(Data Understanding)
  3. 데이터 준비(Data Preparation)
  4. 모델링(Modeling)
  5. 평가(Evaluation)
  6. 배포(Deployment)

또는 더 단순화된 과정으로 (1) 전처리, (2) 데이터 마이닝, (3) 결과 검증과 같은 단계를 사용할 수 있습니다.

2002년, 2004년, 2007년, 2014년에 실시된 설문 조사에 따르면, CRISP-DM 방법론이 데이터 마이너들 사이에서 가장 많이 사용되는 방법론으로 나타났습니다.

이 설문 조사에서 언급된 유일한 다른 데이터 마이닝 표준은 SEMMA였으나, CRISP-DM을 사용하는 사람들이 3-4배 더 많았습니다. 여러 연구팀이 데이터 마이닝 프로세스 모델에 대한 리뷰를 발표했으며, 아제베도(Azevedo)와 산토스(Santos)는 2008년에 CRISP-DM과 SEMMA를 비교한 연구를 진행했습니다.

전처리 과정

[edit]

데이터 마이닝 알고리즘을 사용하기 전에, 먼저 목표 데이터 세트를 구성해야 합니다. 데이터 마이닝은 데이터에 실제로 존재하는 패턴만을 발견할 수 있기 때문에, 목표 데이터 세트는 이러한 패턴을 포함할 만큼 충분히 커야 하면서도, 허용 가능한 시간 내에 분석할 수 있을 정도로 간결해야 합니다. 일반적인 데이터 출처로는 데이터 마트 또는 데이터 웨어하우스가 있습니다.

전처리는 데이터 마이닝 전에 다변량 데이터 세트를 분석하는 데 필수적입니다. 목표 데이터 세트는 먼저 정제됩니다. 데이터 정제 과정에서는 노이즈가 포함된 관측치나 누락된 데이터가 있는 관측치를 제거합니다.

데이터 마이닝

[edit]

데이터 마이닝은 일반적으로 다음과 같은 6가지 주요 작업 유형을 포함합니다:[5]

  1. 이상 탐지(Anomaly Detection): 이는 비정상적인 데이터 레코드를 식별하는 것으로, 흥미로운 데이터이거나 표준 범위를 벗어난 데이터 오류일 수 있어 추가 조사가 필요할 수 있습니다.
  2. 연관 규칙 학습(Association Rule Learning, 의존성 모델링): 변수 간의 관계를 찾는 작업입니다. 예를 들어, 슈퍼마켓에서 고객의 구매 습관을 분석하여 연관 규칙 학습을 통해 자주 함께 구매되는 제품을 찾아 마케팅에 활용할 수 있습니다. 이는 흔히 **장바구니 분석(Market Basket Analysis)**라고도 합니다.
  3. 군집화(Clustering): 데이터에서 서로 유사한 그룹이나 구조를 발견하는 작업으로, 미리 알려진 구조 없이 데이터를 분류합니다.
  4. 분류(Classification): 이미 알려진 구조를 일반화하여 새로운 데이터에 적용하는 작업입니다. 예를 들어, 이메일 프로그램이 이메일을 "정상" 또는 "스팸"으로 분류하는 것이 그 예입니다.
  5. 회귀 분석(Regression): 데이터 또는 데이터 세트 간의 관계를 추정하기 위해 가장 적은 오류로 데이터를 모델링할 수 있는 함수를 찾는 작업입니다.
  6. 요약(Summarization): 데이터 세트를 보다 간결하게 표현하는 작업으로, 시각화 및 보고서 생성을 포함합니다.

결과 검증

[edit]

데이터 마이닝은 의도치 않게 잘못 사용되어, 겉보기에 의미 있어 보이는 결과를 도출할 수 있지만, 실제로는 미래 행동을 예측하지 못하고 새로운 데이터 샘플에서 재현되지 않는 경우가 발생할 수 있습니다. 이는 너무 많은 가설을 조사하거나 적절한 통계적 가설 검증을 수행하지 않았을 때 종종 발생합니다. 기계 학습에서 이 문제의 단순한 형태는 과적합(overfitting)으로 알려져 있으며, 이 문제는 프로세스의 다른 단계에서도 발생할 수 있어 학습/테스트 분할(train/test split)만으로는 이러한 문제를 완전히 방지하지 못할 수 있습니다.

데이터에서 지식을 발견하는 마지막 단계는 데이터 마이닝 알고리즘이 생성한 패턴이 더 큰 데이터 세트에서도 일관되게 나타나는지 확인하는 것입니다. 알고리즘이 찾은 모든 패턴이 유효한 것은 아니며, 훈련 데이터 세트에서만 발견되고 일반 데이터 세트에는 존재하지 않는 패턴을 찾는 경우가 흔합니다. 이를 과적합이라고 합니다. 이를 극복하기 위해, 평가 단계에서는 알고리즘이 훈련되지 않은 테스트 데이터 세트를 사용합니다. 학습된 패턴을 이 테스트 세트에 적용하여 출력 결과를 원하는 출력값과 비교합니다. 예를 들어, "스팸"과 "정상" 이메일을 구분하는 데이터 마이닝 알고리즘은 샘플 이메일 훈련 세트에서 학습되며, 학습 후에 해당 패턴은 학습되지 않은 테스트 이메일 세트에 적용됩니다. 그런 다음 얼마나 정확하게 이메일을 분류하는지를 통해 패턴의 정확성을 측정합니다. 이 평가 과정에서 ROC 곡선과 같은 여러 통계적 방법이 사용될 수 있습니다.

만약 학습된 패턴이 원하는 기준을 충족하지 못하면, 전처리와 데이터 마이닝 단계를 재평가하고 변경해야 합니다. 반면, 패턴이 기준을 충족한다면, 최종 단계는 학습된 패턴을 해석하고 이를 지식으로 전환하는 것입니다.

연구

[edit]

이 분야의 대표적인 전문 기구는 ACM(Association for Computing Machinery)의 지식 발견 및 데이터 마이닝 특수 분과(Special Interest Group on Knowledge Discovery and Data Mining, SIGKDD)입니다.[14] 1989년부터 이 ACM SIG는 매년 국제 학술 대회를 개최하고 그 논문집을 발행하고 있으며,[15] 1999년부터는 "SIGKDD Explorations"라는 학술 저널을 반기별로 출판하고 있습니다.[16]

데이터 마이닝과 관련된 컴퓨터 과학 학회로는 다음과 같은 것들이 있습니다:

  • CIKM 학회: 정보 및 지식 관리에 관한 ACM 학술 대회
  • ECML-PKDD 학회: 유럽 기계 학습 및 데이터베이스에서의 지식 발견 원칙과 실무 학술 대회
  • KDD 학회: ACM SIGKDD의 지식 발견 및 데이터 마이닝 학술 대회

또한, 데이터 마이닝 주제는 ICDE 학회(국제 데이터 엔지니어링 학술 대회), SIGMOD 학회(데이터 관리 시스템 특별 분과 학술 대회), VLDB 학회(초대형 데이터베이스 국제 학술 대회) 등 데이터 관리 및 데이터베이스 관련 학회에서도 다루어집니다.

표준

[edit]

데이터 마이닝 프로세스에 대한 표준을 정의하려는 몇 가지 시도가 있었습니다. 예를 들어, 1999년에 발표된 유럽 크로스 인더스트리 데이터 마이닝 표준 프로세스(CRISP-DM 1.0)와 2004년에 발표된 Java 데이터 마이닝 표준(JDM 1.0)이 있습니다. 이 프로세스의 후속 버전들(CRISP-DM 2.0 및 JDM 2.0)의 개발은 2006년까지 활발하게 진행되었지만, 이후로는 중단되었습니다. 특히 JDM 2.0은 최종 초안을 도출하지 못하고 철회되었습니다.

추출된 모델을 교환하기 위한 주요 표준으로는 예측 모델 마크업 언어(PMML)가 있습니다. 이는 데이터 마이닝 그룹(DMG)에서 개발한 XML 기반 언어로, 많은 데이터 마이닝 애플리케이션에서 교환 형식으로 지원됩니다. 이름에서 알 수 있듯이 PMML은 주로 예측 모델에 중점을 두고 있으며, 이는 비즈니스 애플리케이션에서 매우 중요한 데이터 마이닝 작업입니다. 그러나 DMG와는 독립적으로 예를 들어 서브스페이스 군집화와 같은 확장 기능이 제안된 바 있습니다.[17]

  1. ^ a b c "Data Mining Curriculum". ACM SIGKDD. 2006-04-30. Archived from the original on 2013-10-14. Retrieved 2014-01-27.
  2. ^ Clifton, Christopher (2010). "Encyclopædia Britannica: Definition of Data Mining". Archived from the original on 2011-02-05. Retrieved 2010-12-09.
  3. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning: Data Mining, Inference, and Prediction". Archived from the original on 2009-11-10. Retrieved 2012-08-07.
  4. ^ Han, Jaiwei; Kamber, Micheline; Pei, Jian (2011). Data Mining: Concepts and Techniques. Morgan Kaufmann. ISBN 978-0-12-381479-1.
  5. ^ a b c Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). Archived (PDF) from the original on 2022-10-09. Retrieved 17 December 2008.
  6. ^ Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. p. 5. ISBN 978-1-55860-489-6. Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long
  7. ^ Olson, D. L. (2007). Data mining in business services. Service Business, 1(3), 181–193. doi:10.1007/s11628-006-0014-7
  8. ^ Lovell, Michael C. (1983). "Data Mining". The Review of Economics and Statistics. 65 (1): 1–12. doi:10.2307/1924403. JSTOR 1924403.
  9. ^ Charemza, Wojciech W.; Deadman, Derek F. (1992). "Data Mining". New Directions in Econometric Practice. Edward Elgar. pp. 14–31. ISBN 1-85278-461-X.
  10. ^ Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
  11. ^ Piatetsky-Shapiro, Gregory; Parker, Gary (2011). "Lesson: Data Mining, and Knowledge Discovery: An Introduction". Introduction to Data Mining. KD Nuggets. Retrieved 30 August 2012. {{cite web}}: |archive-date= requires |archive-url= (help)CS1 maint: url-status (link)
  12. ^ Coenen, Frans (2011-02-07). "Data mining: past, present and future". The Knowledge Engineering Review. 26 (1): 25–29. doi:10.1017/S0269888910000378. S2CID 6487637. Archived from the original on 2023-07-02. Retrieved 2021-09-04.
  13. ^ Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336.
  14. ^ "Microsoft Academic Search: Top conferences in data mining". Microsoft Academic Search. Archived from the original on 2014-11-19. Retrieved 2014-06-13.
  15. ^ Proceedings Archived 2010-04-30 at the Wayback Machine, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.
  16. ^ SIGKDD Explorations Archived 2010-07-29 at the Wayback Machine, ACM, New York.
  17. ^ Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). Proceedings of the 2011 workshop on Predictive markup language modeling. p. 48. doi:10.1145/2023598.2023605. ISBN 978-1-4503-0837-3.