CRISP-DM: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Спасено источников — 0, отмечено мёртвыми — 1. Сообщить об ошибке. См. FAQ.) #IABot (v2.0.9.5
 
(не показано 5 промежуточных версий 3 участников)
Строка 1: Строка 1:
'''CRISP-DM''' ({{lang-en|Cross-Industry Standard Process for Data Mining}}<ref name=Shearer00>Shearer C., ''The CRISP-DM model: the new blueprint for data mining'', J Data Warehousing (2000); 5:13—22.</ref>) — наиболее распространённая<ref>{{Cite web|url=http://www.kdnuggets.com/polls/2002/methodology.htm|title=Poll: What main methodology are you using for data mining?|publisher=www.kdnuggets.com|accessdate=2016-09-14|archive-date=2017-01-16|archive-url=https://web.archive.org/web/20170116195014/http://www.kdnuggets.com/polls/2002/methodology.htm|deadlink=no}}</ref><ref>{{Cite web|url=http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm|title=Poll: Data Mining Methodology|publisher=www.kdnuggets.com|accessdate=2016-09-14|archive-date=2017-02-08|archive-url=https://web.archive.org/web/20170208085109/http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm|deadlink=no}}</ref><ref>{{Cite web|url=http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html|title=What main methodology are you using for your analytics, data mining, or data science projects? Poll|publisher=www.kdnuggets.com|accessdate=2016-09-14|archive-date=2016-08-01|archive-url=https://web.archive.org/web/20160801220617/http://kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html|deadlink=no}}</ref> методология по [[Data mining|исследованию данных]].


Модель жизненного цикла исследования данных в методологии состоит из шести фаз, а стрелки обозначают наиболее важные и частые зависимости между фазами. Последовательность этих фаз строго не определена. Как правило в большинстве проектов приходится возвращаться к предыдущим этапам, а затем снова двигаться вперед<ref name="Marban">Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); [http://cdn.intechopen.com/pdfs/5937/InTech-A_data_mining_amp_knowledge_discovery_process_model.pdf ''A Data Mining & Knowledge Discovery Process Model''] {{Wayback|url=http://cdn.intechopen.com/pdfs/5937/InTech-A_data_mining_amp_knowledge_discovery_process_model.pdf |date=20130430234844 }}. In Data Mining and Knowledge Discovery in Real Life Applications, Book edited by: Julio Ponce and Adem Karahoca, ISBN 978-3-902613-53-0, pp. 438—453, February 2009, I-Tech, Vienna, Austria.</ref>.
'''CRISP-DM''' (''Cross-Industry Standard Process for Data Mining''<ref name=Shearer00>Shearer C., ''The CRISP-DM model: the new blueprint for data mining'', J Data Warehousing (2000); 5:13—22.</ref> {{ref-en}} — межотраслевой стандартный процесс для исследования данных) это проверенная в промышленности и наиболее распространённая <ref>{{Cite web|url=http://www.kdnuggets.com/polls/2002/methodology.htm|title=Poll: What main methodology are you using for data mining?|publisher=www.kdnuggets.com|accessdate=2016-09-14}}</ref> <ref>{{Cite web|url=http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm|title=Poll: Data Mining Methodology|publisher=www.kdnuggets.com|accessdate=2016-09-14}}</ref> <ref>{{Cite web|url=http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html|title=What main methodology are you using for your analytics, data mining, or data science projects? Poll|publisher=www.kdnuggets.com|accessdate=2016-09-14}}</ref> методология по [[Data mining|исследованию данных]].


Первая версия этой методологии была представлена на четвёртом по счёту мероприятии CRISP-DM SIG Workshop в [[Брюссель|Брюсселе]] в марте 1999 года<ref name="crispDMbrussels">Pete Chapman (1999); [http://lyle.smu.edu/~mhd/8331f03/crisp.pdf ''The CRISP-DM User Guide''] {{Wayback|url=http://lyle.smu.edu/~mhd/8331f03/crisp.pdf |date=20150714123142 }}.</ref>, а пошаговая инструкция была опубликована годом позже<ref name="crispDMguide">Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); [ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/UserManual/CRISP-DM.pdf ''CRISP-DM 1.0 Step-by-step data mining guide'']{{Недоступная ссылка}}.</ref>.
Модель жизненного цикла исследования данных состоит из шести фаз, а стрелки обозначают наиболее важные и частые зависимости между фазами. Последовательность этих фаз строго не определена. Как правило в большинстве проектов приходится возвращаться к предыдущим этапам, а затем снова двигаться вперед <ref name="Marban">Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); [http://cdn.intechopen.com/pdfs/5937/InTech-A_data_mining_amp_knowledge_discovery_process_model.pdf ''A Data Mining & Knowledge Discovery Process Model'']. In Data Mining and Knowledge Discovery in Real Life Applications, Book edited by: Julio Ponce and Adem Karahoca, ISBN 978-3-902613-53-0, pp. 438-453, February 2009, I-Tech, Vienna, Austria.</ref>. Программисты бизнес-приложений получают в два раза больше программистов других приложений. Что в общем то не удивительно, ведь от них зависит прибыль бизнеса. Программист бизнес-приложений должен работать по методологии SCRUM и иметь сертификаты CSM®, CSPO®, CSD®<ref>https://ru.stackoverflow.com/questions/1071982/%D0%A7%D1%82%D0%BE-%D0%BD%D0%B0%D0%B4%D0%BE-%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%81%D1%82%D1%83-%D0%B1%D0%B8%D0%B7%D0%BD%D0%B5%D1%81-%D0%BF%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9</ref>.
[[Файл:CRISP-DM Process Diagram.png|thumb|right|Жизненный цикл исследования данных]]

Первая версия этой методологии была представлена на четвёртом по счёту мероприятии под названием '''''CRISP-DM SIG Workshop''''' в [[Брюссель|Брюсселе]] в марте 1999<ref name="crispDMbrussels">Pete Chapman (1999); [http://lyle.smu.edu/~mhd/8331f03/crisp.pdf ''The CRISP-DM User Guide''].</ref>, а пошаговая инструкция была опубликована годом позже.<ref name="crispDMguide">Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); [ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/UserManual/CRISP-DM.pdf ''CRISP-DM 1.0 Step-by-step data mining guide''].</ref>

== Фазы цикла исследования данных ==
[[File:CRISP-DM Process Diagram.png|thumb|right|Жизненный цикл исследования данных]]


Фазы цикла исследования данных:
# Понимание бизнес-целей (''Business Understanding'')
# Понимание бизнес-целей (''Business Understanding'')
# Начальное изучение данных (''Data Understanding'')
# Начальное изучение данных (''Data Understanding'')
Строка 15: Строка 13:
# Оценка (''Evaluation'')
# Оценка (''Evaluation'')
# Внедрение (''Deployment'')
# Внедрение (''Deployment'')
Последовательность фаз не является строгой и перемещается вперед и назад между различными фазами, как это всегда требуется. Стрелки на диаграмме процесса указывают на наиболее важные и частые зависимости между фазами. Внешний круг на диаграмме символизирует циклический характер самого интеллектуального анализа данных. Процесс интеллектуального анализа данных продолжается после развертывания решения. Уроки, извлеченные в ходе процесса, могут вызвать новые, часто более целенаправленные бизнес-вопросы, а последующие процессы интеллектуального анализа данных извлекут пользу из опыта предыдущих.


== См. также ==
== Примечания ==
{{примечания}}
* [[Data mining]]
* [[Очистка данных]]
* [http://www.intuit.ru/studies/courses/6/6/lecture/198?page=3 CRISP-DM методология на сайте открытого университета "Интуит"] <ref>{{Cite web|url=http://www.intuit.ru/studies/courses/6/6/Info|title=CRISP-DM методология на сайте открытого университета "Интуит"|author=|work=Data Mining: Информация|date=|publisher=ИНТУИТ|ISBN=978-5-9556-0064-2}}</ref>
* [http://www.machinelearning.ru/wiki/index.php?title=CRISP-DM Статья о CRISP-DM на сайте ''MachineLearning.ru'']


== Ссылки ==
== Ссылки ==
* {{Cite web|url=http://www.intuit.ru/studies/courses/6/6/Info|title=CRISP-DM-методология|author=|date=|publisher=Интуит|ISBN=978-5-9556-0064-2}}
{{reflist}}
* [http://www.machinelearning.ru/wiki/index.php?title=CRISP-DM Статья о CRISP-DM на сайте ''MachineLearning.ru'']


[[Категория:Информационные технологии]]
[[Категория:Информационные технологии]]
[[Категория:Анализ данных]]
[[Категория:Анализ данных]]
[[Категория:Business intelligence]]
[[Категория:Business intelligence]]

{{Computer-data-stub}}
{{Computer-sci-stub}}

Текущая версия от 18:01, 6 июня 2023

CRISP-DM (англ. Cross-Industry Standard Process for Data Mining[1]) — наиболее распространённая[2][3][4] методология по исследованию данных.

Модель жизненного цикла исследования данных в методологии состоит из шести фаз, а стрелки обозначают наиболее важные и частые зависимости между фазами. Последовательность этих фаз строго не определена. Как правило в большинстве проектов приходится возвращаться к предыдущим этапам, а затем снова двигаться вперед[5].

Первая версия этой методологии была представлена на четвёртом по счёту мероприятии CRISP-DM SIG Workshop в Брюсселе в марте 1999 года[6], а пошаговая инструкция была опубликована годом позже[7].

Жизненный цикл исследования данных

Фазы цикла исследования данных:

  1. Понимание бизнес-целей (Business Understanding)
  2. Начальное изучение данных (Data Understanding)
  3. Подготовка данных (Data Preparation)
  4. Моделирование (Modeling)
  5. Оценка (Evaluation)
  6. Внедрение (Deployment)

Последовательность фаз не является строгой и перемещается вперед и назад между различными фазами, как это всегда требуется. Стрелки на диаграмме процесса указывают на наиболее важные и частые зависимости между фазами. Внешний круг на диаграмме символизирует циклический характер самого интеллектуального анализа данных. Процесс интеллектуального анализа данных продолжается после развертывания решения. Уроки, извлеченные в ходе процесса, могут вызвать новые, часто более целенаправленные бизнес-вопросы, а последующие процессы интеллектуального анализа данных извлекут пользу из опыта предыдущих.

Примечания

[править | править код]
  1. Shearer C., The CRISP-DM model: the new blueprint for data mining, J Data Warehousing (2000); 5:13—22.
  2. Poll: What main methodology are you using for data mining? www.kdnuggets.com. Дата обращения: 14 сентября 2016. Архивировано 16 января 2017 года.
  3. Poll: Data Mining Methodology. www.kdnuggets.com. Дата обращения: 14 сентября 2016. Архивировано 8 февраля 2017 года.
  4. What main methodology are you using for your analytics, data mining, or data science projects? Poll. www.kdnuggets.com. Дата обращения: 14 сентября 2016. Архивировано 1 августа 2016 года.
  5. Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); A Data Mining & Knowledge Discovery Process Model Архивная копия от 30 апреля 2013 на Wayback Machine. In Data Mining and Knowledge Discovery in Real Life Applications, Book edited by: Julio Ponce and Adem Karahoca, ISBN 978-3-902613-53-0, pp. 438—453, February 2009, I-Tech, Vienna, Austria.
  6. Pete Chapman (1999); The CRISP-DM User Guide Архивная копия от 14 июля 2015 на Wayback Machine.
  7. Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); CRISP-DM 1.0 Step-by-step data mining guide (недоступная ссылка).