Обсуждение:Data mining
Проект «Информационные технологии» (уровень III, важность для проекта высокая)
Эта статья тематически связана с вики-проектом «Информационные технологии», цель которого — создание и улучшение статей по темам, связанным с информационными технологиями. Вы можете её отредактировать, а также присоединиться к проекту, принять участие в его обсуждении и поработать над требуемыми статьями. |
Эта статья была переименована по результатам обсуждения от 3 апреля 2011 года. Старое название Статистический анализа данных было изменено на новое: Data mining. Для повторного выставления статьи на переименование нужны веские основания, иначе такое действие будет нарушать правила (см. п. 8). |
Перевод термина на русский язык
[править код]Мне кажется очень субъективным высказывание: "Наиболее удачным непрямым переводом считается термин «интеллектуальный анализ данных» (ИАД)". Хорошо бы было иметь ссылку к этому. ИАД - не передает главного смысла Data-mining'а, который заключается в выявлении (создании новых) закономерностей и связей, то есть данных. "Добыча данных" передает этот смысл гораздо лучше. К тому же именно термин "добыча данных" используют организации, представляющие себя специалистами в области Data-mining'a (в частности BaseGroup Labs). --Pancho101 11:19, 10 января 2010 (UTC)
- Просто "Анализ Данных" притом такая статья уже есть, нужно объединить статьи и перенести эту статью в Анализ_данных, всё же просто !
"Добыча данных" - еще более неудачный перевод, чем ИАД. Никаких данных в процессе не добывается (ну или почти не добывается). В процессе Data mining из данных выявляются закономерности и связи. С другой стороны "Интеллектуальный анализ данных" - тоже кривоватый перевод - а может ли анализ быть не интеллектуальным? В реальности спецы сейчас используют разные термины, кто во что горазд. В большинстве случаев за переводом всегда делают пояснение, что подразумевают именно data mining: "Интеллектуальный анализ данных (data mining)..."
Ale000 11:53, 2 сентября 2010 (UTC)ale000
- "выявляются закономерности и связи" - это собственно и есть добываемые данные, ради которых весь сыр-бор. И стоит добыча этих данных часто подороже, чем добыча полезных ископаемых в обычных шахтах. --Aleks Revo 13:10, 15 марта 2011 (UTC)
- Ale000, ты не прав
а может ли анализ быть не интеллектуальным?
- Элементарно:
- регрессионный анализ. Абсолютно примитивный метод. Выдаёт чисто формальные (неинтелелктуальные) результаты. Так, уже в учебниках для экомистов (обычно невеликих математиков) я встечал предупреждение, што простой (линейный) регрессионный анализ не видит разности между окружностью, кругом, или роем точек заполняющем круг. Проще - он говорит, что это - одна и та же фигура. Возможно, что это - пик интелекта, но мне он не доступен.
- Корреляционный анализ - это именно тот метод, который позволяет установить, что те, кто съдают в день по три ананаса - имеют меньше шансов быть обкаканными попугаями породы какаду, при проживании в Сан-Паулу. То есть делать "научные" сенсации британских учёных для жёлтой прессы. Причем проверка - если вдруг вы её сделаете - нередко показывает, что повышение веротяности составляет целых 0,3% при средней вероятности 70%, при ошибке подщёта - процентов 200% (математики и инженеры меня поймут)! Но даже если Корреляционный анализ ставит нормальную цель, и построен математически грамотно, он говорит только о зависимости двух (или нескольких) характеристик (переменных. величин). Причём - только о ВОЗМОЖНОЙ связи!. Но ничего не говорит о механизме, структуре, связи деталей - которая и приводит к зависимости величин. А выявление этого механизма - и есть интеллектуальная задача науки.
- Элементарно:
- Единственное преимущества подобных "анализов" - их действительно можно посчитать. То есть получить хоть какие то намёки на связи в данных. Причём формально - то есть поручить это компьютеру. (То есть - быстро, и без большого труда)
- Поэтому, чтобы подчеркнуть, что ставится задача получения именно интеллектуальных (осмысленных) результатов, в отличие от предшествующих методов анализа был использован термин - "Интеллектуальный анализ данных". К сожалению интеллектуальность тут - чисто рекламная. На самом деле, все методы, описанные в статье на 2014 г - ничуть не более интеллектуальные, чем другие анализы. (а часто - это давно известный статистический анализ, просто продаваемый под новым брендом. И в статье эти методы перечислены:
К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей).
- Иначе говоря: новых интеллектуальных методов создать не удалось, и пользуются старыми малоинтеллектуальными (выдающими результат на уровне идиотов).
- Коллеги, хочу обратить ваше внимание на обсуждение: Википедия:К переименованию/3 апреля 2011#Статистический анализ данных → Интеллектуальный анализ данных. bezik⫟ 16:53, 6 апреля 2011 (UTC)
Дело в том, что уже Data mining - плохой термин. На самом деле данные уже есть (то есть они добыты - когда-то раньше). "Data mining" извлекает не данные - а извлекает ИЗ данных. Извлекает нечто (знание, информацию высокого уровня) - закономерности, например - которых среди данных в явном виде не было. То есть по-английски это правильно было бы назвать "Data refining", или "Data enriching". Просто в случае даных работа оказывается очень тяжёлой (из-за полного отсутствия интеллектуальных математических методов). Так что по тяжести она сравнима с работой в шахтах(во всяком случае - с точки зрения программиста и IT-шника. У шахтёров тут явно будет другое мнение!). Так что термин "mining" - это только метафора (или метонимия - :)) - переносное значение. В русском же языке метафора теряется, а буквальное значения - утрачено ещё в английском. Остаётся бессмыслица. О ней мы и спорим.
"Интеллектуальный анализ данных" - уже лучше (хоть не полный бред). Просто это название лживо: задача сделать анализ интеллектуальным - только поставлена, но используются неинтеллектуальные методы (см. мою реплику выше). И ошибочно: в "Data mining" делается не анализ а синтез данных
Соответсвует содержанию только третий термин: «обнаружение знаний в базах данных» (англ. knowledge discovery in databases, KDD). Это именно то хотят сделать в "Data mining". Но термин - вдвое длиннее и это не даёт ему закрепиться. Возможно, если бы специалисты в этой области пробовали бы думать по-русски, название сократилось бы до «обнаружение знаний».
АИ требует пароль
[править код]Вторая ссылка недоступна — требуется логин и пароль пользователя. VitalyTarasov 19:47, 4 декабря 2013 (UTC)
- убрал. Спасибо. РоманСузи 04:18, 5 декабря 2013 (UTC)
используется неописанная задача
[править код]Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К.
"Задачи сокращения описания" отсутствуют в классификации задач выше.
Сам исправить не могу - не хватает заний.
Возможно перепутаны методы обучения
[править код]Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.
Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.
Как-то оно странно звучит: задача кластеризации - явно сложнее, но она автоматическая. Задач классификации (для заранее заданных классов) - проще. Но она выполняется "с учителем". Вообще учителя имеет смысл вводить в машинную систему только если задача слишком сложна, и человек - своими знаниями, ропытом и интуицией - ускоряет обучение и позволяет избежать тупиков.
Возможно,что-то перепутано?