Обсуждение:Data mining

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Перевод термина на русский язык

[править код]

Мне кажется очень субъективным высказывание: "Наиболее удачным непрямым переводом считается термин «интеллектуальный анализ данных» (ИАД)". Хорошо бы было иметь ссылку к этому. ИАД - не передает главного смысла Data-mining'а, который заключается в выявлении (создании новых) закономерностей и связей, то есть данных. "Добыча данных" передает этот смысл гораздо лучше. К тому же именно термин "добыча данных" используют организации, представляющие себя специалистами в области Data-mining'a (в частности BaseGroup Labs). --Pancho101 11:19, 10 января 2010 (UTC)[ответить]

Просто "Анализ Данных" притом такая статья уже есть, нужно объединить статьи и перенести эту статью в Анализ_данных, всё же просто !


"Добыча данных" - еще более неудачный перевод, чем ИАД. Никаких данных в процессе не добывается (ну или почти не добывается). В процессе Data mining из данных выявляются закономерности и связи. С другой стороны "Интеллектуальный анализ данных" - тоже кривоватый перевод - а может ли анализ быть не интеллектуальным? В реальности спецы сейчас используют разные термины, кто во что горазд. В большинстве случаев за переводом всегда делают пояснение, что подразумевают именно data mining: "Интеллектуальный анализ данных (data mining)..." Ale000 11:53, 2 сентября 2010 (UTC)ale000[ответить]

"выявляются закономерности и связи" - это собственно и есть добываемые данные, ради которых весь сыр-бор. И стоит добыча этих данных часто подороже, чем добыча полезных ископаемых в обычных шахтах. --Aleks Revo 13:10, 15 марта 2011 (UTC)[ответить]
Ale000, ты не прав

а может ли анализ быть не интеллектуальным?

Элементарно:
  • регрессионный анализ. Абсолютно примитивный метод. Выдаёт чисто формальные (неинтелелктуальные) результаты. Так, уже в учебниках для экомистов (обычно невеликих математиков) я встечал предупреждение, што простой (линейный) регрессионный анализ не видит разности между окружностью, кругом, или роем точек заполняющем круг. Проще - он говорит, что это - одна и та же фигура. Возможно, что это - пик интелекта, но мне он не доступен.
  • Корреляционный анализ - это именно тот метод, который позволяет установить, что те, кто съдают в день по три ананаса - имеют меньше шансов быть обкаканными попугаями породы какаду, при проживании в Сан-Паулу. То есть делать "научные" сенсации британских учёных для жёлтой прессы. Причем проверка - если вдруг вы её сделаете - нередко показывает, что повышение веротяности составляет целых 0,3% при средней вероятности 70%, при ошибке подщёта - процентов 200% (математики и инженеры меня поймут)! Но даже если Корреляционный анализ ставит нормальную цель, и построен математически грамотно, он говорит только о зависимости двух (или нескольких) характеристик (переменных. величин). Причём - только о ВОЗМОЖНОЙ связи!. Но ничего не говорит о механизме, структуре, связи деталей - которая и приводит к зависимости величин. А выявление этого механизма - и есть интеллектуальная задача науки.
Единственное преимущества подобных "анализов" - их действительно можно посчитать. То есть получить хоть какие то намёки на связи в данных. Причём формально - то есть поручить это компьютеру. (То есть - быстро, и без большого труда)
Поэтому, чтобы подчеркнуть, что ставится задача получения именно интеллектуальных (осмысленных) результатов, в отличие от предшествующих методов анализа был использован термин - "Интеллектуальный анализ данных". К сожалению интеллектуальность тут - чисто рекламная. На самом деле, все методы, описанные в статье на 2014 г - ничуть не более интеллектуальные, чем другие анализы. (а часто - это давно известный статистический анализ, просто продаваемый под новым брендом. И в статье эти методы перечислены:

К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей).

Иначе говоря: новых интеллектуальных методов создать не удалось, и пользуются старыми малоинтеллектуальными (выдающими результат на уровне идиотов).
Коллеги, хочу обратить ваше внимание на обсуждение: Википедия:К переименованию/3 апреля 2011#Статистический анализ данных → Интеллектуальный анализ данных. bezik 16:53, 6 апреля 2011 (UTC)[ответить]

Дело в том, что уже Data mining - плохой термин. На самом деле данные уже есть (то есть они добыты - когда-то раньше). "Data mining" извлекает не данные - а извлекает ИЗ данных. Извлекает нечто (знание, информацию высокого уровня) - закономерности, например - которых среди данных в явном виде не было. То есть по-английски это правильно было бы назвать "Data refining", или "Data enriching". Просто в случае даных работа оказывается очень тяжёлой (из-за полного отсутствия интеллектуальных математических методов). Так что по тяжести она сравнима с работой в шахтах(во всяком случае - с точки зрения программиста и IT-шника. У шахтёров тут явно будет другое мнение!). Так что термин "mining" - это только метафора (или метонимия - :)) - переносное значение. В русском же языке метафора теряется, а буквальное значения - утрачено ещё в английском. Остаётся бессмыслица. О ней мы и спорим.

"Интеллектуальный анализ данных" - уже лучше (хоть не полный бред). Просто это название лживо: задача сделать анализ интеллектуальным - только поставлена, но используются неинтеллектуальные методы (см. мою реплику выше). И ошибочно: в "Data mining" делается не анализ а синтез данных

Соответсвует содержанию только третий термин: «обнаружение знаний в базах данных» (англ. knowledge discovery in databases, KDD). Это именно то хотят сделать в "Data mining". Но термин - вдвое длиннее и это не даёт ему закрепиться. Возможно, если бы специалисты в этой области пробовали бы думать по-русски, название сократилось бы до «обнаружение знаний».

АИ требует пароль

[править код]

Вторая ссылка недоступна — требуется логин и пароль пользователя. VitalyTarasov 19:47, 4 декабря 2013 (UTC)[ответить]

используется неописанная задача

[править код]

Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К.

"Задачи сокращения описания" отсутствуют в классификации задач выше.

Сам исправить не могу - не хватает заний.

Возможно перепутаны методы обучения

[править код]

Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.


Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

Как-то оно странно звучит: задача кластеризации - явно сложнее, но она автоматическая. Задач классификации (для заранее заданных классов) - проще. Но она выполняется "с учителем". Вообще учителя имеет смысл вводить в машинную систему только если задача слишком сложна, и человек - своими знаниями, ропытом и интуицией - ускоряет обучение и позволяет избежать тупиков.

Возможно,что-то перепутано?