Классификация документов: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
сузил "информатику" до "информационного поиска"
Строка 1: Строка 1:
'''Классификация документов''' — одна из задач [[информатика|информатики]], заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.
'''Классификация документов''' — одна из задач [[Информационный поиск|информационного поиска]], заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.


Использует методы [[Информационный поиск|информационного поиска]] и [[Машинное обучение|машинного обучения]].
Использует методы [[Машинное обучение|машинного обучения]].


Следует отличать классификацию текстов от [[Кластеризация документов|кластеризации]], в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.
Следует отличать классификацию текстов от [[Кластеризация документов|кластеризации]], в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.

Версия от 15:43, 25 июня 2010

Классификация документов — одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.

Использует методы машинного обучения.

Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.

Постановка задачи

Имеется множество категорий .

Имеется множество документов .

Неизвестная целевая функция .

Необходимо построить классификатор , максимально близкий к .

Имеется некоторая начальная коллекция документов, для которой известны значения . Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.

Классификатор может выдавать точный ответ или степень подобия .

Этапы обработки

Индексация документов
Построение некоторой числовой модели текста, например в виде многомерного вектора слов и их веса в документе. Уменьшение размерности модели.
Построение и обучение классификатора
Могут использоваться различные методы машинного обучения: решающие деревья, наивный байесовский классификатор, нейронные сети, метод опорных векторов и др.
Оценка качества классификации
Можно оценивать по критериям полноты, точности, сравнивать классификаторы по специальным тестовым наборам.

Применение

Литература

См. также

Ссылки