Классификация документов: различия между версиями
[отпатрулированная версия] | [отпатрулированная версия] |
Kuzmaka (обсуждение | вклад) |
Kuzmaka (обсуждение | вклад) сузил "информатику" до "информационного поиска" |
||
Строка 1: | Строка 1: | ||
'''Классификация документов''' — одна из задач [[ |
'''Классификация документов''' — одна из задач [[Информационный поиск|информационного поиска]], заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа. |
||
Использует методы |
Использует методы [[Машинное обучение|машинного обучения]]. |
||
Следует отличать классификацию текстов от [[Кластеризация документов|кластеризации]], в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют. |
Следует отличать классификацию текстов от [[Кластеризация документов|кластеризации]], в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют. |
Версия от 15:43, 25 июня 2010
Классификация документов — одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.
Использует методы машинного обучения.
Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.
Постановка задачи
Имеется множество категорий .
Имеется множество документов .
Неизвестная целевая функция .
Необходимо построить классификатор , максимально близкий к .
Имеется некоторая начальная коллекция документов, для которой известны значения . Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.
Классификатор может выдавать точный ответ или степень подобия .
Этапы обработки
- Индексация документов
- Построение некоторой числовой модели текста, например в виде многомерного вектора слов и их веса в документе. Уменьшение размерности модели.
- Построение и обучение классификатора
- Могут использоваться различные методы машинного обучения: решающие деревья, наивный байесовский классификатор, нейронные сети, метод опорных векторов и др.
- Оценка качества классификации
- Можно оценивать по критериям полноты, точности, сравнивать классификаторы по специальным тестовым наборам.
Применение
- фильтрация спама
- составление интернет-каталогов
- подбор контекстной рекламы
- в системах документооборота
- автоматическое реферирование (составление аннотаций)
- снятие неоднозначности при автоматическом переводе текстов
- ограничение области поиска в поисковых системах
Литература
- Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze An Introduction to Information Retrieval Draft. Online edition. Cambridge University Press. - 2009. - 544 p.
См. также
Ссылки
- Лекция № 6 по классификации текстов курса «Современные задачи теоретической информатики» (постановка задачи, построение и обучение классификатора, оценка качества).
- F. Sebastiani. Machine Learning in Automated Text Categorization (PDF). (англ.)
- "Семантическое зеркало". Пример технологии автоматической классификации документов.