Классификация документов
Классификация документов — одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.
Классификация может осуществляться полностью вручную, либо автоматически с помощью созданного вручную набора правил, либо автоматически с применением методов машинного обучения.
Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.
Подходы к классификации текстов
Существует три подхода к задаче классификации текстов[1].
Прежде всего, классификация не всегда осуществляется с помощью компьютера. Например, в обычной библиотеке тематические рубрики присваиваются книгам вручную библиотекарем. Подобная ручная классификация дорога и неприменима в больших масштабах.
Другой подход заключается в написании правил, по которым можно отнести текст к той или иной категории. Например, одно из таких правил может выглядеть следующим образом: "если текст содержит слова производная и уравнение, то отнести его к категории математика". Специалист, знакомый с предметной областью и обладающий навыком написания регулярных выражений, может составить ряд правил, которые затем автоматически применяются к поступающим документам для их классификации. Этот подход лучше предыдущего, поскольку процесс классификации автоматизируется и, следовательно, количество обрабатываемых документов практически не ограничено. Более того, построение правил вручную может дать лучшую точность классификации, чем при машинном обучении (см. ниже). Однако создание и поддержание правил в актуальном состоянии (например, если для классификации новостей используется имя действующего президента страны, соответствующее правило нужно время от времени изменять) требует постоянных усилий специалиста.
Наконец, третий подход основывается на машинном обучении. В этом подходе набор правил или, более общо, критерий принятия решения текстового классификатора, вычисляется автоматически из обучающих данных (другими словами, производится обучение классификатора). Обучающие данные — это некоторое количество хороших образцов документов из каждого класса. В машинном обучении сохраняется необходимость ручной разметки (термин разметка означает процесс приписывания класса документу). Но разметка является более простой задачей, чем написание правил. Кроме того, разметка может быть произведена в обычном режиме использования системы. Например, в программе электронной почты может существовать возможность помечать письма как спам, тем самым формируя обучающее множество для классификатора — фильтра нежелательных сообщений. Таким образом, классификация текстов, основанная на машинном обучении, является примером обучения с учителем, где в роли учителя выступает человек, размечающий обучающее множество.
Постановка задачи
Имеется множество категорий (классов, меток) .
Имеется множество документов .
Неизвестная целевая функция .
Необходимо построить классификатор , максимально близкий к .
Имеется некоторая начальная коллекция документов, для которой известны значения . Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.
Классификатор может выдавать точный ответ или степень подобия .
Этапы обработки
- Индексация документов
- Построение некоторой числовой модели текста, например в виде многомерного вектора слов и их веса в документе. Уменьшение размерности модели.
- Построение и обучение классификатора
- Могут использоваться различные методы машинного обучения: решающие деревья, наивный байесовский классификатор, нейронные сети, метод опорных векторов и др.
- Оценка качества классификации
- Можно оценивать по критериям полноты, точности, сравнивать классификаторы по специальным тестовым наборам.
Применение
- фильтрация спама
- составление интернет-каталогов
- подбор контекстной рекламы
- в системах документооборота
- автоматическое реферирование (составление аннотаций)
- снятие неоднозначности при автоматическом переводе текстов
- ограничение области поиска в поисковых системах
Примечания
- ↑ Manning at al. (2009) — p. 255
Литература
- Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze An Introduction to Information Retrieval Draft. Online edition. Cambridge University Press. - 2009. - 544 p.
См. также
Ссылки
- Лекция № 6 по классификации текстов курса «Современные задачи теоретической информатики» (постановка задачи, построение и обучение классификатора, оценка качества).
- F. Sebastiani. Machine Learning in Automated Text Categorization (PDF). (англ.)
- "Семантическое зеркало". Пример технологии автоматической классификации документов.