Корпусная лингвистика

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая 65.54.154.113 (обсуждение) в 01:15, 31 декабря 2005 (Крупнейшие корпусы). Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску

Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 90-х годах XX века в связи с развитием практики создания корпусов, которому способствовало развитие вычислительной техники.

Лингвистическим корпусом называют собрание текстов, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

Целесообразность создания текстовых корпусов объясняется:

  • возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач;
  • представлением лингвистических данных в реальном контексте;
  • достаточно большой представительностью данных (при большом объёме корпуса).

История

Первые корпусы появились в США в начале 60-х годов 20-го века (корпус Брауна содержал 1 млн словоупотреблений в виде коротких текстов по 2 тсч символов).

Крупнейшие корпусы

Крупнейшие корпусы на сегодня это:

Национальный корпус русского языка, создаваемый при РАН, содержит на сегодня более 85 млн словоупотреблений.

Проблемы

Проблема репрезентативности

Не существует объективного критерия отбора текстов для корпусов. Каждая группа руководствуется своей логикой...

Проблема разметки

При разметке текстов возникает ряд проблем...

Проблема представления результатов

В больших корпусах возникает ранее не актуальная проблема: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. В этой связи в последнее время разрабатываются системы, позволяющие группировать результаты поиска, автоматически разбивать их на подмножества для упрощения работы исследователя.

Web как корпус

Для решения ряда прикладных задач в качестве корпуса может использоваться множество текстов, доступных в интернете (а это миллиарды словоупотреблений). При этом могут использоваться как непосредственно поисковые системы вроде Google или Яндекс, так и специальные сайты или программы, представляющие собой интерфейс обычных поисковых систем, более подходящий для лингвистических исследований.

Необходимо отметить, что такой корпус годится для решения ограниченного класса задач, так как тексты в интернете обычно не представлены в размеченном виде (с указанием ударений, грамматических классов, границ словосочетаний и т. д.).

На практике ограниченность доступа к корпусам приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос в Google вида "слово1 слово2". По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается.

Ссылки