Национальный корпус русского языка
Национальный корпус русского языка | |
---|---|
URL | ruscorpora.ru |
Коммерческий | нет |
Тип сайта | образовательный/научный проект |
Регистрация | есть: необходима для получения доступа к текстам; лицензионное соглашение |
Язык (-и) | русский/английский |
Расположение сервера | Россия |
Владелец | Институт русского языка имени В. В. Виноградова РАН |
Начало работы | 2004 |
Текущий статус | работает и развивается |
Страна | |
Медиафайлы на Викискладе |
Национа́льный ко́рпус ру́сского языка́ (НКРЯ) — доступный для поиска электронный онлайн-корпус русскоязычных текстов.
Корпус открыт 29 апреля 2004 года[1]. Также доступен для поиска исторический корпус церковнославянских, древнерусских (XI—XIV века) и среднерусских (XV — начало XVIII века) текстов.
Составители
[править | править код]Работы по созданию корпуса были начаты в 2001 году группой филологов из Москвы, Санкт-Петербурга, Воронежа и других городов.
В программе по созданию Национального корпуса русского языка участвуют специалисты следующих организаций[2]:
- Институт русского языка имени В. В. Виноградова РАН (ИРЯ РАН).
- Институт языкознания РАН (ИЯз РАН).
- Институт проблем передачи информации имени А. А. Харкевича РАН (ИППИ РАН).
- Институт лингвистических исследований РАН (ИЛИ РАН) в Санкт-Петербурге (совместно с Санкт-Петербургским государственным университетом (СПбГУ)).
- Воронежский государственный университет[3].
Состав корпуса
[править | править код]В корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед).
В корпус также входят подкорпусы поэтических и диалектных текстов, корпусы параллельных текстов (корпусы, параллельные с русским, доступны для следующих языков: английский, армянский, белорусский, болгарский, бурятский, испанский, итальянский, китайский, латышский, немецкий, польский, украинский, французский, шведский, эстонский и многоязычный), отдельный газетный корпус (материалы СМИ начала XXI века), церковнославянский корпус (богослужебные тексты, современные (XIX—XX век) и более ранних периодов), исторический (в том числе древнерусский, старорусский, берестяных грамот), синтаксический, акцентологический, мультимедийный и обучающий подкорпусы.
С 2010 года в составе исторического подкорпуса Национального корпуса русского языка доступен текстовый корпус берестяных грамот с полной морфологической разметкой. Тексты берестяных грамот в составе корпуса интерактивно связаны с их представлением на сайте gramoty.ru[4].
Объём корпуса
[править | править код]Объём основного корпуса на декабрь 2023 года составлял 375 млн словоупотреблений, а общий объём корпусов превышает больше 2 млрд словоупотреблений[5].
Тексты снабжены метаразметкой (по дате создания, автору, жанру и тому подобному); словоформы в текстах снабжены автоматической морфологической и семантической разметкой; параллельные тексты выровнены; тексты поэтического корпуса снабжены также особой метрической разметкой.
1,5 % текстов снабжены морфологической[6] и семантической[7] разметкой со снятой вручную омонимией («дезамбигуированный подкорпус»).
Корпус | Число текстов | Число предложений | Число словоупотреблений | % словоупотреблений |
---|---|---|---|---|
Дезамбигуированная часть корпуса | 2 тыс. | 500 тыс. | 6 млн | 1,6 % |
Основной корпус | 84 тыс. | 19,1 млн | 209 млн | 57,3 % |
Весь корпус | 342 тыс. | 32 млн | 364 млн | 100 % |
Доступ
[править | править код]В настоящее время свободным и бесплатным является только поиск по корпусу. Сайт корпуса и поиск по нему поддерживаются компанией «Яндекс», сотрудники которой принимали участие также в разработке программного обеспечения корпуса. Доступ ко всему корпусу (копирование и передача его базы данных) запрещён лицензионным соглашением. Для получения доступа к 1/6 размеченной части подкорпуса необходимо зарегистрироваться и принять лицензионное соглашение[8]. Проблему с ограничением доступа призван решить проект «Открытый корпус», также создающий корпус русского языка, но под свободной лицензией[9].
См. также
[править | править код]Примечания
[править | править код]- ↑ Новости НКРЯ . Национальный корпус русского языка. Дата обращения: 9 сентября 2024.
- ↑ Участники проекта . Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 8 марта 2018 года.
- ↑ О проекте. Параллельные корпуса письменных текстов . Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 8 марта 2018 года.
- ↑ Зализняк А. А., Янин В. Л., Гиппиус А. А. Новгородские грамоты на бересте (из раскопок 2001—2014 гг.) Архивная копия от 27 марта 2019 на Wayback Machine. Том XII. — М.: Языки славянской культуры, 2015. — 288 с.
- ↑ Национальный корпус русского языка . ruscorpora.ru. Дата обращения: 7 марта 2018. Архивировано 7 октября 2011 года.
- ↑ Морфология . Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 19 февраля 2018 года.
- ↑ Семантика . Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 19 февраля 2018 года.
- ↑ Использование корпуса. Лицензионное соглашение . Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 8 марта 2018 года.
- ↑ OpenCorpora: открытый корпус русского языка . opencorpora.org. Дата обращения: 26 января 2022. Архивировано 26 января 2022 года.
Литература
[править | править код]- Национальный корпус русского языка: 2003—2005. Сборник статей / Отв. ред. В. А. Плунгян. — М.: Индрик, 2005. — 502 с. — ISBN ISBN 5-85759-358-1.
- Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы / Отв. ред. В. А. Плунгян. — СПб.: Нестор-История, 2009. — 502 с. — ISBN ISBN 978-5-98187-327-0.
- Плунгян В. А. Зачем мы делаем Национальный корпус русского языка? // Отечественные записки. — 2005. — № 2(23).