Дистрибутивная семантика: различия между версиями

Интерактивная навигация по истории

(Показать все непатрулированные изменения)

[отпатрулированная версия]

[непроверенная версия]

← Предыдущая правка Следующая правка →

Содержимое удалено Содержимое добавлено

ВизуальныйВики-текст

Линейный

Версия от 20:47, 21 марта 2015

Дистрибути́вная сема́нтика — это область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их дистрибуционных признаков в больших массивах лингвистических данных.

Каждому слову присваивается свой контекстный вектор. Множество векторов формирует словесное векторное пространство.

Семантическое расстояние между понятиями, выраженными словами естественного языка, вычисляется как расстояние между векторами словесного пространства.

История

«Дистрибутивный анализ — это метод исследования языка, основанный на изучении окружения (дистрибуции, распределения) отдельных единиц в тексте и не использующий сведений о полном лексическом или грамматическом значении этих единиц» ^[1].

В рамках данного метода к текстам изучаемого языка применяется упорядоченный набор универсальных процедур, что позволяет выделить основные единицы языка (фонемы, морфемы, слова, словосочетания), провести их классификацию и установить отношения сочетаемости между ними.

Классификация основывается на принципе замещения: языковые единицы относятся к одному и тому же классу, если они могут выступать в одних и тех же контекстах.

Дистрибутивный анализ был предложен Л. Блумфилдом в 20-х гг. XX века и применялся, главным образом, в фонологии и морфологии.

3. Харрис и другие представители дескриптивной лингвистики развивали данный метод в своих работах в 30 — 50-х гг. XX века.

Близкие идеи выдвигали основоположники структурной лингвистики Ф. де Соссюр и Л. Витгенштейн.

Идея контекстных векторов была предложена психологом Ч. Осгудом в рамках работ по представлению значений слов^[2].

Контексты, в которых встречались слова, выступали в качестве измерений многоразрядных векторов.

В качестве таких контекстов в работах Осгуда использовались антонимические пары прилагательных (например, быстрый-медленный), для которых участники опроса выставляли оценки по семибалльной шкале.

Пример пространства контекстных признаков, описывающего значение слов мышь и крыса из работы Осгуда:

Термин контекстный вектор был введён С. Галлантом для описания смысла слов и разрешения лексической неоднозначности ^[3].

В работах Галланта использовалось множество признаков, заданное исследователем, таких как человек, мужчина, машина и т. д.

Пример пространства контекстных признаков, описывающего значение слова астронавт из работы Галланта:

В течение последних двух десятилетий метод дистрибутивного анализа широко применялся к изучению семантики.

Была разработана дистрибутивно-семантическая методика и соответствующее программное обеспечение, которые позволяют автоматически сравнивать контексты, в которых встречаются изучаемые языковые единицы, и вычислять семантические расстояния между ними^[4].

Дистрибутивная гипотеза

Дистрибутивная семантика основывается на дистрибутивной гипотезе: лингвистические единицы, встречающиеся в схожих контекстах, имеют близкие значения^[5].

Психологические эксперименты подтвердили истинность данной гипотезы. Например, в одной из работ ^[6] участников эксперимента просили высказать свое суждение о синонимичности предъявляемых им пар слов. Данные опроса затем сравнивали с контекстами, в которых встречались изучаемые слова. Эксперимент показал наличие положительной корреляции между семантической близостью слов и схожестью контекстов, в которых они встречаются.

Математическая модель

В качестве способа представления модели используются векторные пространства из линейной алгебры. Информация о дистрибуции лингвистических единиц представляется в виде многоразрядных векторов, которые образуют словесное векторное пространство. Векторы соответствуют лингвистическим единицам (словам или словосочетаниям), а измерения соответствуют контекстам. Координаты векторов представляют собой числа, показывающие, сколько раз данное слово или словосочетание встретилось в данном контексте.

Пример словесного векторного пространства, описывающего дистрибутивные характеристики слов tea и coffee, в котором контекстом выступает соседнее слово:

Размер контекстного окна определяется целями исследования^[7]:

установление синтагматических связей −1-2 слова;
установление парадигматических связей — 5-10 слов;
установление тематических связей — 50 слов и больше.

Семантическая близость между лингвистическими единицами вычисляется как расстояние между векторами. В исследованиях по дистрибутивной семантике чаще всего используется косинусная мера, которая вычисляется по формуле:

{\frac {\sum \limits _{i=1}^{n}{A_{i}\times B_{i}}}{{\sqrt {\sum \limits _{i=1}^{n}{(A_{i})^{2}}}}\times {\sqrt {\sum \limits _{i=1}^{n}{(B_{i})^{2}}}}}}

где $A$ и $B$ — два вектора, расстояние между которыми вычисляется.

После проведения подобного анализа становится возможным выявить наиболее близкие по смыслу слова по отношению к изучаемому слову.

Пример наиболее близких слов к слову кошка (список получен на основании данных веб-корпуса русского языка^[8], обработка корпуса выполнена системой Sketch Engine^[9]):

В графическом виде слова могут быть представлены как точки на плоскости, при этом точки, соответствующие близким по смыслу словам, расположены близко друг к другу. Пример словесного пространства, описывающего предметную область суперкомпьютеры, из работы Генриха Шутце^[10]:

Модели дистрибутивной семантики

Существует множество различных моделей дистрибутивной семантики, которые различаются по следующим параметрам:

тип контекста: размер контекста, правый или левый контекст, ранжирование;
количественная оценка частоты встречаемости слова в данном контексте: абсолютная частота, TF-IDF, энтропия, совместная информация и пр.;
мера расстояния между векторами: косинус, скалярное произведение, расстояние Минковского и пр.;
метод уменьшения размерности матрицы: случайная проекция, сингулярное разложение, случайное индексирование и пр.

Наиболее широко известны следующие дистрибутивно-семантические модели:

Уменьшение размерности векторных пространств

При применении дистрибутивно-семантических моделей в реальных приложениях возникает проблема слишком большой размерности векторов, соответствующей огромному числу контекстов, представленных в текстовом корпусе. Возникает необходимость в применении специальных методов, которые позволяют уменьшить размерность и разреженность векторного пространства и при этом сохранить как можно больше информации из исходного векторного пространства.

Методы уменьшения размерности векторных пространств:

удаление определенных измерений векторов в соответствии с лингвистическими или статистическими критериями;
сингулярное разложение;
случайное индексирование^[11].

Области применения

Модели дистрибутивной семантики нашли применение в исследованиях и практических реализациях, связанных с семантическими моделями естественного языка.

Дистрибутивные модели применяются для решения следующих задач^[12]:

выявление семантической близости слов и словосочетаний^[13];
автоматическая кластеризация слов по степени их семантической близости;
автоматическая генерация тезаурусов и двуязычных словарей^[12]^[14];
разрешение лексической неоднозначности;
расширение запросов за счет ассоциативных связей;
определение тематики документа;
кластеризация документов для информационного поиска;
извлечение знаний из текстов;
построение семантических карт различных предметных областей^[7];
моделирование перифраз;
определение тональности высказывания;
моделирование сочетаемостных ограничений слов ^[15].

Программы

Существует несколько программных средств для проведения исследований по дистрибутивной семантике с открытым кодом:

Примечания

Литература

Schutze H. Dimensions of meaning // Proceedings of Supercomputing'92. — 1992. — С. 787-796.
Sahlgren M. An Introduction to Random Indexing (англ.) // Proceedings of the Methods and Applications of Semantic Indexing Workshop at the 7th International Conference on Terminology and Knowledge Engineering, TKE 2005 : конференция. — 2005.
Sahlgren M. The Word-Space Model: Using distributional analysis to represent syntagmatic and paradigmatic relations between words in high-dimensional vector spaces (Ph.D. Thesis). — Department of Linguistics, Stockholm University, 2006.
Sahlgren M. The Distributional Hypothesis. From context to meaning (англ.) // Distributional models of the lexicon in linguistics and cognitive science (Special issue of the Italian Journal of Linguistics), Rivista di Linguistica : журнал. — 2008. — Vol. 20, no. 1. — P. 33-53.
Sahlgren M., Karlgren J. Automatic Bilingual Lexicon Acquisition Using Random Indexing of Parallel Corpora (англ.) // Journal of Natural Language Engineering, Special Issue on Parallel Texts : журнал. — 2005. — Vol. 11, iss. 3.
Gallant S. Context vector representations for document retrieval (англ.) // Proceedings of AAAI Workshop on Natural Language Text Retrieval : конференция. — 1991.
Osgood C., Suci G., Tannenbaum P. The measurement of meaning (англ.). — University of Illinois Press, 1957.
Rubenstein H., Goodenough J. Contextual correlates of synonymy (англ.) // Communications of the ACM : журнал. — 1965. — Vol. 8, iss. 10. — P. 627-633.
Митрофанова О.А. Измерение семантических расстояний как проблема прикладной лингвистики (рус.) // Структурная и прикладная лингвистика. Межвузовский сборник : журнал. — Издательство СПбГУ, 2008. — Вып. 7.
Шарнин М. М., Сомин Н. В., Кузнецов И. П., Морозова Ю. И., Галина И. В., Козеренко Е. Б. Статистические механизмы формирования ассоциативных портретов предметных областей на основе естественно-языковых текстов больших объемов для систем извлечения знаний (рус.) // Информатика и ее применения : журнал. — 2013. — Т. 7, вып. 2. — С. 92-99.
Морозова Ю. И., Козеренко Е. Б., Шарнин М. М. Методика извлечения пословных переводных соответствий из параллельных текстов с применением моделей дистрибутивной семантики (рус.) // Системы и средства информатики : журнал. — 2014. — Т. 24, вып. 1.
Клышинский Э. С., Кочеткова Н. А., Логачева В. К. Метод кластеризации слов с использованием информации об их синтаксической связности (рус.) // Научно-техническая информация. Серия 2: Информационные процессы и системы : журнал. — 2013. — № 11. — С. 36-43.
Пекар В. И. Дистрибутивная модель сочетаемостных ограничений глаголов (рус.) // Труды международного семинара Диалог 2004 по компьютерной лингвистике : конференция. — 2004.
Лингвистический энциклопедический словарь (рус.) / Ярцева В. Н.. — М.: Советская энциклопедия, 1990.
Russian Web Corpus (англ.). Lexical Computing Ltd.. Дата обращения: 17 апреля 2014.
Sketch Engine corpus manager (англ.). Lexical Computing Ltd.. Дата обращения: 17 апреля 2014.

[_093e21eee764e90e-1] Ярцева, 1990.

[_7712df90bf269618-2] Osgood et al., 1957.

[_49c565606c48bfe2-3] Gallant, 1991.

[_9f79e40def905eb5-4] Митрофанова, 2008.

[_0d67d63c67c17315-5] Sahlgren, 2008.

[_9ce39de39d3a982a-6] Rubenstein, Goodenough, 1965.

[_fbe149f2f0af16a3-7] ¹ ² Шарнин и др., 2013.

[_9a25de4f82bed7c0-8] Russian Web Corpus.

[_3126b4ad5b23a66d-9] Sketch Engine.

[_63836612b0b5be5e-10] Schutze, 1992.

[_79e2f745f9ff0c54-11] Sahlgren, 2005.

[_859fb61f93eca7af-12] ¹ ² Морозова и др., 2014.

[_0b2d3068cd2d468a-13] Клышинский и др., 2013.

[_b0901d2ad8970680-14] Sahlgren, Karlgren, 2005.

[_117af8f0078f36e6-15] Пекар, 2004.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

@@ Строка 118: / Строка 118: @@
 * [https://github.com/fozziethebeat/S-Space/ S-Space]
 * [https://code.google.com/p/semanticvectors/ Semantic Vectors]
-* [http://radimrehurek.com/gensim/index.html Gensim]
+* [http://radimrehurek.com/gensim Gensim]
+* [https://code.google.com/p/word2vec word2vec]
 == Примечания ==

Дистрибутивная семантика: различия между версиями

Версия от 20:47, 21 марта 2015

Содержание

История

Дистрибутивная гипотеза

Математическая модель

Модели дистрибутивной семантики

Уменьшение размерности векторных пространств

Области применения

Программы

Примечания

Литература

Навигация

Дистрибутивная семантика: различия между версиями

Версия от 20:47, 21 марта 2015

История

Дистрибутивная гипотеза

Математическая модель

Модели дистрибутивной семантики

Уменьшение размерности векторных пространств

Области применения

Программы

Примечания

Литература

Навигация

Поиск