Дистрибутивная семантика: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
 
(не показано 48 промежуточных версий 29 участников)
Строка 1: Строка 1:
'''Дистрибути́вная сема́нтика''' — это область [[Лингвистика|лингвистики]], которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их распределения (дистрибуции) в больших массивах лингвистических данных ([[Корпус текстов|текстовых корпусах]]).
{{Инкубатор, Уведомление|wait=20140523}}
{{В инкубаторе}}
{{Инкубатор, автопроверка}}
{{Инкубатор, Прошу помочь|20140430}}
'''Дистрибутивная семантика''' — это область [[Лингвистика|лингвистики]], которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их дистрибуционных признаков в больших массивах лингвистических данных.


Каждому слову присваивается свой ''контекстный вектор''. Множество векторов формирует ''словесное векторное пространство''.
Каждому слову присваивается свой ''контекстный вектор''. Множество векторов формирует ''словесное векторное пространство''.


Семантическое расстояние между понятиями, выраженными словами естественного языка, вычисляется как расстояние между векторами словесного пространства.
Семантическое расстояние между понятиями, выраженными словами естественного языка, обычно вычисляется как косинусное расстояние между векторами словесного пространства.


== История ==
== История ==
Строка 16: Строка 12:
Классификация основывается на принципе замещения: языковые единицы относятся к одному и тому же классу, если они могут выступать в одних и тех же контекстах.
Классификация основывается на принципе замещения: языковые единицы относятся к одному и тому же классу, если они могут выступать в одних и тех же контекстах.


Дистрибутивный анализ был предложен Л. Блумфилдом в 20-х гг. XX века и применялся, главным образом, в фонологии и морфологии.
Дистрибутивный анализ был предложен [[Блумфилд, Леонард|Леонардом Блумфилдом]] в 20-х гг. XX века и применялся главным образом в фонологии и морфологии.


3. Харрис и другие представители дескриптивной лингвистики развивали данный метод в своих работах в 30 — 50-х гг. XX века.
[[Харрис, Зеллиг|3еллиг Харрис]] и другие представители дескриптивной лингвистики развивали данный метод в своих работах в 30 — 50-х гг. XX века.


Близкие идеи выдвигали основоположники структурной лингвистики Ф. де Соссюр и Л. Витгенштейн.
Близкие идеи выдвигали основоположники структурной лингвистики [[Соссюр, Фердинанд де|Фердинанд де Соссюр]] и [[Витгенштейн, Людвиг|Людвиг Витгенштейн]].


Идея '''контекстных векторов''' была предложена психологом Ч. Осгудом в рамках работ по представлению значений слов{{sfn|Osgood et al.|1957}}.
Идея '''контекстных векторов''' была предложена [[психолингвистика|психолингвистом]] [[Осгуд, Чарлз|Чарльзом Осгудом]] в рамках работ по представлению значений слов{{sfn|Osgood et al.|1957}}.


Контексты, в которых встречались слова, выступали в качестве измерений многоразрядных векторов.
Контексты, в которых встречались слова, выступали в качестве измерений многоразрядных векторов.
Строка 30: Строка 26:
Пример пространства контекстных признаков, описывающего значение слов мышь и крыса из работы Осгуда:
Пример пространства контекстных признаков, описывающего значение слов мышь и крыса из работы Осгуда:


[[Файл:Feature space.jpg|mini|center|Пример пространства контекстных признаков, описывающего значение слов мышь и крыса из работы Осгуда]]
[[Файл:Feature space.jpg|thumb|center|Пример пространства контекстных признаков, описывающего значение слов мышь и крыса из работы Осгуда]]

Термин '''контекстный вектор''' был введён С. Галлантом для описания смысла слов и разрешения лексической неоднозначности {{sfn|Gallant|1991}}.
Термин '''контекстный вектор''' был введён С. Галлантом для описания смысла слов и разрешения лексической неоднозначности {{sfn|Gallant|1991}}.


В работах Галланта использовалось множество признаков, заданное исследователем, таких как ''человек'', ''мужчина'', ''машина'' и т. д.
В работах Галланта использовалось множество признаков, заданное исследователем, таких как ''человек'', ''мужчина'', ''машина'' и т. д.


Пример пространства контекстных признаков, описывающего значение слова ''астронавт'' из работы Галланта:
Пример пространства контекстных признаков, описывающего значение слова ''астроном'' из работы Галланта:


[[Файл:Feature space of Gallant.jpg|mini|center|Пример пространства контекстных признаков, описывающего значение слова ''астронавт'' из работы Галланта]]
[[Файл:Feature space of Gallant.jpg|thumb|center|Пример пространства контекстных признаков, описывающего значение слова ''астроном'' из работы Галланта]]


В течение последних двух десятилетий метод дистрибутивного анализа широко применялся к изучению семантики.
В течение последних двух десятилетий метод дистрибутивного анализа широко применялся к изучению семантики.
Строка 46: Строка 41:


== Дистрибутивная гипотеза ==
== Дистрибутивная гипотеза ==

Дистрибутивная семантика основывается на '''дистрибутивной гипотезе''': лингвистические единицы, встречающиеся в схожих контекстах, имеют близкие значения{{sfn|Sahlgren|2008}}.
Дистрибутивная семантика основывается на '''дистрибутивной гипотезе''': лингвистические единицы, встречающиеся в схожих контекстах, имеют близкие значения{{sfn|Sahlgren|2008}}.


Психологические эксперименты подтвердили истинность данной гипотезы. Например, в одной из работ {{sfn|Rubenstein, Goodenough|1965}} участников эксперимента просили высказать свое суждение о синонимичности предъявляемых им пар слов. Данные опроса затем сравнивали с контекстами, в которых встречались изучаемые слова. Эксперимент показал наличие положительной корреляции между семантической близостью слов и схожестью контекстов, в которых они встречаются.
Психологические эксперименты подтвердили истинность данной гипотезы. Например, в одной из работ {{sfn|Rubenstein, Goodenough|1965}} участников эксперимента просили высказать своё суждение о синонимичности предъявляемых им пар слов. Данные опроса затем сравнивали с контекстами, в которых встречались изучаемые слова. Эксперимент показал наличие положительной корреляции между семантической близостью слов и схожестью контекстов, в которых они встречаются.


== Математическая модель ==
== Математическая модель ==
В качестве способа представления модели используются [[Векторное пространство|векторные пространства]] из линейной алгебры. Информация о дистрибуции лингвистических единиц представляется в виде многоразрядных векторов, которые образуют словесное векторное пространство. Векторы соответствуют лингвистическим единицам (словам или словосочетаниям), а измерения соответствуют контекстам. Координаты векторов представляют собой числа, показывающие, сколько раз данное слово или словосочетание встретилось в данном контексте.

В качестве способа представления модели используются [[Векторное_пространство|векторные пространства]] из линейной алгебры. Информация о дистрибуции лингвистических единиц представляется в виде многоразрядных векторов, которые образуют словесное векторное пространство. Векторы соответствуют лингвистическим единицам (словам или словосочетаниям), а измерения соответствуют контекстам. Координаты векторов представляют собой числа, показывающие, сколько раз данное слово или словосочетание встретилось в данном контексте.


Пример словесного векторного пространства, описывающего дистрибутивные характеристики слов ''tea'' и ''coffee'', в котором контекстом выступает соседнее слово:
Пример словесного векторного пространства, описывающего дистрибутивные характеристики слов ''tea'' и ''coffee'', в котором контекстом выступает соседнее слово:


[[Файл:Морозова-Рисунок 2.jpg|300x300px|мини|центр]]

[[Файл:Морозова-Рисунок 2.jpg|300x300px|мини|центр|]]



Размер контекстного окна определяется целями исследования{{sfn|Шарнин и др.|2013}}:
Размер контекстного окна определяется целями исследования{{sfn|Шарнин и др.|2013}}:
Строка 66: Строка 57:
* установление тематических связей — 50 слов и больше.
* установление тематических связей — 50 слов и больше.


Семантическая близость между лингвистическими единицами вычисляется как расстояние между векторами. В исследованиях по дистрибутивной семантике чаще всего используется [[Коэффициент_Охаи|косинусная мера]] ([https://en.wikipedia.org/wiki/Cosine_similarity более подробная статья на английском языке]), которая вычисляется по формуле:
Семантическая близость между лингвистическими единицами вычисляется как расстояние между векторами. В исследованиях по дистрибутивной семантике чаще всего используется [[косинусная мера]], которая вычисляется по формуле:


: <math>\frac{ \sum\limits_{i=1}^{n}{A_i \times B_i} }{ \sqrt{\sum\limits_{i=1}^{n}{(A_i)^2}} \times \sqrt{\sum\limits_{i=1}^{n}{(B_i)^2}} }</math>
: <math>\frac{ \sum\limits_{i=1}^{n}{A_i \times B_i} }{ \sqrt{\sum\limits_{i=1}^{n}{(A_i)^2}} \times \sqrt{\sum\limits_{i=1}^{n}{(B_i)^2}} }</math>


где ''A'' и ''B'' — два вектора, расстояние между которыми вычисляется.
где <math>A</math> и <math>B</math> — два вектора, расстояние между которыми вычисляется.


После проведения подобного анализа становится возможным выявить наиболее близкие по смыслу слова по отношению к изучаемому слову.
После проведения подобного анализа становится возможным выявить наиболее близкие по смыслу слова по отношению к изучаемому слову.


Пример наиболее близких слов к слову ''кошка'' (список получен на основании данных веб-корпуса русского языка{{sfn|Russian Web Corpus}}, обработка корпуса выполнена системой Sketch Engine{{sfn|Sketch Engine}}):
Пример наиболее близких слов к слову ''кошка'' (список получен на основании данных веб-корпуса русского языка{{sfn|Russian Web Corpus}}, обработка корпуса выполнена системой [[Sketch Engine]]{{sfn|Sketch Engine}}):


[[Файл:Sketch Engine 01.png|500x300px|мини|центр|]]
[[Файл:Sketch Engine 01.png|500x300px|мини|центр]]


В графическом виде слова могут быть представлены как точки на плоскости, при этом точки, соответствующие близким по смыслу словам, расположены близко друг к другу.
В графическом виде слова могут быть представлены как точки на плоскости, при этом точки, соответствующие близким по смыслу словам, расположены близко друг к другу.
Пример словесного пространства, описывающего предметную область ''суперкомпьютеры'', из работы Генриха Шутце {{sfn|Schutze|1992}}:
Пример словесного пространства, описывающего предметную область ''суперкомпьютеры'', из работы Генриха Шутце{{sfn|Schutze|1992}}:

[[Файл:Semantic map 01.png|700x700px|мини|центр|]]
[[Файл:Semantic map 01.png|700x700px|мини|центр]]


== Модели дистрибутивной семантики ==
== Модели дистрибутивной семантики ==
Строка 89: Строка 80:
* мера расстояния между векторами: косинус, скалярное произведение, расстояние Минковского и пр.;
* мера расстояния между векторами: косинус, скалярное произведение, расстояние Минковского и пр.;
* метод уменьшения размерности матрицы: случайная проекция, сингулярное разложение, случайное индексирование и пр.
* метод уменьшения размерности матрицы: случайная проекция, сингулярное разложение, случайное индексирование и пр.



Наиболее широко известны следующие дистрибутивно-семантические модели:
Наиболее широко известны следующие дистрибутивно-семантические модели:
* [[Векторная_модель|Модель векторных пространств]]
* [[Векторная модель|Модель векторных пространств]]
* [[Латентно-семантический_анализ|Латентно-семантический анализ]]
* [[Латентно-семантический анализ]]
* [[Тематическое моделирование]]
* [[Модель языка как гиперпространства]]
* [[Предсказательные дистрибутивно-семантические модели|Предсказательные модели]]


== Уменьшение размерности векторных пространств ==
== Уменьшение размерности векторных пространств ==
При применении дистрибутивно-семантических моделей в реальных приложениях возникает проблема слишком большой размерности векторов, соответствующей огромному числу контекстов, представленных в текстовом корпусе. Возникает необходимость в применении специальных методов, которые позволяют уменьшить размерность и разреженность векторного пространства и при этом сохранить как можно больше информации из исходного векторного пространства.
При применении дистрибутивно-семантических моделей в реальных приложениях возникает проблема слишком большой размерности векторов, соответствующей огромному числу контекстов, представленных в текстовом корпусе. Возникает необходимость в применении специальных методов, которые позволяют уменьшить размерность и разреженность векторного пространства и при этом сохранить как можно больше информации из исходного векторного пространства. Получающиеся в результате сжатые [[Векторное представление слов|векторные представления слов]] в англоязычной терминологии носят название {{lang-en2|word embeddings}}.


Методы уменьшения размерности векторных пространств:
Методы уменьшения размерности векторных пространств:
* удаление определенных измерений векторов в соответствии с лингвистическими или статистическими критериями;
* удаление определенных измерений векторов в соответствии с лингвистическими или статистическими критериями;
* [[Сингулярное_разложение|сингулярное разложение]];
* [[сингулярное разложение]];
* [[метод главных компонент]] (PCA);
* [https://en.wikipedia.org/wiki/Random_indexing случайное индексирование]{{sfn|Sahlgren|2005}}.
* [[случайное индексирование]] {{sfn|Sahlgren|2005}}.

== Предсказательные модели дистрибутивной семантики ==
Ещё один способ получения векторов малой размерности — машинное обучение, в частности [[Искусственная нейронная сеть|искусственные нейронные сети]]. При обучении таких ''предсказательных моделей'' (англ. predictive models) целевым представлением каждого слова также является сжатый вектор относительно небольшого размера (англ. [[:en:Word embedding|embedding]]), для которого в ходе множественных проходов по обучающему корпусу максимизируется сходство с векторами соседей и минимизируется сходство с векторами слов, его соседями не являющихся {{sfn|Kutuzov and Andreev|2015}}. Однако, в отличие от традиционных ''счётных моделей'' (англ. count models), в данном подходе отсутствует стадия снижения размерности вектора, поскольку модель изначально инициализируется с векторами небольшой размерности (порядка нескольких сотен компонентов).
Подобные предсказательные модели представляют семантику естественного языка более точно, чем счётные модели, не использующие машинное обучение<ref>{{Статья|автор = Baroni, Marco and Dinu, Georgiana and Kruszewski, German |заглавие = Don’t count, predict! a systematic comparison of context-counting vs. context-predicting semantic vectors |издание = Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics |тип = |год = 2014 |номер = 1 |страницы = 238—247 |issn =}}</ref>.

Наиболее известные представители подобного подхода — алгоритмы ''Continuous Bag-of-Words (CBOW)'' и ''Continuous Skipgram'', впервые реализованные в утилите [[word2vec]], представленной в 2013 году<ref>{{Статья|автор = Mikolov, Tomas and Chen, Kai and Corrado, Greg and Dean, Jeffrey |заглавие = Efficient estimation of word representations in vector space |издание = arXiv preprint arXiv:1301.3781 |тип = |год = 2013 |номер = |страницы = |issn =}}</ref>. Пример применения подобных моделей к русскому языку представлен на веб-сервисе [http://rusvectores.org RusVectōrēs].


== Области применения ==
== Области применения ==
Строка 126: Строка 125:
* [https://github.com/fozziethebeat/S-Space/ S-Space]
* [https://github.com/fozziethebeat/S-Space/ S-Space]
* [https://code.google.com/p/semanticvectors/ Semantic Vectors]
* [https://code.google.com/p/semanticvectors/ Semantic Vectors]
* [http://radimrehurek.com/gensim/index.html Gensim]
* [http://radimrehurek.com/gensim Gensim]
* [https://code.google.com/p/word2vec word2vec]
* [https://github.com/akutuzov/webvectors WebVectors]

== См. также ==
* [[Векторное представление слов]]
* [[Word2vec]]


== Примечания ==
== Примечания ==
Строка 132: Строка 137:


== Литература ==
== Литература ==
# {{статья
* {{статья
|автор = Schutze H.
|автор = Schutze H.
|заглавие = Dimensions of meaning
|заглавие = Dimensions of meaning
Строка 138: Строка 143:
|ссылка = http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.27.978&rep=rep1&type=pdf
|ссылка = http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.27.978&rep=rep1&type=pdf
|год = 1992
|год = 1992
|страницы = 787-796
|страницы = 787—796
|ref = Schutze}}
|ref = Schutze
}}
# {{статья
* {{статья
|автор = Sahlgren M.
|автор = Sahlgren M.
|заглавие = An Introduction to Random Indexing
|заглавие = An Introduction to Random Indexing
|ссылка = http://www.sics.se/~mange/papers/RI_intro.pdf
|ссылка = http://www.sics.se/~mange/papers/RI_intro.pdf
|язык = en
|язык = en
|издание = Proceedings of the Methods and Applications of Semantic Indexing Workshop at the 7th International Conference on Terminology and Knowledge Engineering, TKE 2005
|издание = Proceedings of the Methods and Applications of Semantic Indexing Workshop at the 7th International Conference on Terminology and Knowledge Engineering, TKE 2005
|тип = конференция
|тип = конференция
|год = 2005
|год = 2005
|ref = Sahlgren}}
|ref = Sahlgren
|archiveurl = https://web.archive.org/web/20140308194912/http://www.sics.se/~mange/papers/RI_intro.pdf
# {{книга
|archivedate = 2014-03-08
|автор = Sahlgren M.
}}
|год = 2006
* {{книга
|заглавие = The Word-Space Model: Using distributional analysis to represent syntagmatic and paradigmatic relations between words in high-dimensional vector spaces (Ph.D. Thesis)
|автор = Sahlgren M.
|ссылка = http://www.sics.se/~mange/TheWordSpaceModel.pdf
|год = 2006
|издательство = Department of Linguistics, Stockholm University
|заглавие = The Word-Space Model: Using distributional analysis to represent syntagmatic and paradigmatic relations between words in high-dimensional vector spaces (Ph.D. Thesis)
|ref = Sahlgren }}
|ссылка =https://web.archive.org/web/20151210212925/https://www.sics.se/%7emange/TheWordSpaceModel.pdf
# {{статья
|издательство = Department of Linguistics, Stockholm University
|ref = Sahlgren
}} {{Wayback|url=http://www.sics.se/~mange/TheWordSpaceModel.pdf |date=20151210212925 }}
* {{статья
|автор = Sahlgren M.
|автор = Sahlgren M.
|заглавие = The Distributional Hypothesis. From context to meaning
|заглавие = The Distributional Hypothesis. From context to meaning
Строка 166: Строка 176:
|том = 20
|том = 20
|номер =1
|номер =1
|страницы = 33-53
|страницы = 33—53
|ref = Sahlgren
|ref = Sahlgren
|формат = PDF}}
|формат = PDF
}}
# {{статья
* {{статья
|автор = Sahlgren M., Karlgren J.
|автор = Sahlgren M., Karlgren J.
|заглавие = Automatic Bilingual Lexicon Acquisition Using Random Indexing of Parallel Corpora
|заглавие = Automatic Bilingual Lexicon Acquisition Using Random Indexing of Parallel Corpora
|ссылка = http://www.sics.se/~mange/papers/nle2005.pdf
|ссылка = http://www.sics.se/~mange/papers/nle2005.pdf
|язык = en
|язык = en
|издание = Journal of Natural Language Engineering, Special Issue on Parallel Texts
|издание = Journal of Natural Language Engineering, Special Issue on Parallel Texts
|тип = журнал
|тип = журнал
|год = 2005
|год = 2005
|том = 11
|том = 11
|выпуск = 3
|выпуск = 3
|формат = PDF
|формат = PDF
|ref = Sahlgren, Karlgren}}
|ref = Sahlgren, Karlgren
|archiveurl = https://web.archive.org/web/20170808181030/https://www.sics.se/%7emange/papers/nle2005.pdf
# {{статья
|archivedate = 2017-08-08
}}
* {{статья
|автор = Gallant S.
|автор = Gallant S.
|заглавие = Context vector representations for document retrieval
|заглавие = Context vector representations for document retrieval
|ссылка =
|ссылка =
|язык = en
|язык = en
|издание = Proceedings of AAAI Workshop on Natural Language Text Retrieval
|издание = Proceedings of AAAI Workshop on Natural Language Text Retrieval
|тип = конференция
|тип = конференция
|год = 1991
|год = 1991
|ref = Gallant}}
|ref = Gallant
}}
# {{книга
* {{книга
|автор = Osgood C., Suci G., Tannenbaum P.
|автор = Osgood C., Suci G., Tannenbaum P.
|редактор =
|редактор =
|заглавие = The measurement of meaning
|заглавие = The measurement of meaning
|ссылка =
|ссылка =
|язык = en
|язык = en
|издание =
|издание =
|тип =
|тип =
|год = 1957
|год = 1957
|издательство = University of Illinois Press
|издательство = University of Illinois Press
|место =
|место =
|ref = Osgood et al.}}
|ref = Osgood et al.
}}
# {{статья
* {{статья
|автор = Rubenstein H., Goodenough J.
|автор = Rubenstein H., Goodenough J.
|заглавие = Contextual correlates of synonymy
|заглавие = Contextual correlates of synonymy
|ссылка =
|ссылка =
|язык = en
|язык = en
|издание = Communications of the ACM
|издание = Communications of the ACM
|тип = журнал
|тип = журнал
|год = 1965
|год = 1965
|том = 8
|том = 8
|выпуск = 10
|выпуск = 10
|страницы = 627-633
|страницы = 627—633
|ref = Rubenstein, Goodenough}}
|ref = Rubenstein, Goodenough
}}
# {{статья
* {{статья
|автор = Митрофанова О.А.
|автор = Митрофанова О.А.
|заглавие = Измерение семантических расстояний как проблема прикладной лингвистики
|заглавие = Измерение семантических расстояний как проблема прикладной лингвистики
|ссылка = http://ojs.library.spbu.ru/index.php/SPL/article/download/7/7
|ссылка = http://ojs.library.spbu.ru/index.php/SPL/article/download/7/7
|язык = ru
|язык = ru
|издание = Структурная и прикладная лингвистика. Межвузовский сборник
|издание = Структурная и прикладная лингвистика. Межвузовский сборник
|тип = журнал
|тип = журнал
|год = 2008
|год = 2008
|издательство = Издательство СПбГУ
|издательство = Издательство СПбГУ
|выпуск = 7
|выпуск = 7
|формат = PDF
|формат = PDF
|ref = Митрофанова}}
|ref = Митрофанова
}}{{Недоступная ссылка|date=2018-09|bot=InternetArchiveBot }}
# {{статья
* {{статья
|автор = Шарнин М. М., Сомин Н. В., Кузнецов И. П., Морозова Ю. И., Галина И. В., Козеренко Е. Б.
|автор = Шарнин М. М., Сомин Н. В., Кузнецов И. П., Морозова Ю. И., Галина И. В., Козеренко Е. Б.
|заглавие = Статистические механизмы формирования ассоциативных портретов предметных областей на основе естественно-языковых текстов больших объемов для систем извлечения знаний
|заглавие = Статистические механизмы формирования ассоциативных портретов предметных областей на основе естественно-языковых текстов больших объемов для систем извлечения знаний
|ссылка = http://www.ipiran.ru/journal/issues/2013_07_02/
|ссылка = http://www.ipiran.ru/journal/issues/2013_07_02/
|язык = ru
|язык = ru
|издание = Информатика и ее применения
|издание = Информатика и её применения
|тип = журнал
|тип = журнал
|год = 2013
|год = 2013
|том = 7
|том = 7
|выпуск = 2
|выпуск = 2
|страницы = 92-99
|страницы = 92—99
|ref = Шарнин и др.}}
|ref = Шарнин и др.
}}
# {{статья
* {{статья
|автор = Морозова Ю. И., Козеренко Е. Б., Шарнин М. М.
|автор = Морозова Ю. И., Козеренко Е. Б., Шарнин М. М.
|заглавие = Методика извлечения пословных переводных соответствий из параллельных текстов с применением моделей дистрибутивной семантики
|заглавие = Методика извлечения пословных переводных соответствий из параллельных текстов с применением моделей дистрибутивной семантики
Строка 248: Строка 267:
|том = 24
|том = 24
|выпуск = 1
|выпуск = 1
|страницы =
|страницы =
|ref = Морозова и др.}}
|ref = Морозова и др.
}}
# {{статья
* {{статья
|автор = Клышинский Э. С., Кочеткова Н. А., Логачева В. К.
|автор = Клышинский Э. С., Кочеткова Н. А., Логачева В. К.
|заглавие = Метод кластеризации слов с использованием информации об их синтаксической связности
|заглавие = Метод кластеризации слов с использованием информации об их синтаксической связности
|ссылка = http://www.hse.ru/pubs/lib/data/access/ram/ticket/64/139781242460ec87f7181529cecbab0ed7327dd89f/%D0%9A%D0%BB%D1%8B%D1%88%D0%B8%D0%BD%D1%81%D0%BA%D0%B8%D0%B9%20%D0%B8%20%D0%B4%D1%80.-%D1%81%D0%B5%D1%80.2-11-2013.pdf
|ссылка = http://www.hse.ru/pubs/lib/data/access/ram/ticket/64/139781242460ec87f7181529cecbab0ed7327dd89f/%D0%9A%D0%BB%D1%8B%D1%88%D0%B8%D0%BD%D1%81%D0%BA%D0%B8%D0%B9%20%D0%B8%20%D0%B4%D1%80.-%D1%81%D0%B5%D1%80.2-11-2013.pdf
|язык = ru
|язык = ru
|издание = Научно-техническая информация. Серия 2: Информационные процессы и системы
|издание = Научно-техническая информация. Серия 2: Информационные процессы и системы
|тип = журнал
|тип = журнал
|номер = 11
|номер = 11
|год = 2013
|год = 2013
|страницы = 36-43
|страницы = 36—43
|формат = PDF
|формат = PDF
|ref = Клышинский и др.}}
|ref = Клышинский и др.
}}{{Недоступная ссылка|date=2018-09|bot=InternetArchiveBot }}
# {{статья
* {{статья
|автор = Пекар В. И.
|автор = Пекар В. И.
|заглавие = Дистрибутивная модель сочетаемостных ограничений глаголов
|заглавие = Дистрибутивная модель сочетаемостных ограничений глаголов
|ссылка = http://www.dialog-21.ru/Archive/2004/Pekar.pdf
|ссылка = https://www.researchgate.net/publication/316561220_A_distributional_model_of_selectional_preferences_of_verbs_in_Russian
|язык = ru
|язык = ru
|издание = Труды международного семинара Диалог 2004 по компьютерной лингвистике
|издание = Труды международного семинара Диалог 2004 по компьютерной лингвистике
|тип = конференция
|тип = конференция
|год = 2004
|год = 2004
|ref = Пекар}}
|ref = Пекар
}}
# {{книга
* {{книга
|автор =
|автор =
|ответственный = Ярцева В. Н.
|ответственный = Ярцева В. Н.
|заглавие = Лингвистический энциклопедический словарь
|заглавие = Лингвистический энциклопедический словарь
|ссылка = http://lingvisticheskiy-slovar.ru/
|ссылка = http://lingvisticheskiy-slovar.ru/
|язык = ru
|язык = ru
|издание =
|издание =
|тип =
|тип =
|год = 1990
|год = 1990
|издательство = Советская энциклопедия
|издательство = Советская энциклопедия
|место = М.
|место = М.
|ref = Ярцева}}
|ref = Ярцева
}}
* {{cite web|url =https://the.sketchengine.co.uk/bonito/run.cgi/first_form?corpname=preloaded/russian;|title =Russian Web Corpus|author =|date =|work =|publisher =Lexical Computing Ltd.|accessdate =2014-04-17|lang =en|ref =Russian Web Corpus}}{{Недоступная ссылка|date=2018-06|bot=InternetArchiveBot }}
# {{cite web
* {{cite web
|url = https://the.sketchengine.co.uk/bonito/run.cgi/first_form?corpname=preloaded/russian;
|title = Russian Web Corpus
|author =
|date =
|work =
|publisher =
|accessdate = 2014-04-17
|lang =
|ref = Russian Web Corpus}}
# {{cite web
|url = http://www.sketchengine.co.uk/
|url = http://www.sketchengine.co.uk/
|title = Sketch Engine corpus manager
|title = Sketch Engine corpus manager
Строка 299: Строка 313:
|date =
|date =
|work =
|work =
|publisher =
|publisher = Lexical Computing Ltd.
|accessdate = 2014-04-17
|accessdate = 2014-04-17
|lang =
|lang = en
|ref = Sketch Engine}}
|ref = Sketch Engine}}
* {{статья
|автор = Kutuzov A., Andreev I.
|заглавие = Texts in, meaning out: neural language models in semantic similarity task for Russian
|ссылка = http://www.dialog-21.ru/digests/dialog2015/materials/pdf/KutuzovAAndreevI.pdf
|язык = en
|издание = Сборник "Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Москва, 27 — 30 мая 2015 г.)"
|тип = конференция
|год = 2015
|том = 21
|выпуск = 14
|ref = Kutuzov and Andreev
}}


[[:Категория:Компьютерная лингвистика]]
[[Категория:Компьютерная лингвистика]]
[[:Категория:Прикладная математика]]
[[Категория:Прикладная математика]]
[[:Категория:Прикладная лингвистика]]
[[Категория:Прикладная лингвистика]]
[[:Категория:Методы исследования]]
[[Категория:Методы исследования]]
[[:Категория:Обработка естественного языка]]
[[Категория:Обработка естественного языка]]
[[:Категория:Психолингвистика]]
[[Категория:Психолингвистика]]
[[:Категория:Автоматическая обработка текстов]]
[[Категория:Автоматическая обработка текстов]]
[[:Категория:Статистическая обработка естественного языка]]
[[Категория:Статистическая обработка естественного языка]]
[[:Категория:Корпусная лингвистика]]
[[Категория:Корпусная лингвистика]]

[[:en:Distributional_semantics]]

Текущая версия от 18:31, 22 июля 2024

Дистрибути́вная сема́нтика — это область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их распределения (дистрибуции) в больших массивах лингвистических данных (текстовых корпусах).

Каждому слову присваивается свой контекстный вектор. Множество векторов формирует словесное векторное пространство.

Семантическое расстояние между понятиями, выраженными словами естественного языка, обычно вычисляется как косинусное расстояние между векторами словесного пространства.

«Дистрибутивный анализ — это метод исследования языка, основанный на изучении окружения (дистрибуции, распределения) отдельных единиц в тексте и не использующий сведений о полном лексическом или грамматическом значении этих единиц» [1].

В рамках данного метода к текстам изучаемого языка применяется упорядоченный набор универсальных процедур, что позволяет выделить основные единицы языка (фонемы, морфемы, слова, словосочетания), провести их классификацию и установить отношения сочетаемости между ними.

Классификация основывается на принципе замещения: языковые единицы относятся к одному и тому же классу, если они могут выступать в одних и тех же контекстах.

Дистрибутивный анализ был предложен Леонардом Блумфилдом в 20-х гг. XX века и применялся главным образом в фонологии и морфологии.

3еллиг Харрис и другие представители дескриптивной лингвистики развивали данный метод в своих работах в 30 — 50-х гг. XX века.

Близкие идеи выдвигали основоположники структурной лингвистики Фердинанд де Соссюр и Людвиг Витгенштейн.

Идея контекстных векторов была предложена психолингвистом Чарльзом Осгудом в рамках работ по представлению значений слов[2].

Контексты, в которых встречались слова, выступали в качестве измерений многоразрядных векторов.

В качестве таких контекстов в работах Осгуда использовались антонимические пары прилагательных (например, быстрый-медленный), для которых участники опроса выставляли оценки по семибалльной шкале.

Пример пространства контекстных признаков, описывающего значение слов мышь и крыса из работы Осгуда:

Пример пространства контекстных признаков, описывающего значение слов мышь и крыса из работы Осгуда

Термин контекстный вектор был введён С. Галлантом для описания смысла слов и разрешения лексической неоднозначности [3].

В работах Галланта использовалось множество признаков, заданное исследователем, таких как человек, мужчина, машина и т. д.

Пример пространства контекстных признаков, описывающего значение слова астроном из работы Галланта:

Пример пространства контекстных признаков, описывающего значение слова астроном из работы Галланта

В течение последних двух десятилетий метод дистрибутивного анализа широко применялся к изучению семантики.

Была разработана дистрибутивно-семантическая методика и соответствующее программное обеспечение, которые позволяют автоматически сравнивать контексты, в которых встречаются изучаемые языковые единицы, и вычислять семантические расстояния между ними[4].

Дистрибутивная гипотеза

[править | править код]

Дистрибутивная семантика основывается на дистрибутивной гипотезе: лингвистические единицы, встречающиеся в схожих контекстах, имеют близкие значения[5].

Психологические эксперименты подтвердили истинность данной гипотезы. Например, в одной из работ [6] участников эксперимента просили высказать своё суждение о синонимичности предъявляемых им пар слов. Данные опроса затем сравнивали с контекстами, в которых встречались изучаемые слова. Эксперимент показал наличие положительной корреляции между семантической близостью слов и схожестью контекстов, в которых они встречаются.

Математическая модель

[править | править код]

В качестве способа представления модели используются векторные пространства из линейной алгебры. Информация о дистрибуции лингвистических единиц представляется в виде многоразрядных векторов, которые образуют словесное векторное пространство. Векторы соответствуют лингвистическим единицам (словам или словосочетаниям), а измерения соответствуют контекстам. Координаты векторов представляют собой числа, показывающие, сколько раз данное слово или словосочетание встретилось в данном контексте.

Пример словесного векторного пространства, описывающего дистрибутивные характеристики слов tea и coffee, в котором контекстом выступает соседнее слово:

Размер контекстного окна определяется целями исследования[7]:

  • установление синтагматических связей −1-2 слова;
  • установление парадигматических связей — 5-10 слов;
  • установление тематических связей — 50 слов и больше.

Семантическая близость между лингвистическими единицами вычисляется как расстояние между векторами. В исследованиях по дистрибутивной семантике чаще всего используется косинусная мера, которая вычисляется по формуле:

где и  — два вектора, расстояние между которыми вычисляется.

После проведения подобного анализа становится возможным выявить наиболее близкие по смыслу слова по отношению к изучаемому слову.

Пример наиболее близких слов к слову кошка (список получен на основании данных веб-корпуса русского языка[8], обработка корпуса выполнена системой Sketch Engine[9]):

В графическом виде слова могут быть представлены как точки на плоскости, при этом точки, соответствующие близким по смыслу словам, расположены близко друг к другу. Пример словесного пространства, описывающего предметную область суперкомпьютеры, из работы Генриха Шутце[10]:

Модели дистрибутивной семантики

[править | править код]

Существует множество различных моделей дистрибутивной семантики, которые различаются по следующим параметрам:

  • тип контекста: размер контекста, правый или левый контекст, ранжирование;
  • количественная оценка частоты встречаемости слова в данном контексте: абсолютная частота, TF-IDF, энтропия, совместная информация и пр.;
  • мера расстояния между векторами: косинус, скалярное произведение, расстояние Минковского и пр.;
  • метод уменьшения размерности матрицы: случайная проекция, сингулярное разложение, случайное индексирование и пр.

Наиболее широко известны следующие дистрибутивно-семантические модели:

Уменьшение размерности векторных пространств

[править | править код]

При применении дистрибутивно-семантических моделей в реальных приложениях возникает проблема слишком большой размерности векторов, соответствующей огромному числу контекстов, представленных в текстовом корпусе. Возникает необходимость в применении специальных методов, которые позволяют уменьшить размерность и разреженность векторного пространства и при этом сохранить как можно больше информации из исходного векторного пространства. Получающиеся в результате сжатые векторные представления слов в англоязычной терминологии носят название word embeddings.

Методы уменьшения размерности векторных пространств:

Предсказательные модели дистрибутивной семантики

[править | править код]

Ещё один способ получения векторов малой размерности — машинное обучение, в частности искусственные нейронные сети. При обучении таких предсказательных моделей (англ. predictive models) целевым представлением каждого слова также является сжатый вектор относительно небольшого размера (англ. embedding), для которого в ходе множественных проходов по обучающему корпусу максимизируется сходство с векторами соседей и минимизируется сходство с векторами слов, его соседями не являющихся [12]. Однако, в отличие от традиционных счётных моделей (англ. count models), в данном подходе отсутствует стадия снижения размерности вектора, поскольку модель изначально инициализируется с векторами небольшой размерности (порядка нескольких сотен компонентов).

Подобные предсказательные модели представляют семантику естественного языка более точно, чем счётные модели, не использующие машинное обучение[13].

Наиболее известные представители подобного подхода — алгоритмы Continuous Bag-of-Words (CBOW) и Continuous Skipgram, впервые реализованные в утилите word2vec, представленной в 2013 году[14]. Пример применения подобных моделей к русскому языку представлен на веб-сервисе RusVectōrēs.

Области применения

[править | править код]

Модели дистрибутивной семантики нашли применение в исследованиях и практических реализациях, связанных с семантическими моделями естественного языка.

Дистрибутивные модели применяются для решения следующих задач[15]:

  • выявление семантической близости слов и словосочетаний[16];
  • автоматическая кластеризация слов по степени их семантической близости;
  • автоматическая генерация тезаурусов и двуязычных словарей[15][17];
  • разрешение лексической неоднозначности;
  • расширение запросов за счет ассоциативных связей;
  • определение тематики документа;
  • кластеризация документов для информационного поиска;
  • извлечение знаний из текстов;
  • построение семантических карт различных предметных областей[7];
  • моделирование перифраз;
  • определение тональности высказывания;
  • моделирование сочетаемостных ограничений слов [18].

Существует несколько программных средств для проведения исследований по дистрибутивной семантике с открытым кодом:

Примечания

[править | править код]
  1. Ярцева, 1990.
  2. Osgood et al., 1957.
  3. Gallant, 1991.
  4. Митрофанова, 2008.
  5. Sahlgren, 2008.
  6. Rubenstein, Goodenough, 1965.
  7. 1 2 Шарнин и др., 2013.
  8. Russian Web Corpus.
  9. Sketch Engine.
  10. Schutze, 1992.
  11. Sahlgren, 2005.
  12. Kutuzov and Andreev, 2015.
  13. Baroni, Marco and Dinu, Georgiana and Kruszewski, German. Don’t count, predict! a systematic comparison of context-counting vs. context-predicting semantic vectors // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. — 2014. — № 1. — С. 238—247.
  14. Mikolov, Tomas and Chen, Kai and Corrado, Greg and Dean, Jeffrey. Efficient estimation of word representations in vector space // arXiv preprint arXiv:1301.3781. — 2013.
  15. 1 2 Морозова и др., 2014.
  16. Клышинский и др., 2013.
  17. Sahlgren, Karlgren, 2005.
  18. Пекар, 2004.

Литература

[править | править код]