Слияние данных

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая Deepak-nsk (обсуждение | вклад) в 19:04, 22 июня 2024. Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску

Слияние данных является процессом объединения источников данных для получения более согласующейся, точной и полезной информации, чем информация от одного отдельного источника[1].

Слияние данных из двух источников (измерения №1 и №2) могут дать классификатор, превосходящий классификаторы, основанные лишь на измерениях №1 или измерениях №2

Процессы слияния данных часто группируются как низкое, среднее или высокое слияние, в зависимости от стадии обработки, на котором слияние производится[2]. Низкоуровневое слияние данных комбинирует некоторые источники сырых данных для получения других сырых данных. Требуется, чтобы слитые данные были более информативны и синтетические[англ.], чем исходные данные.

Например, сбор и обобщение данных от датчиков[англ.] известно как (мультисенсорное) слияние данных и является подмножеством объединения информации[англ.].

Люди как пример слияния данных

Люди являются прямым примером слияния данных. Как люди, мы опираемся широко на наши чувства, такие как зрение, запах, вкус, звук и физическое движение. Комбинация всех этих чувств комбинируется постоянно, чтобы помочь нам в выполнении большинства, если не всех, задач в нашей повседневной жизни. То есть это является прямым примером слияния данных. Мы опираемся на слияние запаха, вкуса и осязание пищи, чтобы убедиться, что она съедобна. Аналогично, мы опираемся на наше зрение и нашу возможность слышать и контролировать движение нашего тела для прогулок или вождения автомобиля и осуществляем большинство задач в нашей жизни. Во всех этих случаях мозг осуществляет слияние и контролирует, что мы должны сделать в следующий момент. Наш мозг опирается на слияние данных, собранных из вышеперечисленных органов чувств[3].

Геопространственные приложения

В геопространственной области исследования (GIS) слияние данных является часто синонимом интеграции данных. В этих приложениях имеется часто необходимость комбинировать различные наборы данных в объединённые (слитые) наборы данных, которые включает все точки данных. Слитые наборы данных отличаются от простого объединения в том, что точки в слитом наборе данных содержат атрибуты и метаданные, которые могут не содержаться у точек в оригинальном наборе данных.

Упрощённый пример этого процесса показан ниже, где набор данных α сливается с набором данных β, образуя слитый набор данных δ. Точки данных в множестве α имеют пространственные координаты X и Y и атрибуты A1 и A2. Точки данных в множестве β имеют пространственные координаты X и Y и атрибуты B1 и B2. Слитый набор данных содержит все точки и атрибуты.

Входной набор данных α Входной набор данных β Слитый набор данных δ
Точка X Y A1 A2
α1 10 10 M N
α2 10 30 M N
α3 30 10 M N
α4 30 30 M N
Точка X Y B1 B2
β1 20 20 Q R
β2 20 40 Q R
β3 40 20 Q R
β4 40 40 Q R
Точка X Y A1 A2 B1 B2
δ1 10 10 M N Q? R?
δ2 10 30 M N Q? R?
δ3 30 10 M N Q? R?
δ4 30 30 M N Q? R?
δ5 20 20 M? N? Q R
δ6 20 40 M? N? Q R
δ7 40 20 M? N? Q R
δ8 40 40 M? N? Q R

В простом случае, когда все атрибуты однородны по всей области, атрибуты могут быть назначены просто: M?, N?, Q?, R? в M, N, Q, R. В действительных приложениях атрибуты не однородны и нужны обычно некоторые виды интерполяции для правильного назначения атрибутов точкам данных в слитом наборе.

Визуализация слитых наборов данных для движения лангуста в Тасмановом море. Изображение образовано с помощью программы Eonfusion компанией Myriax Pty. Ltd. — eonfusion.myriax.com
Визуализация слитых наборов данных для движения лангуста в Тасмановом море. Изображение образовано с помощью программы Eonfusion компанией Myriax Pty. Ltd. — eonfusion.myriax.com

В существенно более сложном приложении исследователи морских животных использовали слияние данных о движении животных с батиметрическими и метеорологическими данными, с температурой поверхности моря[англ.] и местообитанием животных для рассмотрения и понимания поведения животных как реакция на внешние воздействия, такие как погода и температура воды. Каждый из этих наборов данных представляет различные пространственные решётки и частоту отбора данных, так что простая комбинация данных, скорее всего, дала бы необоснованные предположения и испортила бы результаты анализа. Однако путём слияния данных все данные и атрибуты собираются вместе в одно целое, в котором создаётся более полная картина окружения. Это даёт возможность учёным определить ключевые места и время и образует новое представление о взаимодействии окружающей среды и поведения животного.

На изображении справа изучаются лобстеры на берегу Тасманского моря. Хью Педерсон из Университета Тасмани использовал программы слияния данных для слияния данных слежения передвижения южного каменного лобстера[англ.] (на изображении кодирован жёлтым цветом и чёрным для дневного и ночного времени соответственно) с батиметрическими и данными местообитания в одну 4-мерную картину поведения лобстера.

Интеграция данных

В приложениях вне геопространственных областей использование терминов интеграция данных и слияние данных различается. В таких областях, как бизнес-аналитика, например, термин «интеграция данных» используется для описания комбинирования данных, в то время как термин «слияние данных» является интеграцией с последующим уплотнением и заменой данных. Интеграцию данных можно рассматривать как комбинацию множеств, при которой большее множество сохраняется, в то время как слияние является техникой сокращения множества с улучшением надёжности.

Модель JDL/DFIG

В середине 1980-х содиректора Лабораторий (англ. Joint Directors of Laboratories, JDL) образовали Подкомиссию Слияния Данных (которая позднее стала известна как Группа Слияния Данных, англ. Data Fusion Group, DFG). С появлением «Всемирной паутины» (World Wide Web) слияние данных стало включать слияние датчиков и слияние информации. Группа JDL/DFIG представила модель слияния данных, которая разделяется на различные процессы. В настоящее время есть шесть уровней модели Группы Слияния Данных (англ. Data Fusion Information Group, DFIG):

Level 0: Предварительная обработка исходных данных/Оценка содержания (англ. Source Preprocessing/subject Assessment)

Level 1: Оценка объекта (англ. Object Assessment)

Level 2: Оценка ситуации (англ. Situation Assessment)

Level 3: Оценка влияния (англ. Impact Assessment) (или Отыскание угроз, англ. Threat Refinement)

Level 4: Усовершенствование процесса (англ. Process Refinement)

Level 5: Пользовательское улучшение (англ. User Refinement или Когнитивное улучшение, англ. Cognitive Refinement)

Хотя модель JDL (уровни 1–4) используется по сей день, она часто критикуется за требование, чтобы уровни обязательно реализовывались в указанном порядке, а также отсутствия адекватного представления участия человека. Модель DFIG (уровни 0–5) учитывает влияние осведомлённости об окружающей обстановке, пользовательские улучшения и управление работами[4]. Несмотря на недостатки, модели JDL/DFIG полезны для визуализации процесса слияния данных, что способствует обсуждению и общему пониманию[5], также имеет важное значение для разработки слияния информации на системном уровне[4].

Области применения

От различных датчиков трафика на дороге

Данные от различных сенсорных технологий могут быть скомбинированы разумным образом для определения точного состояния трафика. Подход, основанный на слиянии данных, который использует полученные от дороги акустические данные, изображения и данные датчиков, показывает преимущество комбинирования различных индивидуальных методов[6].

Объединение решений

Во многих случаях географически разбросанные датчики строго ограничены по потреблению энергии и пропускной способности. Поэтому сырые данные, касающиеся определённого явления, часто приводятся к нескольким битам для каждого датчика. Когда делаем вывод о бинарном событии (т.е. или ), в крайнем случае только бинарное решение посылается от датчика в центр объединения решений и комбинируется для получения улучшенной классификации[7][8][9].

Для улучшения контекстуальной осведомлённости

С большим числом встроенных датчиков, включая датчики движения, датчиков окружающей среды, датчиков положения, современные мобильные устройства обычно дают мобильным приложениям получить доступ к большому числу данных от датчиков, которые могут быть использованы для улучшения контекстуальной осведомлённости. Используя техники обработки сигналов и слияния данных, таких как генерация признаков, оценка целесообразности и метод главных компонент для анализа таких данных от датчиков, существенно улучшают классификацию движения и контекстуальное состояния устройства[10].

Примечания

Литература

Цитаты

  • Haghighat M., Abdel-Mottaleb M., Alhalabi W. Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition // IEEE Transactions on Information Forensics and Security. — 2016. — Т. 11, вып. 9.
  • Lawrence A. Klein. Sensor and data fusion: A tool for information assessment and decision making. — SPIE Press, 2004. — ISBN 0-8194-5435-4.
  • Erik P. Blasch, Éloi Bossé, Dale A. Lambert. High-Level Information Fusion Management and System Design. — Norwood, MA: Artech House Publishers, 2012.
  • Martin E. Liggins, David L. Hall, James Llinas. Multisensor Data Fusion, Second Edition: Theory and Practice (Multisensor Data Fusion). — CRC, 2008.
  • Joshi V., Rajamani N., Takayuki K., Prathapaneni N., Subramaniam L. V. Information Fusion Based Learning for Frugal Traffic State Sensing // Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence. — 2013.
  • Ciuonzo D., Papa G., Romano G., Salvo Rossi P., Willett P. One-Bit Decentralized Detection With a Rao Test for Multisensor Fusion // IEEE Signal Processing Letters. — 2013. — Т. 20, вып. 9. — ISSN 1070-9908. — doi:10.1109/LSP.2013.2271847. — Bibcode2013ISPL...20..861C. — arXiv:1306.6141.
  • Ciuonzo D., Salvo Rossi P. Decision Fusion With Unknown Sensor Detection Probability // IEEE Signal Processing Letters. — 2014. — Т. 21, вып. 2. — ISSN 1070-9908. — doi:10.1109/LSP.2013.2295054. — Bibcode2014ISPL...21..208C. — arXiv:1312.2227.
  • Ciuonzo D., De Maio A., Salvo Rossi P. A Systematic Framework for Composite Hypothesis Testing of Independent Bernoulli Trials // IEEE Signal Processing Letters. — 2015. — Т. 22, вып. 9. — ISSN 1070-9908. — doi:10.1109/LSP.2015.2395811. — Bibcode2015ISPL...22.1249C.
  • John J. Guiry, Pepijn van de Ven, John Nelson. Multi-Sensor Fusion for Enhanced Contextual Awareness of Everyday Activities with Ubiquitous Devices // Sensors. — 2014. — Т. 14, вып. 3. — С. 5687–5701. — doi:10.3390/s140305687. — PMID 24662406. — PMC 4004015.

Источники

Ссылки

  1. Haghighat, Abdel-Mottaleb, Alhalabi, 2016, с. 1984-1996.