Поиск изображений по содержанию

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Поиск изображений по содержанию (англ. Content-based image retrieval (CBIR)) — раздел компьютерного зрения, решающий задачу поиска изображений, которые имеют требуемое содержание, в большом наборе цифровых изображений.

Алгоритм поиска должен анализировать содержание изображения, например, цвет представленных на нём объектов, их форму, текстуру, композицию сцены. При отсутствии возможности проанализировать сцену при поиске рассматриваются метаданные: ключевые слова, метки.

Термин «Content-based image retrieval» впервые был введен в употребление в 1992 году Т. Като при описании экспериментов с автоматическим поиском изображений по критериям присутствующих цветов и геометрических форм. С того момента его применяют как обобщение процесса выборки изображений из базы по любым синтаксическим характеристикам объектов. Используемые алгоритмы, методы и программные инструменты берут начало в областях, связанных с обработкой сигналов, компьютерным зрением и статистикой.

К области поиска изображений по содержательным критериям в настоящее время возрастает интерес, связанный с ограниченностью методов, основанных исключительно на категоризации метаданных, а также растущим потенциалом её применимости. В настоящий момент алгоритмы категоризации и поиска в текстовых данных позволяют довольно эффективно обращаться с описанными изображениями по метаданным, однако такой подход требует ручного описания каждого изображения в базе человеком. Это совершенно непрактично, в особенности в применении к большим базам или изображениям, создаваемым автоматически (например, камерами видеонаблюдения). Плюс ко всему есть далеко не нулевая вероятность упустить одно из целевых изображений поиска из-за многозначности или синонимии.

Потенциальные области применения алгоритмов поиска по содержанию:

  • Поиск изображений в сети Интернет
  • Каталогизация изображений произведений искусства
  • Организация работы с архивами фотографических снимков
  • Организация каталогов розничной продажи товаров
  • Медицинская диагностика заболеваний
  • Предотвращение преступлений и беспорядков
  • Военно-оружейное применение
  • Вопросы контроля за распространением интеллектуальной собственности
  • Получение информации о местоположении удаленных зондов и географическое позиционирование
  • Контроль за содержимым массивов изображений

Программные системы и алгоритмы

[править | править код]

Несмотря на то, что существует множество программных комплексов по поиску изображений в базах данных, проблема поиска на основе пиксельного содержания в большинстве ситуаций пока не имеет реализованного решения. Смотри список поисковых систем по изображениям.

Способы построения запросов

[править | править код]

Различные реализации систем поиска изображений по содержанию работают со следующими типами пользовательских запросов:

Пример результата

[править | править код]

Предполагается, что система производит поиск на основе входного изображения, указываемого пользователем. Алгоритмы, составляющие систему, могут иметь различные способы описания и работы с входным изображением, но все результирующие экземпляры изображений должны иметь общие элементы с входом, указанным пользователем.

Пользователь может подать на вход как существующее изображение, так и грубый набросок требуемого результата (разметку на цветные области или простые геометрические формы).[1]

При данном способе построения запросов не возникает трудностей, связанных с представлением изображения набором слов.

Разрешение семантики запроса

[править | править код]

В идеале система поиска должна уметь обрабатывать запросы пользователя, сформулированные в свободной форме, например «найти фотографии собак» или даже «найти портреты Леонида Ильича Брежнева». Запросы такого типа очень сложны для обработки компьютером, ведь фотографии лабрадора и карликового пуделя сильно различаются, а Леонид Ильич не всегда смотрит в камеру в одинаковой позе. В настоящий момент многие системы используют для классификации характеристики низшего уровня, такие как цвет, текстура и форма объекта, хотя существуют и системы, в основном основанные на дифференциации критериев высокого уровня (см. Теория распознавания образов). Большинство систем не являются широко ориентированными. Например, системы поиска изображений, сгенерированных на компьютере, с успехом обходятся признаками, основанными на совмещении форм и градиентов.

Прочие способы

[править | править код]

Эта категория включает в себя такие формы запросов, как определение категории в предложенной иерархии, запрос в виде части изображения, ожидаемого в качестве результата, расширение запроса дополнительными изображениями, графичный набросок, состоящий из сложных форм, а также комбинацию методов.

Также возможно постепенное уточнение запроса, когда пользователь в процессе работы системы поиска помечает промежуточные результаты как «подходящие» или «неудовлетворительные», и система продолжает работать с уточнённым запросом.

Методы описания содержания

[править | править код]

Здесь представлены наиболее общие методы описания содержания изображений, использующиеся для последующего сравнения их между собой. Все они являются потенциально широко применимыми, то есть не специфическими для какого-либо особенного подкласса систем.

Поиск изображений с помощью сравнения цветовых составляющих производится с помощью построения гистограммы их распределения. В настоящий момент ведутся исследования по построению описания, в котором изображение делится на регионы по сходным цветовым характеристикам, и далее учитывается их взаимное расположение. Описание изображений цветами, которые на них содержатся, является наиболее распространённым, так как оно не зависит от размера или ориентации изображения. Построение гистограмм с последующим их сравнением используется наиболее часто, но не является единственным способом описания цветовых характеристик.

Методы такого описания работают со сравнением текстурных образцов, присутствующих на изображении, и их взаимного расположения. Для определения текстуры используют тексели, которые объединяют в множества. Они содержат не только информацию, описывающую текстуру, но и её местоположение на описываемом изображении. Текстуру как сущность сложно формализованно описать, и обычно её представляют в виде двухмерного массива изменения яркости. Также в описание иногда включают меру контраста, направленности градиента, регулярности. Существует проблема сравнения ковариации пикселей с целью присваивания текстурам классов, таких как «гладкая» или «грубая».

Описание формы предполагает описание геометрической формы отдельных регионов изображения. Для её определения к региону сначала применяют сегментацию или выделение границ. Существуют и другие способы, например фильтрация форм (Tushabe and Wilkinson, 2008). Часто определение формы требует вмешательства человека, так как методы типа сегментации сложно полностью автоматизировать для широкого класса задач.

Применение

[править | править код]

Существуют компании, представляющие программные продукты, в которых алгоритмы поиска изображений по содержанию применяются для фильтрации содержимого веб-страниц и государственного мониторинга сетевого трафика с целью отслеживания изображений порнографического содержания.
Примеры:

  • Обратный поиск изображений TinEye.com
  • Поиск людей по фотографиям PhotoDate.ru

Примечания

[править | править код]
  1. Shapiro, Linda; George Stockman. Computer Vision (неопр.). — Upper Saddle River, NJ: Prentice Hall, 2001. — ISBN 0-13-030796-3.