Капча

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая Pokkimon (обсуждение | вклад) в 21:46, 17 сентября 2008 (не верю). Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску
Искаженная строка «smwm»

CAPTCHA [ˈkæptʃə] (от англ. «Completely Automated Public Turing test to tell Computers and Humans Apart» — полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей) — торговая марка Университет Карнеги-Меллона, компьютерный тест, используемый для того, чтобы определить, кем является пользователь системы: человеком или компьютером. Термин появился в 2000 году. Основная идея теста: предложить пользователю такую задачу, которую может решить человек, но которую крайне трудно научить решать компьютер. В основном это задачи на распознавание символов.

CAPTCHA чаще всего используется при необходимости предотвратить использование интернет-сервисов ботами, в частности, для предотвращения автоматических отправки сообщений, регистрации, скачивания файлов, массовых рассылок (см. спам) и т. п.

Варианты реализации

  • В наиболее распространённом варианте CAPTCHA от пользователя требуется ввести символы, как правило, изображённые на предлагаемом ему рисунке в искажённом виде, иногда с добавлением шума или полупрозрачности.
  • Реже применяются CAPTCHA, основанные на распознавании речи (в основном — как альтернатива для людей с нарушениями зрения).
  • Могут также применяться другие плохо алгоритмизуемые задачи, например: узнать, что находится на картинке, отметить все картинки с кошками или ответить на вопрос, связанный со знаниями или менталитетом людей (например, «висит груша, нельзя скушать»).
  • Встречаются CAPTCHA, где предлагается ввести ответ на простое арифметическое действие.

Методы противодействия

Уязвимости защиты

При недостаточной квалификации веб-программиста бот может пройти CAPTCHA, не распознавая изображённых символов. Есть три способа это сделать.

  1. Повторное использование идентификаторов сессии. В этом случае человек вручную проходит CAPTCHA. Идентификатор сессии и ответ на CAPTCHA передаются боту, и тот фабрикует большое количество запросов с этим идентификатором (а значит, и с тем же ответом на CAPTCHA). В идеале идентификатор сессии должен быть одноразовым и ограниченным по сроку действия.
  2. По какой-либо информации, содержащейся на странице, восстановить изображённые на картинке символы.
  3. Из-за особенностей генератора псевдослучайных чисел может выдаваться небольшое ограниченное число картинок, для которых можно создать базу данных. Если пользователь должен опознать картинку или ответить на вопрос, картинки/вопросы, естественно, подготавливаются администратором — а значит, для них тоже можно собрать базу.

Угадывание

Если количество вариантов ответов невелико, компьютер или ботнет может попытаться угадать ответ. Например, если задача — среди 10 картинок отметить животных, получается всего 210=1024 варианта ответа. Значит, в среднем один из 1024 запросов пройдёт CAPTCHA. То есть, даже при производительности 1 запрос в секунду (реальная цифра, например, для ADSL) можно производить 84 успешных запроса в сутки. Боты используют несколько параллельно выполняющихся потоков, благодаря чему производительность бота зависит только от полосы пропускания, отданной ему в распоряжение.

Автоматизированное распознавание

Существуют программы, распознающие конкретные реализации CAPTCHA, к примеру, PWNtcha. Кроме того, существует возможность подключать модули из программ распознавания текста общего назначения (например, FineReader, OmniPage) в программы сторонних разработчиков для распознавания картинок CAPTCHA.

По отношению к автоматизированному распознаванию существуют понятия «слабая CAPTCHA» и «прочная CAPTCHA». В числе «слабостей» — фиксированный шрифт, фиксированное положение символов, отсутствие искажений, отделение символов от фона с использованием цветового ключа или размытия по Гауссу, лёгкое отделение символов друг от друга и т. д. Впрочем, иногда бывает, что прочная CAPTCHA оказывается труднораспознаваемой и для человека. Изредка встречается CAPTCHA, легко прочитываемая компьютером и с большими трудностями — человеком (например, с неконтрастной картинкой).

Даже если бот проходит CAPTCHA один раз из 100, этого хватает, чтобы посылать 430 сообщений в сутки (предполагается, что производительность бота — 1 запрос в 2 секунды, что приблизительно соответствует неоптимизированному алгоритму, запущенному в фоновом режиме на ПК средней мощности).

Ручное распознавание

Есть способ «распознавания», использующий человеческий ресурс и ресурс высокопосещаемых сайтов, например, сайтов порно-тематики. Робот скачивает CAPTCHA с интернет-сервиса и показывает его пользователю порносайта, с просьбой ввести код, который он видит на картинке. Взамен пользователь получает доступ к ресурсу, а робот узнаёт код, изображённый на картинке («метод леммингов»). Пользователь может и не подозревать, что каждый просмотренный порноролик оборачивается регистрацией нового почтового ящика для рассылки спама.

Вариантом этого метода является сервис Captcha Exchange Server, запущенный в марте 2007 года и направленный на обход картинок CAPTCHA, используемых файлообменниками. Принцип работы сервиса основан на системе баллов, которые пользователь может заработать, распознав картинки для других пользователей, и позже потратить, запустив программу автоматического скачивания с файлообменников, при этом картинки будут распознаны другими пользователями сервиса. Таким образом, пользователь может оптимизировать затраты своего времени и денег, набирая баллы, когда он всё равно находится у компьютера, и тратя их, когда ему более удобно скачивать (например, в случае, если ночью доступ в интернет обходится дешевле).

Несмотря на уязвимости, это не означает, что любая CAPTCHA-защита априори бессмысленна. Тут наблюдается извечный принцип соревнования оружия и защиты (снаряда и брони). Гораздо хуже, если данная защита не используется.

reCAPTCHA

reCAPTCHA — проект, использующий в роли рабочего элемента для ответов пользователей на CAPTCHA-запрос неразборчивое для OCR слово, являющееся одним из множества искажённых фрагментов сканированных книг в дополнении к слову, сгенерированному компьютером. Этот сервис учитывает приёмы использования и возможности программ оцифровки текста книг. Для надёжности одно и то же слово предлагается нескольким пользователям различных сайтов. Когда разные пользователи одинаково ответили на CAPTCHA-запрос, предполагается, что они ввели правильное слово.

Ссылки