Поисковый робот
Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин обычно ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету.
Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения ключевых слов определяется алгоритмами поисковой машины.
В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.
Ограничить индексацию сайта можно с помощью файла robots.txt, однако некоторые поисковые системы могут игнорировать наличие этого файла. Полная защита от индексации обеспечивается механизмами, обойти которые пока паукам не под силу. Обычно — установкой пароля на странице, либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому страницы.
Интернет-паук в бизнес-разведке
Интернет-пауки (роботы) помогают собирать информацию из невидимой части интернета в целях бизнес-разведки. Данные затем обрабатываются и формируются в Базы данных. "it2b.интернетошпионопаук 3000+" - собственная разработка компании "Р-Техно", предназначенная для выгрузки данных из невидимого сегмента интернета. Система широко применяется как для нужд самой компании "Р-Техно" при проведении бизнес-разведки и маркетинговых исследований, так и для нужд заказчиков, которым периодически необходимо выгружать информацию с сайтов конкурентов и т.п.
Базы данных из серии "Невидимый интернет"
- База данных "Розыск Интерпола 2008"
- База данных "Банкроты Белоруссии 2008"
- База данных "Компании США уличенные в мошенничестве 2008"
- База данных "Недобросовестные поставщики ФАС 2008"
- База данных "Должники металлургической отрасли 2008"
Более подробную информацию см. на сайте компании - http://r-techno.com/rtechno/business-intelligence/internet-intelligence/
См. также
Для улучшения этой статьи желательно:
|
Это заготовка статьи об Интернете. Помогите Википедии, дополнив её. |