Поисковый робот: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
BotCat (обсуждение | вклад)
Робот: Удаление изображения без лицензии: 3000-2.jpg
Строка 12: Строка 12:


== Интернет-паук в бизнес-разведке ==
== Интернет-паук в бизнес-разведке ==

[[Image:3000-2.jpg|thumb|Скриншот системы it2b.интернетошпионопаук 3000+]]
Интернет-пауки (роботы) помогают собирать информацию из невидимой части интернета в целях бизнес-разведки. Данные затем полученная информация обрабатываются и формируются в базы данных.
Интернет-пауки (роботы) помогают собирать информацию из невидимой части интернета в целях бизнес-разведки. Данные затем полученная информация обрабатываются и формируются в базы данных.
"it2b.интернетошпионопаук 3000+" - собственная разработка компании "Р-Техно", предназначенная для выгрузки данных из невидимого сегмента интернета. Система широко применяется как для нужд самой компании "Р-Техно" при проведении бизнес-разведки и маркетинговых исследований, так и для нужд заказчиков, которым периодически необходимо выгружать информацию с сайтов конкурентов и т.п.
"it2b.интернетошпионопаук 3000+" - собственная разработка компании "Р-Техно", предназначенная для выгрузки данных из невидимого сегмента интернета. Система широко применяется как для нужд самой компании "Р-Техно" при проведении бизнес-разведки и маркетинговых исследований, так и для нужд заказчиков, которым периодически необходимо выгружать информацию с сайтов конкурентов и т.п.
Строка 30: Строка 30:
{{rq|stub|source|style}}
{{rq|stub|source|style}}
{{web-stub}}
{{web-stub}}

{{Нет иллюстраций}}

[[Категория:Поисковые системы]]
[[Категория:Поисковые системы]]



Версия от 23:25, 22 января 2009

Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин обычно ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету.

Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения ключевых слов определяется алгоритмами поисковой машины.

В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.

Ограничить индексацию сайта можно с помощью файла robots.txt, однако некоторые поисковые системы могут игнорировать наличие этого файла. Полная защита от индексации обеспечивается механизмами, обойти которые пока паукам не под силу. Обычно — установкой пароля на странице, либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому страницы.


Интернет-паук в бизнес-разведке

Интернет-пауки (роботы) помогают собирать информацию из невидимой части интернета в целях бизнес-разведки. Данные затем полученная информация обрабатываются и формируются в базы данных. "it2b.интернетошпионопаук 3000+" - собственная разработка компании "Р-Техно", предназначенная для выгрузки данных из невидимого сегмента интернета. Система широко применяется как для нужд самой компании "Р-Техно" при проведении бизнес-разведки и маркетинговых исследований, так и для нужд заказчиков, которым периодически необходимо выгружать информацию с сайтов конкурентов и т.п.

Некоторые базы данных из серии "Невидимый интернет"

  • База данных "Розыск Интерпола 2008"
  • База данных "Банкроты Белоруссии 2008"
  • База данных "Компании США уличенные в мошенничестве 2008"
  • База данных "Недобросовестные поставщики ФАС 2008"
  • База данных "Должники металлургической отрасли 2008"

Более подробную информацию см. на сайте компании - http://r-techno.com/rtechno/business-intelligence/internet-intelligence/

См. также