Поисковый робот: различия между версиями
[непроверенная версия] | [непроверенная версия] |
It2b (обсуждение | вклад) |
BotCat (обсуждение | вклад) Робот: Удаление изображения без лицензии: 3000-2.jpg |
||
Строка 12: | Строка 12: | ||
== Интернет-паук в бизнес-разведке == |
== Интернет-паук в бизнес-разведке == |
||
[[Image:3000-2.jpg|thumb|Скриншот системы it2b.интернетошпионопаук 3000+]] |
|||
Интернет-пауки (роботы) помогают собирать информацию из невидимой части интернета в целях бизнес-разведки. Данные затем полученная информация обрабатываются и формируются в базы данных. |
Интернет-пауки (роботы) помогают собирать информацию из невидимой части интернета в целях бизнес-разведки. Данные затем полученная информация обрабатываются и формируются в базы данных. |
||
"it2b.интернетошпионопаук 3000+" - собственная разработка компании "Р-Техно", предназначенная для выгрузки данных из невидимого сегмента интернета. Система широко применяется как для нужд самой компании "Р-Техно" при проведении бизнес-разведки и маркетинговых исследований, так и для нужд заказчиков, которым периодически необходимо выгружать информацию с сайтов конкурентов и т.п. |
"it2b.интернетошпионопаук 3000+" - собственная разработка компании "Р-Техно", предназначенная для выгрузки данных из невидимого сегмента интернета. Система широко применяется как для нужд самой компании "Р-Техно" при проведении бизнес-разведки и маркетинговых исследований, так и для нужд заказчиков, которым периодически необходимо выгружать информацию с сайтов конкурентов и т.п. |
||
Строка 30: | Строка 30: | ||
{{rq|stub|source|style}} |
{{rq|stub|source|style}} |
||
{{web-stub}} |
{{web-stub}} |
||
{{Нет иллюстраций}} |
|||
[[Категория:Поисковые системы]] |
[[Категория:Поисковые системы]] |
||
Версия от 23:25, 22 января 2009
Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин обычно ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету.
Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения ключевых слов определяется алгоритмами поисковой машины.
В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.
Ограничить индексацию сайта можно с помощью файла robots.txt, однако некоторые поисковые системы могут игнорировать наличие этого файла. Полная защита от индексации обеспечивается механизмами, обойти которые пока паукам не под силу. Обычно — установкой пароля на странице, либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому страницы.
Интернет-паук в бизнес-разведке
Интернет-пауки (роботы) помогают собирать информацию из невидимой части интернета в целях бизнес-разведки. Данные затем полученная информация обрабатываются и формируются в базы данных. "it2b.интернетошпионопаук 3000+" - собственная разработка компании "Р-Техно", предназначенная для выгрузки данных из невидимого сегмента интернета. Система широко применяется как для нужд самой компании "Р-Техно" при проведении бизнес-разведки и маркетинговых исследований, так и для нужд заказчиков, которым периодически необходимо выгружать информацию с сайтов конкурентов и т.п.
Некоторые базы данных из серии "Невидимый интернет"
- База данных "Розыск Интерпола 2008"
- База данных "Банкроты Белоруссии 2008"
- База данных "Компании США уличенные в мошенничестве 2008"
- База данных "Недобросовестные поставщики ФАС 2008"
- База данных "Должники металлургической отрасли 2008"
Более подробную информацию см. на сайте компании - http://r-techno.com/rtechno/business-intelligence/internet-intelligence/
См. также
Для улучшения этой статьи желательно:
|
Это заготовка статьи об Интернете. Помогите Википедии, дополнив её. |