Поисковый робот: различия между версиями

Интерактивная навигация по истории

(Показать все непатрулированные изменения)

[непроверенная версия]

← Предыдущая правка

Содержимое удалено Содержимое добавлено

ВизуальныйВики-текст

Линейный

Текущая версия от 06:18, 19 декабря 2022

Поиско́вый ро́бот, или веб-кра́улер (англ. Web crawler; также встречается название «веб-пау́к»), алгоритмы автоматического интернет-сёрфинга (англ. Internet surfing, surfing «катание (скольжение) на (по) волнах(-м)») — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.

По принципу действия, «паук» напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics, Яндекс.Метрика и Рейтинг@Mail.ru.

Ограничить индексацию сайта можно с помощью файла robots.txt. Полная защита от индексации может быть обеспечена другими механизмами, например, установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.

См. также

Ссылки

Яндекс.Вебмастер: Как работает робот (рус.). Яндекс. Дата обращения: 25 апреля 2009. Архивировано 23 августа 2011 года.
Googlebot: Google's Web Crawler (рус.). Google. Дата обращения: 25 апреля 2009. Архивировано из оригинала 23 августа 2011 года.

@@ Строка 1: / Строка 1: @@
-'''Поиско́вый ро́бот''' («веб-пау́к», паук, спайдер, краулер) — [[компьютерная программа|программа]], являющаяся составной частью [[поисковая система|поисковой системы]] и предназначенная для обхода страниц [[Интернет]]а с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин обычно ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «''дятлы''» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету.
+'''Поиско́вый ро́бот''', или '''веб-кра́улер''' ({{lang-en|Web crawler}}; также встречается название «''веб-пау́к''»), '''алгоритмы автоматического интернет-сёрфинга''' ([[англ.]] ''Internet surfing'', ''surfing'' «катание (скольжение) на (по) волнах(-м)») — [[компьютерная программа|программа]], являющаяся составной частью [[поисковая система|поисковой системы]] и предназначенная для перебора страниц [[Интернет]]а с целью занесения информации о них в [[База данных|базу данных]] поисковика.
+По принципу действия, «паук» напоминает обычный [[браузер]]. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами [[Информационный поиск|информационного поиска]]. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
-Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения ключевых слов определяется [[алгоритм]]ами поисковой машины.
+Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «''дятлы''» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.
-В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
-Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для [[индексация в поисковых системах|индексирования]]. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.
-Ограничить индексацию сайта можно с помощью файла [[robots.txt]],
-однако некоторые поисковые системы могут игнорировать наличие этого [[компьютерный файл|файла]]. Полная защита от индексации обеспечивается механизмами, обойти которые пока паукам не под силу. Обычно — установкой пароля на странице, либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому страницы.
+Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для [[индексация в поисковых системах|индексирования]]. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем [[Веб-аналитика|веб-аналитики]], принадлежащих поисковым сервисам. Например, таких как [[Google Analytics]], [[Яндекс.Метрика]] и [[Рейтинг@Mail.ru]].
+Ограничить индексацию сайта можно с помощью файла [[robots.txt]]. Полная защита от индексации может быть обеспечена другими механизмами, например, установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.
 == См. также ==
+* [[Бот (программа)]]
+* [[Поисковый индекс]]
 * [[Полнотекстовый поиск]]
+* [[Нормализация URL]]
+== Ссылки ==
+* {{cite web
+ |author        =
+ |authorlink    =
+ |datepublished =
+ |url           = http://help.yandex.ru/webmaster/?id=995296
+ |title         = Яндекс.Вебмастер: Как работает робот
+ |format        =
+ |work          =
+ |publisher     = Яндекс
+ |accessdate    = 2009-04-25
+ |lang          = ru
+ |description   =
+ |archiveurl    = https://www.webcitation.org/619VqleX7?url=http://help.yandex.ru/webmaster/?id=995324
+ |archivedate   = 2011-08-23
+ |deadlink      = no
+}}
+* {{cite web
+ |author        =
+ |authorlink    =
+ |datepublished =
+ |url           = http://www.google.ru/intl/ru/webmasters/bot.html
+ |title         = Googlebot: Google's Web Crawler
+ |format        =
+ |work          =
+ |publisher     = Google
+ |accessdate    = 2009-04-25
+ |lang          = ru
+ |description   =
+ |archiveurl    = https://www.webcitation.org/619VtPx7c?url=http://www.google.com/support/webmasters/bin/answer.py?hl=en-GB
+ |archivedate   = 2011-08-23
+ |deadlink      = yes
+}}
+{{rq|source|style|image}}
+{{web-stub}}
 [[Категория:Поисковые системы]]
+[[Категория:Алгоритмы интернет-поиска]]
+[[Категория:Боты]]
-[[ca:Aranya web]]
-[[de:Webcrawler]]
-[[en:Web crawler]]
-[[es:Web crawler]]
-[[eu:Web crawler]]
-[[fi:Hakurobotti]]
-[[fr:Robot d'indexation]]
-[[he:זחלן רשת]]
-[[it:Crawler]]
-[[ja:クローラ]]
-[[lt:Interneto robotai]]
-[[nl:Spider]]
-[[pl:Robot internetowy]]
-[[ta:சிலந்திகள் (தேடுபொறி)]]
-[[zh:网络蜘蛛]]

Поисковый робот: различия между версиями

Текущая версия от 06:18, 19 декабря 2022

См. также

Ссылки

Навигация

Поиск