Поисковый робот: различия между версиями

Интерактивная навигация по истории

(Показать все непатрулированные изменения)

[отпатрулированная версия]

[непроверенная версия]

← Предыдущая правка

Содержимое удалено Содержимое добавлено

ВизуальныйВики-текст

Линейный

Текущая версия от 06:18, 19 декабря 2022

Поиско́вый ро́бот, или веб-кра́улер (англ. Web crawler; также встречается название «веб-пау́к»), алгоритмы автоматического интернет-сёрфинга (англ. Internet surfing, surfing «катание (скольжение) на (по) волнах(-м)») — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.

По принципу действия, «паук» напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics, Яндекс.Метрика и Рейтинг@Mail.ru.

Ограничить индексацию сайта можно с помощью файла robots.txt. Полная защита от индексации может быть обеспечена другими механизмами, например, установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.

См. также

Ссылки

Яндекс.Вебмастер: Как работает робот (рус.). Яндекс. Дата обращения: 25 апреля 2009. Архивировано 23 августа 2011 года.
Googlebot: Google's Web Crawler (рус.). Google. Дата обращения: 25 апреля 2009. Архивировано из оригинала 23 августа 2011 года.

@@ Строка 1: / Строка 1: @@
-'''Поиско́вый ро́бот''' («веб-пау́к», краулер) — [[компьютерная программа|программа]], являющаяся составной частью [[поисковая система|поисковой системы]] и предназначенная для перебора страниц [[Интернет]]а с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «''дятлы''» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.
+'''Поиско́вый ро́бот''', или '''веб-кра́улер''' ({{lang-en|Web crawler}}; также встречается название «''веб-пау́к''»), '''алгоритмы автоматического интернет-сёрфинга''' ([[англ.]] ''Internet surfing'', ''surfing'' «катание (скольжение) на (по) волнах(-м)») — [[компьютерная программа|программа]], являющаяся составной частью [[поисковая система|поисковой системы]] и предназначенная для перебора страниц [[Интернет]]а с целью занесения информации о них в [[База данных|базу данных]] поисковика.
-Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются [[Поисковый алгоритм|поисковыми алгоритмами]].
+По принципу действия, «паук» напоминает обычный [[браузер]]. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами [[Информационный поиск|информационного поиска]]. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
+Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «''дятлы''» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.
-В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
-Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для [[индексация в поисковых системах|индексирования]]. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью указать на его существование.
+Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для [[индексация в поисковых системах|индексирования]]. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем [[Веб-аналитика|веб-аналитики]], принадлежащих поисковым сервисам. Например, таких как [[Google Analytics]], [[Яндекс.Метрика]] и [[Рейтинг@Mail.ru]].
-Ограничить индексацию сайта можно с помощью файла [[robots.txt]], однако некоторые недобросовестные боты могут игнорировать наличие этого файла. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.
+Ограничить индексацию сайта можно с помощью файла [[robots.txt]]. Полная защита от индексации может быть обеспечена другими механизмами, например, установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.
 == См. также ==
+* [[Бот (программа)]]
+* [[Поисковый индекс]]
 * [[Полнотекстовый поиск]]
 * [[Нормализация URL]]
-* [[Бот (Интернет)]]
 == Ссылки ==
 * {{cite web
- | author        =
+ |author        =
- | authorlink    =
+ |authorlink    =
- | datepublished =
+ |datepublished =
- | url           = http://help.yandex.ru/webmaster/?id=995296
+ |url           = http://help.yandex.ru/webmaster/?id=995296
- | title         = Яндекс.Вебмастер: Как работает робот
+ |title         = Яндекс.Вебмастер: Как работает робот
- | format        =
+ |format        =
- | work          =
+ |work          =
- | publisher     = Яндекс
+ |publisher     = Яндекс
- | accessdate    = 2009-04-25
+ |accessdate    = 2009-04-25
- | lang          = ru
+ |lang          = ru
- | description   =
+ |description   =
- | archiveurl    = http://www.webcitation.org/619VqleX7
+ |archiveurl    = https://www.webcitation.org/619VqleX7?url=http://help.yandex.ru/webmaster/?id=995324
- | archivedate   = 2011-08-23
+ |archivedate   = 2011-08-23
+ |deadlink      = no
 }}
 * {{cite web
- | author        =
+ |author        =
- | authorlink    =
+ |authorlink    =
- | datepublished =
+ |datepublished =
- | url           = http://www.google.ru/intl/ru/webmasters/bot.html
+ |url           = http://www.google.ru/intl/ru/webmasters/bot.html
- | title         = Googlebot: Google's Web Crawler
+ |title         = Googlebot: Google's Web Crawler
- | format        =
+ |format        =
- | work          =
+ |work          =
- | publisher     = Google
+ |publisher     = Google
- | accessdate    = 2009-04-25
+ |accessdate    = 2009-04-25
- | lang          = ru
+ |lang          = ru
- | description   =
+ |description   =
- | archiveurl    = http://www.webcitation.org/619VtPx7c
+ |archiveurl    = https://www.webcitation.org/619VtPx7c?url=http://www.google.com/support/webmasters/bin/answer.py?hl=en-GB
- | archivedate   = 2011-08-23
+ |archivedate   = 2011-08-23
+ |deadlink      = yes
 }}
+{{rq|source|style|image}}
-* [http://nig.org.ua/2012/03/pishem-pauk/ Пример реализации простейшего поискового робота]
-{{rq|stub|source|style|image}}
 {{web-stub}}

Поисковый робот: различия между версиями

Текущая версия от 06:18, 19 декабря 2022

См. также

Ссылки

Навигация

Поиск