Поисковый робот: различия между версиями
[непроверенная версия] | [непроверенная версия] |
Нет описания правки |
дополнение |
||
(не показано 99 промежуточных версий 78 участников) | |||
Строка 1: | Строка 1: | ||
'''Поиско́вый ро́бот''' («веб-пау́к», |
'''Поиско́вый ро́бот''', или '''веб-кра́улер''' ({{lang-en|Web crawler}}; также встречается название «''веб-пау́к''»), '''алгоритмы автоматического интернет-сёрфинга''' ([[англ.]] ''Internet surfing'', ''surfing'' «катание (скольжение) на (по) волнах(-м)») — [[компьютерная программа|программа]], являющаяся составной частью [[поисковая система|поисковой системы]] и предназначенная для перебора страниц [[Интернет]]а с целью занесения информации о них в [[База данных|базу данных]] поисковика. |
||
По принципу действия, «паук» напоминает обычный [[браузер]]. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами [[Информационный поиск|информационного поиска]]. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. |
|||
Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения ключевых слов определяется [[алгоритм]]ами поисковой машины. |
|||
Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «''дятлы''» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен. |
|||
В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. |
|||
⚫ | Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для [[индексация в поисковых системах|индексирования]]. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью |
||
Ограничить индексацию сайта можно с помощью файла [[robots.txt]], |
|||
⚫ | |||
⚫ | Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для [[индексация в поисковых системах|индексирования]]. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем [[Веб-аналитика|веб-аналитики]], принадлежащих поисковым сервисам. Например, таких как [[Google Analytics]], [[Яндекс.Метрика]] и [[Рейтинг@Mail.ru]]. |
||
⚫ | |||
== См. также == |
== См. также == |
||
* [[Бот (программа)]] |
|||
* [[Поисковый индекс]] |
|||
* [[Полнотекстовый поиск]] |
* [[Полнотекстовый поиск]] |
||
* [[Нормализация URL]] |
|||
== Ссылки == |
|||
* {{cite web |
|||
|author = |
|||
|authorlink = |
|||
|datepublished = |
|||
|url = http://help.yandex.ru/webmaster/?id=995296 |
|||
|title = Яндекс.Вебмастер: Как работает робот |
|||
|format = |
|||
|work = |
|||
|publisher = Яндекс |
|||
|accessdate = 2009-04-25 |
|||
|lang = ru |
|||
|description = |
|||
|archiveurl = https://www.webcitation.org/619VqleX7?url=http://help.yandex.ru/webmaster/?id=995324 |
|||
|archivedate = 2011-08-23 |
|||
|deadlink = no |
|||
}} |
|||
* {{cite web |
|||
|author = |
|||
|authorlink = |
|||
|datepublished = |
|||
|url = http://www.google.ru/intl/ru/webmasters/bot.html |
|||
|title = Googlebot: Google's Web Crawler |
|||
|format = |
|||
|work = |
|||
|publisher = Google |
|||
|accessdate = 2009-04-25 |
|||
|lang = ru |
|||
|description = |
|||
|archiveurl = https://www.webcitation.org/619VtPx7c?url=http://www.google.com/support/webmasters/bin/answer.py?hl=en-GB |
|||
|archivedate = 2011-08-23 |
|||
|deadlink = yes |
|||
}} |
|||
{{rq|source|style|image}} |
|||
{{web-stub}} |
|||
[[Категория:Поисковые системы]] |
[[Категория:Поисковые системы]] |
||
[[Категория:Алгоритмы интернет-поиска]] |
|||
[[Категория:Боты]] |
|||
[[ca:Aranya web]] |
|||
[[de:Webcrawler]] |
|||
[[en:Web crawler]] |
|||
[[es:Web crawler]] |
|||
[[eu:Web crawler]] |
|||
[[fi:Hakurobotti]] |
|||
[[fr:Robot d'indexation]] |
|||
[[he:זחלן רשת]] |
|||
[[it:Crawler]] |
|||
[[ja:クローラ]] |
|||
[[lt:Interneto robotai]] |
|||
[[nl:Spider]] |
|||
[[pl:Robot internetowy]] |
|||
[[ta:சிலந்திகள் (தேடுபொறி)]] |
|||
[[zh:网络蜘蛛]] |
Текущая версия от 06:18, 19 декабря 2022
Поиско́вый ро́бот, или веб-кра́улер (англ. Web crawler; также встречается название «веб-пау́к»), алгоритмы автоматического интернет-сёрфинга (англ. Internet surfing, surfing «катание (скольжение) на (по) волнах(-м)») — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.
По принципу действия, «паук» напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.
Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics, Яндекс.Метрика и Рейтинг@Mail.ru.
Ограничить индексацию сайта можно с помощью файла robots.txt. Полная защита от индексации может быть обеспечена другими механизмами, например, установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.
См. также
[править | править код]Ссылки
[править | править код]- Яндекс.Вебмастер: Как работает робот . Яндекс. Дата обращения: 25 апреля 2009. Архивировано 23 августа 2011 года.
- Googlebot: Google's Web Crawler . Google. Дата обращения: 25 апреля 2009. Архивировано из оригинала 23 августа 2011 года.
Для улучшения этой статьи желательно:
|
Это заготовка статьи об Интернете. Помогите Википедии, дополнив её. |