Поисковый робот: различия между версиями
[непроверенная версия] | [непроверенная версия] |
→Преамбула: орфография, вопрос, ответ, к удалению, запрос источника, дополнение, итог, закрыто, обновление, исправление, уточнение, источники, иллюстрирование, категоризация, комментарий, пунктуация, стилевые правки, оформление, внутренние ссылки |
Нет описания правки Метка: отмена |
||
Строка 1: | Строка 1: | ||
'''Поиско́вый ро́бот''', |
'''Поиско́вый ро́бот''' («веб-пау́к», «веб-краулер» [wɛb-krɔːlə], бот ) — [[компьютерная программа|программа]], являющаяся составной частью [[поисковая система|поисковой системы]] и предназначенная для перебора страниц [[Интернет]]а с целью занесения информации о них в базу данных поисковика. |
||
k'd; 'd,l двьлв. дыьд эюбыдьы |
|||
По принципу действия, паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. |
|||
Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «''дятлы''» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен. |
|||
Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами [[Информационный поиск|информационного поиска]]. |
|||
В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. |
|||
Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для [[индексация в поисковых системах|индексирования]]. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как [[Google Analytics]], [[Яндекс.Метрика]] и [[Рейтинг@Mail.ru]]. |
|||
Ограничить индексацию сайта можно с помощью файла [[robots.txt]]. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому. |
|||
== См. также == |
== См. также == |
||
⚫ | |||
* [[Поисковый индекс]] |
* [[Поисковый индекс]] |
||
* [[Полнотекстовый поиск]] |
* [[Полнотекстовый поиск]] |
||
* [[Нормализация URL]] |
* [[Нормализация URL]] |
||
⚫ | |||
== Ссылки == |
== Ссылки == |
Версия от 16:03, 12 мая 2022
Поиско́вый ро́бот («веб-пау́к», «веб-краулер» [wɛb-krɔːlə], бот ) — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.
По принципу действия, паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы.
Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.
Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска.
В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics, Яндекс.Метрика и Рейтинг@Mail.ru.
Ограничить индексацию сайта можно с помощью файла robots.txt. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.
См. также
Ссылки
- Яндекс.Вебмастер: Как работает робот . Яндекс. Дата обращения: 25 апреля 2009. Архивировано 23 августа 2011 года.
- Googlebot: Google's Web Crawler . Google. Дата обращения: 25 апреля 2009. Архивировано из оригинала 23 августа 2011 года.
Для улучшения этой статьи желательно:
|
Это заготовка статьи об Интернете. Помогите Википедии, дополнив её. |