Поисковый робот: различия между версиями

Интерактивная навигация по истории

(Показать все непатрулированные изменения)

[непроверенная версия]

← Предыдущая правка

Содержимое удалено Содержимое добавлено

ВизуальныйВики-текст

Линейный

Текущая версия от 06:18, 19 декабря 2022

Поиско́вый ро́бот, или веб-кра́улер (англ. Web crawler; также встречается название «веб-пау́к»), алгоритмы автоматического интернет-сёрфинга (англ. Internet surfing, surfing «катание (скольжение) на (по) волнах(-м)») — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.

По принципу действия, «паук» напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics, Яндекс.Метрика и Рейтинг@Mail.ru.

Ограничить индексацию сайта можно с помощью файла robots.txt. Полная защита от индексации может быть обеспечена другими механизмами, например, установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.

См. также

Ссылки

Яндекс.Вебмастер: Как работает робот (рус.). Яндекс. Дата обращения: 25 апреля 2009. Архивировано 23 августа 2011 года.
Googlebot: Google's Web Crawler (рус.). Google. Дата обращения: 25 апреля 2009. Архивировано из оригинала 23 августа 2011 года.

Версия от 12:29, 27 апреля 2022 править PhilippTheGreatest (обсуждение \| вклад) Загружающие 620 правок Функция «Добавить ссылку»: добавлено 3 ссылки. Метки: через визуальный редактор с мобильного устройства из мобильной версии через расширенный мобильный режим Задача для новичков предложение: добавить ссылки ← Предыдущая правка		Текущая версия от 06:18, 19 декабря 2022 править отменить Ataar Satag (обсуждение \| вклад) Загружающие 142 правки дополнение Метка: через визуальный редактор
(не показаны 3 промежуточные версии 2 участников)
Строка 1:		Строка 1:
	'''Поиско́вый ро́бот''', или '''веб-кра́улер''' ({{lang-en\|Web crawler}}; также встречается название «''веб-пау́к''») — [[компьютерная программа\|программа]], являющаяся составной частью [[поисковая система\|поисковой системы]] и предназначенная для перебора страниц [[Интернет]]а с целью занесения информации о них в [[База данных\|базу данных]] поисковика.		'''Поиско́вый ро́бот''', или '''веб-кра́улер''' ({{lang-en\|Web crawler}}; также встречается название «''веб-пау́к''»), '''алгоритмы автоматического интернет-сёрфинга''' ([[англ.]] ''Internet surfing'', ''surfing'' «катание (скольжение) на (по) волнах(-м)») — [[компьютерная программа\|программа]], являющаяся составной частью [[поисковая система\|поисковой системы]] и предназначенная для перебора страниц [[Интернет]]а с целью занесения информации о них в [[База данных\|базу данных]] поисковика.

	По принципу действия, «паук» напоминает обычный [[браузер]]. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами [[Информационный поиск\|информационного поиска]]. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.		По принципу действия, «паук» напоминает обычный [[браузер]]. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами [[Информационный поиск\|информационного поиска]]. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Поисковый робот: различия между версиями

Текущая версия от 06:18, 19 декабря 2022

См. также

Ссылки

Навигация

Поиск