Поиск с GOOGLE
Как работают ИПС? | Как работают ИПС? |
| Написал В.С. Гусев | |||
| Пятница, 01 Сентября 2006 | |||
|
Как работают поисковые машины Поисковая машина (для краткости ее часто называют просто поисковик) представляет собой комплект программ, в основе которого лежат следующие пять. • Spider ("паук") — программа, которая загружает в поисковую машину Web-страницы. Работает аналогично браузеру, установленному на компьютере пользователя, но ничего не отображает ни на каком экране. Если вы хотите иметь представление о том, что именно загружает в поисковую систему "паук", откройте какую-нибудь Web-страницу и выберите в меню Вид браузера пункт Просмотр HTML-кода. (Напоминаем: по умолчанию мы говорим о браузере Microsoft Internet Explorer версии 6.) • Crawler ("червяк", или "путешествующий паук") — программа, способная найти на Web-странице все ссылки на другие страницы. Ее задача — определить, куда дальше должен ползти "паук", руководствуясь ссылками или заранее заданным списком адресов. • Indexer (индексатор) — программа, которая "разбирает" страницу на составные части и анализирует их. Вычленяются и анализируются заголовки Web-страниц, заголовки документов, ссылки, текст документов, отдельно — текст, выделенный полужирным шрифтом, курсивом и т.д. • Database (база данных) — хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки. • Search Engine Results Engine (система выдачи результатов поиска) решает, какие страницы удовлетворяют запросу пользователя и в какой степени. Именно с этой частью поисковой системы "общается" пользователь. Первые две программы, работающие "в связке", часто называют поисковый робот (а иногда — НТТР-робот). Как видите, поисковая машина, получив запрос на поиск, не отправляется в длительное путешествие по "Всемирной паутине", как полагают некоторые пользователи, а анализирует лишь ту информацию, которую собрала ранее. С одной стороны, это позволяет резко повысить скорость обработки запроса на поиск. С другой, ограничивает область поиска внутренними ресурсами поисковой системы, которые, во-первых, ограниченны (ни одна поисковая машина не в состоянии загрузить в свою базу данных информацию со всех узлов Сети), во-вторых, уже в какой-то степени устарели. Ситуация в Internet изменяется очень быстро. Если "паук" с целью обновления информации об уже проиндексированных однажды Web-страницах "заползает" на них раз в два месяца, пользователь рискует получить в результатах запроса ссылку на уже несуществующую Web-страницу.
Глубина индексации может быть разной. Полные тексты документов, размещенных на странице, в базу данных копируют не все поисковые роботы — некоторые ограничиваются лишь заголовками. Когда пользователь формирует запрос на поиск, поисковая машина просматривает свою базу данных и выдает перечень Web-страниц, содержащих слова, введенные пользователем в поле ввода (их часто называют ключевые слова). Таких страниц может быть очень много. Задача поисковой машины — отобрать те из них, которые в наибольшей степени отвечают запросу пользователя (т.е. релевантны ему) и указать ссылки на них в числе первых. Дисциплина "Поиск информации в Internet" появилась совсем недавно (первые поисковые машины — около десяти лет назад), терминология еще не устоялась, поэтому не удивляйтесь, если обнаружите, что в какой-то статье или книге автоматическим индексом (или даже просто индексом) называют саму поисковую машину, а состоит она только из двух частей:поискового робота и базы данных. Используемая нами терминология также не является общепринятой и в ближайшем будущем может быть частично заменена другой. Высокая скорость поиска обеспечивается не только за счет того, что поисковая машина обращается к уже собранной и хранящейся тут же, у нее "под рукой", информации. Анализируя собранные данные, поисковая машина выполняет индексацию базы данных, в процессе которой каждому слову ставятся в соответствие его "координаты" — номер документа, в котором имеется данное слово, а зачастую и позиция слова в документе (номер предложения и номер слова в нем).
Почти каждая поисковая машина использует свой собственный алгоритм поиска, и его детали представляют собой ноу-хау разработчиков поисковика. Но большинство из них отбирают документы, отвечая сами себе на вопросы, перечисленные ниже. • Присутствует ли ключевое слово в заголовке документа? • Присутствует ли ключевое слово в имени домена или в адресе страницы? • Встречается ли ключевое слово в подзаголовках документа либо в элементах текста, выделенных полужирным, курсивом либо как-то иначе? • Как часто ключевое слово встречается на странице? (Долю ключевых слов в тексте страницы иногда называют плотностью ключевого слова.) • Встречаются ли ключевые слова в описаниях страниц, выполненных их разработчиками, и среди ключевых слов, указанных разработчиками страниц? (Поскольку очень часто разработчики Web-страниц с целью привлечения к ним внимания лукавят при их описании и выборе ключевых слов, данным критерием пользуются не все поисковики.) • На какие Web-узлы имеются ссылки на анализируемой странице и встречается ли ключевое слово в тексте ссылки? • Какие Web-узлы имеют ссылку на анализируемый сайт? Каков текст ссылки? (Это так называемый внестраничный критерий, потому что автор страницы не всегда может им управлять.) • На какие еще страницы данного сайта содержит ссылки анализируемая страница? Как видите, поисковая система должна провести довольно детальный анализ каждой страницы, информацию о которой она заносит в свою базу данных. Мы привели лишь очень краткое описание того, как работает поисковая система, но для этой статьи этого более чем достаточно. В следующем статье мы поговорим о возможных алгоритмах поиска более подробно. Пожалуйста, при использовании статьи ставьте ссылку на сайт источник: http://www.infpartner.com |
|||
| Рынок FOREX |
| Как я начинал на рынке форекс |
| Как я начинал на рынке форекс |
| Как я начинал на рынке форекс |
| Заработать на Metacafe.com |
| Как заработать на падении акций? Шо... |