Забыли пароль? Вы не зарегистрированы. Регистрация
Авторизация

Домашний бизнес, партнерские программы, работа на бирже, google adsense,

Пятница
Авг 08 
Главная arrow Поиск с GOOGLE arrow Как работают ИПС?
Как работают ИПС?
(0 голосов)
Написал В.С. Гусев   
Пятница, 01 Сентября 2006

Как работают поисковые машины

Поисковая машина (для краткости ее часто называют просто поисковик) представляет собой комплект программ, в основе которого лежат следующие пять.

Spider ("паук") — программа, которая загружает в поисковую машину Web-страницы. Работает аналогично браузеру, установленному на компьютере пользователя, но ничего не отображает ни на каком экране. Если вы хотите иметь представление о том, что именно загружает в поисковую систему "паук", откройте какую-нибудь Web-страницу и выберите в меню Вид браузера пункт Просмотр HTML-кода. (Напоминаем: по умолчанию мы говорим о браузере Microsoft Internet Explorer версии 6.)

Crawler ("червяк", или "путешествующий паук") — программа, способная найти на Web-странице все ссылки на другие страницы. Ее задача — определить, куда дальше должен ползти "паук", руководствуясь ссылками или заранее заданным списком адресов.

Indexer (индексатор) — программа, которая "разбирает" страницу на составные части и анализирует их. Вычленяются и анализируются заголовки Web-страниц, заголовки документов, ссылки, текст документов, отдельно — текст, выделенный полужирным шрифтом, курсивом и т.д.

Database (база данных) — хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки.

Search Engine Results Engine (система выдачи результатов поиска) решает, какие страницы удовлетворяют запросу пользователя и в какой степени. Именно с этой частью поисковой системы "общается" пользователь.

Первые две программы, работающие "в связке", часто называют поисковый робот (а иногда — НТТР-робот).

Как видите, поисковая машина, получив запрос на поиск, не отправляется в длительное путешествие по "Всемирной паутине", как полагают некоторые пользователи, а анализирует лишь ту информацию, которую собрала ранее. С одной стороны, это позволяет резко повысить скорость обработки запроса на поиск.

С другой, ограничивает область поиска внутренними ресурсами поисковой системы, которые, во-первых, ограниченны (ни одна поисковая машина не в состоянии загрузить в свою базу данных информацию со всех узлов Сети), во-вторых, уже в какой-то степени устарели. Ситуация в Internet изменяется очень быстро. Если "паук" с целью обновления информации об уже проиндексированных однажды Web-страницах "заползает" на них раз в два месяца, пользователь рискует получить в результатах запроса ссылку на уже несуществующую Web-страницу.

как искать

Процесс загрузки из Сети информации и предварительного анализа ее поисковой машиной называется индексация, а сама база данных поисковой машины, в которой хранится собранная информация, — индекс.

Глубина индексации может быть разной. Полные тексты документов, размещенных на странице, в базу данных копируют не все поисковые роботы — некоторые ограничиваются лишь заголовками. Когда пользователь формирует запрос на поиск, поисковая машина просматривает свою базу данных и выдает перечень Web-страниц, содержащих слова, введенные пользователем в поле ввода (их часто называют ключевые слова). Таких страниц может быть очень много. Задача поисковой машины — отобрать те из них, которые в наибольшей степени отвечают запросу пользователя (т.е. релевантны ему) и указать ссылки на них в числе первых.

Дисциплина "Поиск информации в Internet" появилась совсем недавно (первые поисковые машины — около десяти лет назад), терминология еще не устоялась, поэтому не удивляйтесь, если обнаружите, что в какой-то статье или книге автоматическим индексом (или даже просто индексом) называют саму поисковую машину, а состоит она только из двух частей:поискового робота и базы данных. Используемая нами терминология также не является общепринятой и в ближайшем будущем может быть частично заменена другой.

Высокая скорость поиска обеспечивается не только за счет того, что поисковая машина обращается к уже собранной и хранящейся тут же, у нее "под рукой", информации. Анализируя собранные данные, поисковая машина выполняет индексацию базы данных, в процессе которой каждому слову ставятся в соответствие его "координаты" — номер документа, в котором имеется данное слово, а зачастую и позиция слова в документе (номер предложения и номер слова в нем).

поисковая системаАлгоритмом поиска можно назвать метод, руководствуясь которым поисковая машина принимает решение, включать или не включать ссылку на страницу либо документ в результаты поиска.

 Почти каждая поисковая машина использует свой собственный алгоритм поиска, и его детали представляют собой ноу-хау разработчиков поисковика. Но большинство из них отбирают документы, отвечая сами себе на вопросы, перечисленные ниже.

• Присутствует ли ключевое слово в заголовке документа?

• Присутствует ли ключевое слово в имени домена или в адресе страницы?

• Встречается ли ключевое слово в подзаголовках документа либо в элементах текста, выделенных полужирным, курсивом либо как-то иначе?

• Как часто ключевое слово встречается на странице? (Долю ключевых слов в тексте страницы иногда называют плотностью ключевого слова.)

• Встречаются ли ключевые слова в описаниях страниц, выполненных их разработчиками, и среди ключевых слов, указанных разработчиками страниц? (Поскольку очень часто разработчики Web-страниц с целью привлечения к ним внимания лукавят при их описании и выборе ключевых слов, данным критерием пользуются не все поисковики.)

• На какие Web-узлы имеются ссылки на анализируемой странице и встречается ли ключевое слово в тексте ссылки?

• Какие Web-узлы имеют ссылку на анализируемый сайт?

Каков текст ссылки? (Это так называемый внестраничный критерий, потому что автор страницы не всегда может им

управлять.)

• На какие еще страницы данного сайта содержит ссылки анализируемая страница?

Как видите, поисковая система должна провести довольно детальный анализ каждой страницы, информацию о которой она заносит в свою базу данных.

Мы привели лишь очень краткое описание того, как работает поисковая система, но для этой статьи этого более чем достаточно. В следующем статье мы поговорим о возможных алгоритмах поиска более подробно.

 Пожалуйста, при использовании статьи ставьте ссылку на сайт источник:  http://www.infpartner.com

 
Есть свой сайт? Хочешь заработать - XAP

Дом Болгария от английской риэлторской компании
Вы хотите заработать в Интернете? Работа на дому Начинающим и не только
GBP
45.9582 руб.
 
USD
23.5816 руб.
 
EUR
36.4737 руб.
 
Курс ЦБ РФ на: 08.08.2008 22:56

Обои


Статистика заработка

Рынок FOREX
На сайте 32 партнерских программ

Введите ваш email адрес:

Последние комментарии

Как я начинал на рынке форекс
Спасибо за интересную инфоϮ..
Как я начинал на рынке форекс
Конечно можем Дмитрий, я с в...
Как я начинал на рынке форекс
Только думаю об этом.Что деή..
Заработать на Metacafe.com
А зачем залезать на импортн...
Как заработать на падении акций? Шо...
Ясно, спокойно и без претенή..

Наша кнопка

Если Вам понравился наш ресурс, то мы будем очень признательны Вам, если Вы разместите нашу кнопку(и) на страницах Вашего ресурса.
Наша кнопка:
infpartner.com - Домашний бизнес, партнерские программы, google adsense, работа на бирже