A+ R A-

Единица поиска и термины

E-mail Печать PDF

  Еще один термин, который вам может встретиться при работе с ИПС, — это единица поиска. Поисковые машины позволяют указывать, где должно проверяться логическое выражение. Оно может относиться к каждому предложению, каждому абзацу текста или к документу в целом — это и будет считаться единицей поиска. Если бы мы, формируя запрос на поиск, указали, что слова "мальчик вошел в лес" должны находиться в пределах одного предложения, количество нерелевантных документов в результатах поиска явно уменьшилось бы.

  О стоп-словах мы уже говорили выше. К ним относят не только предлоги и артикли, но и такие слова, которые встречаются в каждых девяти документах из десяти, поэтому учитывать их при поиске практически бесполезно. Если такое слово указывается в качестве единственного ключевого, ИПС может отказаться выполнять запрос. (Отметим, что, поскольку Google не проводит морфологический поиск на русском языке, не использует он и список стоп-слов, т.е., например, простодушно предлагает просмотреть 17 млн страниц, содержащих предлог "на".)

  Мы уже несколько раз использовали интуитивно понятное словосочетание "эффективность поиска информации", но определения его не дали. В словарях и энциклопедиях мы такого определения не нашли. Будем считать, что эффективность поиска информации тем выше, чем больше коэффициенты полноты и точности поиска и меньше время, и другие ресурсы, затрачиваемые на его проведение.

  Многие поисковые узлы с целью повышения эффективности поиска позволяют вместо простого поиска, о котором мы говорили еще в первых статьях, проводить так называемый расширенный поиск. Для этого они предлагают пользователю заполнить форму, благодаря которой может быть сужена область поиска — по тематике, по типам сайтов, по дате и т.п. Иногда под этим термином также понимают проведение поиска с использованием булевых операторов, но чаще булев поиск, в отличие от простого, называют сложным.

  О сложном поиске мы поговорим в статьях «Поиск для нетерпеливых», а сейчас пришла пора рассказать о еще одной проблеме, которую должны уметь преодолевать ИПС при анализе русскоязычных документов. Связана она с кодировками.


Пожалуйста, при использовании статьи ставьте ссылку на сайт источник:  http://www.infpartner.com

Добавить комментарий


Защитный код
Обновить

Последние материалы

Наша кнопка

Если Вам понравился наш ресурс, то мы будем очень признательны Вам, если Вы разместите нашу кнопку(и) на страницах Вашего ресурса.
Наша кнопка:
infpartner.com - Домашний бизнес, партнерские программы, google adsense, работа на бирже