Еще один термин, который вам может встретиться при работе с ИПС, — это единица поиска. Поисковые машины позволяют указывать, где должно проверяться логическое выражение. Оно может относиться к каждому предложению, каждому абзацу текста или к документу в целом — это и будет считаться единицей поиска. Если бы мы, формируя запрос на поиск, указали, что слова "мальчик вошел в лес" должны находиться в пределах одного предложения, количество нерелевантных документов в результатах поиска явно уменьшилось бы.
О стоп-словах мы уже говорили выше. К ним относят не только предлоги и артикли, но и такие слова, которые встречаются в каждых девяти документах из десяти, поэтому учитывать их при поиске практически бесполезно. Если такое слово указывается в качестве единственного ключевого, ИПС может отказаться выполнять запрос. (Отметим, что, поскольку Google не проводит морфологический поиск на русском языке, не использует он и список стоп-слов, т.е., например, простодушно предлагает просмотреть 17 млн страниц, содержащих предлог "на".)
Мы уже несколько раз использовали интуитивно понятное словосочетание "эффективность поиска информации", но определения его не дали. В словарях и энциклопедиях мы такого определения не нашли. Будем считать, что эффективность поиска информации тем выше, чем больше коэффициенты полноты и точности поиска и меньше время, и другие ресурсы, затрачиваемые на его проведение.
Многие поисковые узлы с целью повышения эффективности поиска позволяют вместо простого поиска, о котором мы говорили еще в первых статьях, проводить так называемый расширенный поиск. Для этого они предлагают пользователю заполнить форму, благодаря которой может быть сужена область поиска — по тематике, по типам сайтов, по дате и т.п. Иногда под этим термином также понимают проведение поиска с использованием булевых операторов, но чаще булев поиск, в отличие от простого, называют сложным.
О сложном поиске мы поговорим в статьях «Поиск для нетерпеливых», а сейчас пришла пора рассказать о еще одной проблеме, которую должны уметь преодолевать ИПС при анализе русскоязычных документов. Связана она с кодировками.
Пожалуйста, при использовании статьи ставьте ссылку на сайт источник: http://www.infpartner.com


