Забыли пароль? Вы не зарегистрированы. Регистрация
Авторизация

Домашний бизнес, партнерские программы, работа на бирже, google adsense,

Пятница
Авг 22 
Главная arrow Поиск с GOOGLE arrow Проблема морф-ого поиска
Проблема морфологического поиска
(0 голосов)
Написал В.С. Гусев   
Понедельник, 04 Сентября 2006

  Если вы сделаете запрос мальчик вошел в лес крупнейшей российской ИПС Yandex, она найдет примерно 1035 страниц (рис. 2.1). Слова запроса, содержащиеся в найденных страницах, Yandex, как и Google, выделяет полужирным шрифтом. Можно увидеть, что предлог "в" Yandex относит к стоп-словам и при поиске не учитывает. Первая ссылка привлекла внимание Yandex буквально словами запроса —"Мальчик вошел в лес", но уже вторая —  словами "Мальчик вошел в тень леса", четвертая — "Мальчик, найденный в лесу охотниками", и т.д. Как видите, Yandex прекрасно знает все падежи, спряжения и прочие особенности русского языка, стараясь найти как можно больше ссылок.

 

  Если тот же запрос сделать к ИПС Google, будет найдено ок. 1 млн. страниц (сравните с аналогичным показателем Yandex), но все слова будут искаться только в том падеже числе и спряжении, в каком вы их ввели в поле запроса (рис. 2.2). Google будет искать страницы, в которых слова запроса переставлены, разделены многими другими словами, но "в лес" на "в лесу" он заменить не способен. Более того, предлог "в" Google не относит к стоп-словам и прилежно отыскивает вместе со словами "лес" и "мальчик".

 

  Итак, морфологический поиск на русском языке Google проводить (пока) не умеет. Эта проблема в большинстве случаев не очень велика. Дело в том, что если документ, который вы ищете, достаточно объемен, важные для поиска слова наверняка будут упомянуты в нем неоднократно, причем в разных падежах, склонениях, спряжениях и т.п. Такой документ наверняка будет присутствовать в результатах поиска (хотя, возможно, и не в числе первых). Кроме того, если вам важно найти документы с каким-то термином, его можно включить в запрос в разных падежах, воспользовавшись для этого вариантом расширенного поиска (поле с любым из слов), или, если вы предпочитаете проводить сложный поиск, разделив разные словоформы оператором OR (например, магистр OR магистра OR магистру и т.д.; поскольку в русском языке всего лишь 6 падежей, а не 46, как в табасаранском, это не так уж сложно). Времен глаголов у нас тоже только 3, а не 24, как в английском. Правда, глаголы бывают совершенные и несовершенные и, кроме того, русский язык отличается наличием огромного числа приставок, суффиксов и окончаний, которые и делают его столь богатым, но все равно провести морфологический поиск вручную зачастую бывает не так уж и сложно.

  Это — вполне окупаемые затраты, поскольку ни одна современная ИПС не способна конкурировать с Google по количеству проиндексированных документов (свыше 8 млрд).


Пожалуйста, при использовании статьи ставьте ссылку на сайт источник:  http://www.infpartner.com

 
Есть свой сайт? Хочешь заработать - XAP


GBP
45.3997 руб.
 
USD
24.3013 руб.
 
EUR
35.9975 руб.
 
Курс ЦБ РФ на: 22.08.2008 06:08

Обои


Статистика заработка

Рынок FOREX
На сайте 32 партнерских программ

Введите ваш email адрес:

Последние комментарии

Как я начинал на рынке форекс
Спасибо за интересную инфоϮ..
Как я начинал на рынке форекс
Конечно можем Дмитрий, я с в...
Как я начинал на рынке форекс
Только думаю об этом.Что деή..
Заработать на Metacafe.com
А зачем залезать на импортн...
Как заработать на падении акций? Шо...
Ясно, спокойно и без претенή..

Наша кнопка

Если Вам понравился наш ресурс, то мы будем очень признательны Вам, если Вы разместите нашу кнопку(и) на страницах Вашего ресурса.
Наша кнопка:
infpartner.com - Домашний бизнес, партнерские программы, google adsense, работа на бирже