A+ R A-

Проблема морфологического поиска

E-mail Печать PDF

  Если вы сделаете запрос мальчик вошел в лес крупнейшей российской ИПС Yandex, она найдет примерно 1035 страниц (рис. 2.1). Слова запроса, содержащиеся в найденных страницах, Yandex, как и Google, выделяет полужирным шрифтом. Можно увидеть, что предлог "в" Yandex относит к стоп-словам и при поиске не учитывает. Первая ссылка привлекла внимание Yandex буквально словами запроса —"Мальчик вошел в лес", но уже вторая —  словами "Мальчик вошел в тень леса", четвертая — "Мальчик, найденный в лесу охотниками", и т.д. Как видите, Yandex прекрасно знает все падежи, спряжения и прочие особенности русского языка, стараясь найти как можно больше ссылок.

 

  Если тот же запрос сделать к ИПС Google, будет найдено ок. 1 млн. страниц (сравните с аналогичным показателем Yandex), но все слова будут искаться только в том падеже числе и спряжении, в каком вы их ввели в поле запроса (рис. 2.2). Google будет искать страницы, в которых слова запроса переставлены, разделены многими другими словами, но "в лес" на "в лесу" он заменить не способен. Более того, предлог "в" Google не относит к стоп-словам и прилежно отыскивает вместе со словами "лес" и "мальчик".

 

  Итак, морфологический поиск на русском языке Google проводить (пока) не умеет. Эта проблема в большинстве случаев не очень велика. Дело в том, что если документ, который вы ищете, достаточно объемен, важные для поиска слова наверняка будут упомянуты в нем неоднократно, причем в разных падежах, склонениях, спряжениях и т.п. Такой документ наверняка будет присутствовать в результатах поиска (хотя, возможно, и не в числе первых). Кроме того, если вам важно найти документы с каким-то термином, его можно включить в запрос в разных падежах, воспользовавшись для этого вариантом расширенного поиска (поле с любым из слов), или, если вы предпочитаете проводить сложный поиск, разделив разные словоформы оператором OR (например, магистр OR магистра OR магистру и т.д.; поскольку в русском языке всего лишь 6 падежей, а не 46, как в табасаранском, это не так уж сложно). Времен глаголов у нас тоже только 3, а не 24, как в английском. Правда, глаголы бывают совершенные и несовершенные и, кроме того, русский язык отличается наличием огромного числа приставок, суффиксов и окончаний, которые и делают его столь богатым, но все равно провести морфологический поиск вручную зачастую бывает не так уж и сложно.

  Это — вполне окупаемые затраты, поскольку ни одна современная ИПС не способна конкурировать с Google по количеству проиндексированных документов (свыше 8 млрд).


Пожалуйста, при использовании статьи ставьте ссылку на сайт источник:  http://www.infpartner.com

Добавить комментарий


Защитный код
Обновить

Последние материалы

Наша кнопка

Если Вам понравился наш ресурс, то мы будем очень признательны Вам, если Вы разместите нашу кнопку(и) на страницах Вашего ресурса.
Наша кнопка:
infpartner.com - Домашний бизнес, партнерские программы, google adsense, работа на бирже