Поиск с GOOGLE
Проблема морф-ого поиска | Проблема морфологического поиска |
| Написал В.С. Гусев | |
| Понедельник, 04 Сентября 2006 | |
|
Если вы сделаете запрос мальчик вошел в лес крупнейшей российской ИПС Yandex, она найдет примерно 1035 страниц (рис. 2.1). Слова запроса, содержащиеся в найденных страницах, Yandex, как и Google, выделяет полужирным шрифтом. Можно увидеть, что предлог "в" Yandex относит к стоп-словам и при поиске не учитывает. Первая ссылка привлекла внимание Yandex буквально словами запроса —"Мальчик вошел в лес", но уже вторая — словами "Мальчик вошел в тень леса", четвертая — "Мальчик, найденный в лесу охотниками", и т.д. Как видите, Yandex прекрасно знает все падежи, спряжения и прочие особенности русского языка, стараясь найти как можно больше ссылок.
Если тот же запрос сделать к ИПС Google, будет найдено ок. 1 млн. страниц (сравните с аналогичным показателем Yandex), но все слова будут искаться только в том падеже числе и спряжении, в каком вы их ввели в поле запроса (рис. 2.2). Google будет искать страницы, в которых слова запроса переставлены, разделены многими другими словами, но "в лес" на "в лесу" он заменить не способен. Более того, предлог "в" Google не относит к стоп-словам и прилежно отыскивает вместе со словами "лес" и "мальчик".
Итак, морфологический поиск на русском языке Google проводить (пока) не умеет. Эта проблема в большинстве случаев не очень велика. Дело в том, что если документ, который вы ищете, достаточно объемен, важные для поиска слова наверняка будут упомянуты в нем неоднократно, причем в разных падежах, склонениях, спряжениях и т.п. Такой документ наверняка будет присутствовать в результатах поиска (хотя, возможно, и не в числе первых). Кроме того, если вам важно найти документы с каким-то термином, его можно включить в запрос в разных падежах, воспользовавшись для этого вариантом расширенного поиска (поле с любым из слов), или, если вы предпочитаете проводить сложный поиск, разделив разные словоформы оператором OR (например, магистр OR магистра OR магистру и т.д.; поскольку в русском языке всего лишь 6 падежей, а не 46, как в табасаранском, это не так уж сложно). Времен глаголов у нас тоже только 3, а не 24, как в английском. Правда, глаголы бывают совершенные и несовершенные и, кроме того, русский язык отличается наличием огромного числа приставок, суффиксов и окончаний, которые и делают его столь богатым, но все равно провести морфологический поиск вручную зачастую бывает не так уж и сложно. Это — вполне окупаемые затраты, поскольку ни одна современная ИПС не способна конкурировать с Google по количеству проиндексированных документов (свыше 8 млрд). Пожалуйста, при использовании статьи ставьте ссылку на сайт источник: http://www.infpartner.com |
| Рынок FOREX |
| Как я начинал на рынке форекс |
| Как я начинал на рынке форекс |
| Как я начинал на рынке форекс |
| Заработать на Metacafe.com |
| Как заработать на падении акций? Шо... |