CopyLeft (L) Юрий А. Денисов
Назад... К содержанию выпуска... Далее...
B.4. Поиск информации с помощью поисковых машин Интернета.Содержание.B.4.1. Правила составления запросов к поисковым машинам. B.4.1.1. Организация поиска в Интернете. B.4.1.2. Запросы, обрабатываемые всем поисковыми машинами одинаково. B.4.2. Российские поисковые машины. Неизбежным этапом использования датамайнинга в Интернете является обращение с запросом к поисковым машинам. При этом возможно как обращение с простыми запросами к поисковым машинам, которое происходит практически одинаково для всех поисковых машин, и расширенный запрос к поисковой системе. Расширенный запрос на поиск поисковые машины обрабатывают по-разному, и об этом будет сказано ниже. B.4.1. Правила составления запросов к поисковым машинам.При составлении запроса к поисковой системе нужно ответить на следующие вопросы:
Только ответив на эти вопросы, можно вплотную заняться поиском с помощью поисковых систем. B.4.1.1. Организация поиска в Интернете.Информацию о работе поисковых систем и их алгоритмов работы можно прочесть из работ, размещенных, например в [ Reference 1 ]. Краткие выдержки из этой статьи приведены здесь (Article_01.rtf). Алгоритмы и программы, реализующие простейший поиск подстроки в строке, приведены здесь, а программа для подготовки индекса файлов ("Частотный словарь") приведена здесь. Идея программы "Частотный словарь" взята из источника [ Reference 2 ]. B.4.1.2. Запросы, обрабатываемые всем поисковыми машинами одинаково.Самый простой поиск, который вообще может осуществить любой неподготовленный пользователь Интернета - это поиск по ключевым словам. Реализуются они совсем просто:
После выполнения запроса браузер выдаст список страниц сайтов, в котором встречаются данные ключевые слова. Если список не умещается на одной странице браузера, список со ссылками продолжится на других страницах. Переход между страницами прост: в конце каждой страницы с ответом на запрос находятся номера этих страниц. Выбор мышью номера страницы автоматически открывает ее. При этом по ссылкам можно передвигаться как вперед, так и назад. Однако у этого способа поиска есть недостатки. Например, Вам надо узнать рацион питания кошки. Недолго думая, Вы набираете запрос "Питание кошки" и пытаетесь найти ссылки на рацион. Что же на самом деле Вам выдаст поисковая система?
Собственно статьи, посвященных рациону кошек, вы можете обнаружить на третьей или четвертой странице поиска, а можете вообще не найти среди "сорных" сайтов. Что же делать в этом случае? Надо использовать расширенный поиск, специфичный для каждой поисковой системы, или использовать для поиска ключевые слова. Вначале рассмотрим ключевые слова, которые используются в строке простого поиска. Регулярные выражения. Чтобы осуществить расширенный поиск в Интернет, вначале необходимо познакомиться с регулярными выражениями. Что это такое и для чего они нужны? Регулярные выражения позволяют осуществить поиск по некоторому шаблону слова или выражения, в который включается как буквы слова, которые необходимо найти, так и символы, заменяемые другими, произвольными символами. В регулярных выражениях используются следующие символы: ? - символ, указывающий на то, что, на месте этого знака может встречаться любая буква или цифра, и при том только одна. Например, регулярному выражению м?л удовлетворяют слова "мал", "мол" и "мел". * - символ, указывающий на то, что на его месте могут встречаться произвольное число любых символов, в том числе пустое множество символов (то есть вообще ничего). Например, регулярное выражение "М*" означает любое слово, начинающееся с прописной русской буквы "М". Эти символы можно комбинировать. Например, по шаблону: "(?*)" будут искаться все непустые выражения, заключенные в обычные (круглые) скобки. Другие регулярные выражения встречаются редко. Здесь просто кратко назовем их: "[", "]", "{", "}", "^". Отметим, что регулярные выражения "заменяют" символы, поэтому не могут искать сами себя. Использование регулярных выражений позволяет во много раз "сократить сущности" при поиске ключевых слов. Например, набрав запрос: нов?? автомобил* Вы получите ответ, содержащий слова "новый", "новые", "автомобиль", "автомобили" и т.д. Этот запрос обрабатывается гораздо быстрее и точнее, чем простое перечисление слов. Запросы "И", "ИЛИ". "НЕ". При комбинации запросов, содержащие несколько слов, может возникнуть ситуация, когда требуется найти не просто ключевые слова, а, например:
Для написания таких запросов нужно использовать выражения булевой алгебры: "И", "ИЛИ", "НЕ". Они обозначаются соответственно как "&", "|" и "~". Запросу <выражение 1> & <выражение 2> удовлетворяет обязательное одновременное присутствие в ответе обоих выражений. Запросу <выражение 1> | <выражение 2> удовлетворяет присутствие хотя бы одного выражения в ответе. И, наконец, запрос <выражение 1>~<выражение 2> выполняется только в случае присутствие первого выражения и отсутствия в ответе второго выражения. Запросы можно объединять, используя круглые скобки, например: (стар?? | антикварн??) & автомобил* Найдет страницы, в тексте которого встречаются слова "старый", "антикварный", "автомобиль" во всех формах. Запросы, использующие расстояние между словами. Многие поисковые системы позволяют при поиске учитывать расстояние между словами. Условно "расстояние" между словами - это количество посторонних слов, встречающимися вместе со словами, по которым ведется полнотекстовый поиск. Приведем пример. Если задан запрос на поиск в виде следующей фразы: широкий стол то расстоянием между этими словами в тексте для разных фраз будет:
Естественно, Вы ищите специально для себя стол, то последний фрагмент Вас не заинтересует. Для поиска устойчивых словосочетаний выбирайте опцию поиска "слова вместе" расширенного поиска, или используйте ключевые слова ???на ограничение расстояния???. Поиск по странам и регионам. В некоторых поисковых машинах предусмотрена опция "поиск по странам" и "поиск по регионам". Для этого пользователь в специальном поле формы запроса пишет (или выбирает) название страны и региона. В этом случае ответы на запрос "фильтруются" по Интернет-адресам серверов, расположенных в данном регионе. Поиск по типам файлов (фильтр). Некоторые поисковые системы предоставляют услугу фильтрации содержимого по типу файлов. Так, по умолчанию поиск ведется только по Веб-страницам (html-файлам). При включении этого фильтра также будет осуществляться поиск в файлах формата Adobe Acrobat (.pdf), Microsoft Word (.doc), Microsoft Excel (.xls), Microsoft PowerPoint (.ppt) и Macromedia Flash (.swf). Необходимо только учесть, что проиндексированного содержимого этих файлов гораздо меньше, чем HTML, поэтому, если поиск с использованием этого фильтра даст отрицательный результат, это не значит, что таких фрагментов в этих файлах нет - скорее всего, их просто нет в индексе. Поиск по дате модификации файла. Встроенный фильтр некоторых поисковых систем позволяет проверять и выбраковывать веб-страницы, закаченные на веб-сервер раньше или позже определенных дат. Этим фильтром можно отсечь "мертвые", давно не обновляющиеся страницы. Фильтр по размеру файлов. Этот фильтр позволяет отсечь слишком малые (меньше 1 Кб) или слишком большие файлы или веб-страницы. Примечание. Этот фильтр применим только к файлам, но не к каталогам. Поиск по "зеркалам". По умолчанию поисковая система ищет только оригинальные страницы, а не их копии на других веб-сайтах (так называемых "зеркалах", "mirror" по-английски). Чтобы система не игнорировала зеркала, необходимо включить эту опцию. Обработка регистров букв в запросе. В общем случае регистр написания букв в поисковых словах и операторах значения не имеет. То есть такие слова, как конь и КОНЬ, and и aND воспринимаются поисковыми системами как одинаковые. Однако, в некоторых поисковых системах, с целью повышения качества поиска, регистр слов в запросе принимае6тся во внимание. Прежде всего, это касается обработки имен собственных. Например, если запрос в Рамблере состоит из двух, трех или четырех слов, каждое из которых начинается с прописной буквы, то эти слова считаются именами собственными. Поисковая система автоматически производит изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n - количество слов в запросе. Это позволяет находить группу слов запроса, внутри которого есть не более одного "лишнего" слова или знака препинания, например: "Николай Гаврилович Чернышевский", "Л.Н. Толстой", "Ростов на Дону". Кавычки Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах в тех форматах и в том порядке, в котором они встретились в запросе. Следовательно, двойные кавычки можно использовать и просто для нахождения слова в заданной форме (по умолчанию слова находятся во всех морфологических формах). Морфология. По каждому слову запроса ведется поиск с учетом правил словообразования и морфологии соответствующего языка. Например, при поиске по слову "человек" будут найдены документы, содержащие слова "человеку", "человеком", "человека", и даже "люди". Чтобы произвести поиск только по одной определенной форме слова, нужно взять его в двойные кавычки, или воспользоваться поиском точной фразы в расширенном поиске. Рамблер понимает и различает слова русского и английского языков. Стоп-слова Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые стоп-слова самые частотные слова русского и английского языка: предлоги, частицы, союзы и артикли. Присутствие этих слов может замедлить поиск и негативно повлиять на полноту результатов. Если необходимо все-таки включить эти слова в поиск, используйте двойные кавычки. Ненайденные слова. Если запрос в Рамблере состоит из нескольких слов, и при этом некоторые из них вообще не удалось найти, то выдаются результаты поиска по частичному запросу. Из этого результата частичного поиска исключаются отсутствующие слова. При этом на странице результатов поиска выдается соответствующая диагностика. Ограничение расстояния. Если запрос был составлен из двух или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса (Rambler). При этом для каждого запроса всегда существует так называемое ограничение контекста - положительное число, по умолчанию равное расстоянию в 40 слов. Документ, в котором встречаются все слова запроса, будет выдан только в том случае, если расстояния в словах между вхождениями этих слов запроса будет меньше этого числа. Например, по запросу: "красная армия" будут найдены те документы, в которых слова "красная" и "армия" будут хотя бы один раз меньше, чем в 40 словах друг от друга. Значение ограничения контекста можно изменять конструкцией "(число, запрос)", где число - любое положительное число, а запрос - любой корректный с точки зрения поисковой машины запрос, состоящий более чем из одного слова. Таким образом, по запросу "(2, красная армия)" найдутся только те документы, в которых между словами "красная" и "армия" хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше двух, то есть равно единице). Язык запроса. Как Вы, может быть, догадываетесь, поисковые системы физически не могут создавать индексы на всех языках. Все поисковые системы имеют "национальную" составляющую. Какие-то из поисковых систем ищут тексты только на английском языке (Yahoo.Com, Alta Vista.Com), какие-то на русском и английском (Рамблер), некоторые индексируют страницы на нескольких языках. Например, поисковая система Яндекс способна индексировать файлы на русском, английском, немецком, французском, украинском и белорусском языках. Особняком среди этих поисковых систем стоит Google: базовый ее сервер (www.google.com) индексирует файлы на английском языке, а национальные серверы (www.google.de, www.google.fr, www.google.ru) - на своих национальных языках. Все индексные базы находятся в одной глобальной сети, поэтому, можно сказать, что Google - одна из немногих поисковых систем, которая ищет сразу на всех языках в сети. B.4.2. Российские поисковые машины.B.4.2.1. Яндекс.Адрес: http://www.yandex.ru/.Лидирующая поисковая система Рунета. Основное направление - поиск данных в сети Интернет, прежде всего - в ее российском сегменте. Индексирует базы на русском, английском, немецком, французском, украинском и белорусском языках. Основные сервисы: Бесплатная почта Яндекса имеет удобный интерфейс, гибкие настройки, обладает антиспамовым фильтром и интегрирован в систему бесплатного хостинга. Бесплатный хостинг Яндекса является ведущим в Российском сегменте Интернета. Хотя он имеет возможность отображать только статические Веб-страницы, что ограничивает область его коммерческого применения, удобство размещения страниц и доступа к сайту, наличие шаблонов содержания и клипарта, отсутствие ограничений на коммерческую деятельность делает его лучшим хостингом для начинающих веб-дизайнеров. Платежная система Яндекс-деньги является удобной системой оплаты за приобретаемые через Интернет программы, приобретение товаров в Интернет-магазинах (например, SoftKey), биллинговые расчеты с операторами мобильной телефонии и провайдерами Интернета, а также (не везде) за спутниковое телевидение и коммунальные платежи. Эта система является второй по популярности платежной системой в Рунете, после Webmoney. Новичкам, не освоивших премудрости работы с поисковым алгоритмом Яндекса, система предлагает возможность расширенного поиска. В расширенном поиске пользователь просто отмечает нужные ему пункты, и Яндекс ищет текст вместе с ограничениями, налагаемые на отчет о найденных документах. Рис. B.07. Снимок экрана главной страницы Яндекса. Смотри также файл в архиве. B.4.2.2. Рамблер.Адрес: http://www.rambler.ru/.Это - старейшая поисковая система из данного обзора. Ее коммерческое использование началось в 1995 году. В настоящее время проект "Рамблер" перерос рамки поисковой системы: в него интегрирована система Интернет-пейджера ICQ, имеются собственные медиаканалы (например, телевизионный научно-познавательный канал "Rambler"). Тем не менее, поисковой системе уделяется достаточное внимание. Рамблер, прежде всего, это поисковая система, а не каталог. К этой системе "прирастают" проекты:
Поисковая система умеет искать слова не только в тексте документов, но и те ресурсы, на которых установлены счетчики "Top100", "TopShop", "TopList", "SpyLog" и "HotLog". Рис. B.08. Снимок экрана главной страницы Рамблера. Смотри также файл в архиве. B.4.2.3. Aport.Адрес: http://www.aport.ru/.Одна из поисковых систем Рунета, громко заявившая о себе в начале XXI века. Она отличается более совершенным алгоритмом поиска и меньшим, чем в других поисковиках, количеством рекламы. Но, к сожалению, развитие этой поисковой системы после приобретения его компанией Golden Telecom затормозилось. Эта система индексирует не только содержимое сайтов, но также и специальные теги: <title>, <meta keywords=>, <meta description=>, <img alt=> и др. Это позволяет Веб-мастерам правильно "оптимизировать" свои сайты. Несмотря на меньшее количество проиндексированных сайтов в Апорте, чем у конкурентов (а, может быть, благодаря этому), система дает меньше "сорных" ссылок, в ответе практически отсутствуют дорвеи, а сами ссылки больше соответствуют теме запроса. Эти особенности поиска позволяют автору рекомендовать эту поисковую систему как идеальную для датамайнинга. Рис. B.09. Снимок экрана главной страницы Апорта. Смотри также файл в архиве. B.4.2.4. Mail RU.Адрес: http://go.mail.ru/Эта поисковая система выросла из тематического каталога портала MAIL RU. Этот портал первоначально предназначался для размещения в нем бесплатных почтовых ящиков. До сих пор это основной бизнес портала. В настоящее время в портале открываются новые сервисы: блоги, фотогалереи, он-лайн торговля, платежная система Деньги@mail.ru, новостной портал и т.п. Пожелаем успехов компании - владельцу портала. Рис. B.10. Снимок экрана главной страницы поиска портала. B.4.3. Англоязычные поисковые машины.B.4.3.1. Google.Адрес: http://www.google.ru/Свою историю эта поисковая система Интернета ведет с сентября 1998 года. Сегодня она является крупнейшей и наиболее посещаемой поисковой машиной Интернета. У нее имеется множество локализаций (в том числе и русская версия). Попасть на первую страницу Google - предел мечтания любого оптимизатора сайтов. Интерфейс поисковика предельно прост и понятен, главная страница не перегружена дополнительными элементами - новостями, баннерами, рекламой и т.п. Это особенно актуально для пользователей dial-up соединений. Однако и полезной информации, зайдя на главную страницу, мы не почерпнем. Поисковая машина Google узнает о новом появлении веб-страниц с помощью ссылок на нее с других сайтов. Вообще отличительной особенностью этого поисковика является то, что и поиск, и положение сайта в собственном рейтинге по числу ссылок на ресурс (т.н. Page Rank). По желанию можно узнать, индексирован ли конкретный веб-сайт поисковым роботом Google, а также добавить любой ресурс в базу данных вручную. Google индексирует и осуществляет поиск в документах формата HTML, PHP (гипертекстовые документы Интернета), DOC, RTF, XLS (документы Microsoft Office), PDF (документы Adobe Acrobat), SWF (документы Adobe Flash), и файлов ряда других популярных форматов. В основе поиска, как уже говорилось, лежит технология Page Rank. Кроме того, индексируя страницу, поисковый робот полностью изучает содержимое всех страниц сайта. К услугам пользователей Google - стандартный поиск документов, поиск в картинках, группах, в каталоге, а также расширенный поиск с возможностью задавать некоторые дополнительные параметры (тип файла, дату последнего изменения и т.д.). Логический оператор И подставляется автоматически на месте пробела. Еще один оператор, поддерживаемый поисковой машиной Google - это оператор “И-НЕ”, обозначаемый в командной строке как “-”. Если ввести в поисковой строке браузера: “машины - антикварные”, то поисковая система выдаст “на гору” все сайты, содержащие в себе слово “машина” и не содержащее слова “антикварные”. Кстати, Google учитывает при поиске слов и их морфологические формы. В качестве оператора ИЛИ Google использует знак “+”. Вид главной страницы поисковой системы Google представлен на рисунке B.11. Рис. B.11. Вид главной страницы поисковой системы Google. B.4.3.1.1. Маленькие хитрости Google.(По материалам статьи “Каждому - по потребностям” // CHIP Россия, Октябрь 2006 г. - N 10, Top Story, стр. 12 - 38). Не смотря на простоту интерфейса, Google таит в себе множество скрытых возможностей. Вместе с тем безоговорочная популярность Google вовсе не означает ее абсолютную универсальность - в определенных случаях специализированные сервисы обеспечивают лучшее соответствие ожиданиям пользователя. Ниже мы расскажем о секретах Google, а также альтернативам некоторых его функциям. Альтернатива Google DirectoryНе смотря на постоянное совершенствование механизмов работы, результаты, выдаваемые Google, зачастую бывают перегружены так называемым “поисковым спамом”, - сайтами, созданными с целью манипуляций результатами поиска (например, “дорвеями”). Повысить эффективность работы с этой поисковой системой можно в некоторых случаях с помощью каталога Google - Google Directory. Однако если задать в нем поиск какого-то конкретного понятия, например, “руководство для Siemens Gigaset”, Google выдаст только рекламный мусор. В этом случае можно попытаться искать на сайте: http://del.icio.us . Эта поисковая служба находит только то, что рекомендовано другими пользователями. Её интересная особенность заключается в том, что рядом с каждой ссылкой указывается число посетителей, добавивших страницу в закладки на своем компьютере. Этот своеобразный рейтинг доказывает ее полезность: ведь никто не будет добровольно сохранять на жестком диске рекламный мусор. Хочу картинку!На сегодняшний день именно Google является наиболее популярным средством поиска изображений. Однако его критерии нахождения картинок весьма ограничены. Гораздо большим арсеналом возможностей обладает система: Picsearch (http://www.picsearch.ru). Помимо выбора между цветными и черно-белыми изображениями, пользователь может более точно задать его желаемый размер, а также осуществить поиск среди рисованных картинок. Например, чтобы найти в Picsearch цветные рисованные картинки большого размера, посвященные теме “Лето”, щелкните по ссылке: “Расширенный поиск”. Выберите пункты: “Только анимацию”, “Только цветные”, и в списке параметров - “Очень большой”. Теперь введите ключевое слово и нажмите кнопку: “Искать!”. Как и в Google, результаты будут отображаться в виде миниатюр. Сужаем зону поиска.Поиск в Интернете с помощью Google прост и понятен. Однако использование специальных команд Google позволяет сделать поиск еще эффективнее, а результаты - более релевантными. Эти специальные команды Google вводятся в строку поиска для ввода поискового запроса перед параметром поиска; перед некоторыми командами необходимо указать символ -. Обратите внимание на то, что после символа пробел не ставится. Вот список специальных команд:
Покажи мне все!Как известно, для оценки соответствия сайтов поисковому запросу Google использует систему Page Rank. Однако не исключено, что данная система может скрывать от пользователя интересные ему результаты. Для решения этой проблемы следует исключить наложение фильтра Page Rank при выводе поискового запроса. Для этого следует ввести интересующее ключевое слово и нажать: “Поиск”. Затем необходимо добавить в адрес, появившийся в адресной строке браузера, параметр: “&filter=0”. Он деактивирует фильтр дубликатов (Duplicate Content Filter) для текущей сессии Google.
|
|
Версия сайта 1.1.1 beta
от 20 июня 2011 г.