Главная страница «Первого сентября»Главная страница журнала «Информатика»Содержание №9/2009


Информационные технологии в школе

Поиск документов и данных в Интернете

1. Постановка задачи

Поиск информации в Интернете является крайне неопределенным понятием: в силу бесконечного разно­образия материалов Сети, — как по содержанию, как по форме представления, так и по структуре (как уже говорилось, мы встречаем в сети и линейные, и реляционные, и иерархические, и сетевые структуры данных).

Поэтому цели, методы и формы поиска информации (данных) могут быть самыми разными. Чтобы не занимать ваше внимание общими словами, приведем пару конкретных примеров.

1. Допустим, вы хотите найти в Интернете все материалы о конкретном человеке по его фамилии. Эту фамилию можно просто набрать как запрос в поле ввода какой-либо поисковой системы, — например, “Рамблер” (так произносят это название в компании). Результаты поиска целиком будут зависеть и от того, насколько эта фамилия распространена в обществе, и от популярности этой личности (именно популярности, а не масштаба!). Например, если набрать Фердыщенко, можно надеяться на успех: либо вы что-то найдете, либо о таком человеке вообще ничего не слышали в Интернете. Другой пример: пусть искомая личность имеет фамилию Кулик. Если набрать ее в поле поиска, вы получите тысячи документов с Игорем, Андреем и т.д. Куликами, с Куликовыми, Куликовскими и т.п. Если, на ваше счастье, вашего Кулика зовут, допустим, Никифор (редкое имя), то запрос Никифор&Кулик резко повысит ваши шансы на успех.

Поэтому формулируемый запрос должен определять как можно более узкую область поиска. С особой осторожностью следует относиться к омонимам. Например, вы хотите получить сведения о химическом элементе бор. Набирать это слово в поле поиска бесполезно, так как бор — это сверло, хвойный лес, элемент, физик Бор. Если набрать запрос Элемент&бор, область поиска резко сузится.

2. Предположим, вас интересует какая-либо тематика (рубрика). В этом случае язык запросов и поиск по ключевым словам вам могут и не понадобиться. Если вы располагаете элементарным опытом, интуицией, то, начав с более или менее общей темы (например, “Наука и образование” на рис. 1 на с. 34) и пользуясь гиперссылками, сможете добраться до нужных вам документов (например, сначала “Рефераты”, затем “Сборники рефератов, курсовых работ, дипломов” и т.д.).

С известной долей уверенности можно утверждать, что в общем случае поиск в Интернете — это скорее искусство, опыт, кругозор и интуиция клиента, чем использование инструментальных средств обозревателя и поисковых систем.

Следует четко различать разные механизмы поиска в Интернете, описанные в статье: 1) поиск документов по ключевым словам средствами универсальных поисковых систем; 2) специализированный поиск (например, людей); 3) поиск на текущей (отображаемой) странице. Последний механизм, в свою очередь, делится на два типа — контекстный поиск фрагментов текста на странице и поиск в структурированных базах данных сайта, представленного этой страницей (товаров, вакансий, услуг, фирм и т.п.).

2. Общие сведения

“Всемирная паутина” в Интернете — это миллионы документов с неструктурированной текстовой информацией (а также с графикой, аудио, видео). Чтобы найти нужную информацию, клиенту Сети зачастую приходится перебирать сотни страниц web (иногда без особого успеха), тратить много сил и нервов (а также денежных средств).

С начала 90-х годов интенсивно развиваются справочные службы Интернета, помогающие пользователям найти нужную информацию, и эти службы можно разделить на две категории: универсальные и специализированные.

В универсальных службах используется обычный принцип поиска в неструктурированных документах — по ключевым словам.

Ключевым словом документа называется отдельное слово или словосочетание, которое каким-то образом отражает содержание данного документа.

Например, для литературы по программированию характерны ключевые слова “Условный переход”, “Макрокоманда”, “Обработка прерываний” и т.д.

Универсальная служба поиска (поисковая система) — это комплекс программ и мощных компьютеров, выполняющий следующие функции.

1. Специальная программа — поисковый робот — непрерывно просматривает страницы “Всемирной паутины”, выбирает ключевые слова и составляет базу данных индексов. В эту базу включаются ключевые слова и адреса документов, в которых эти слова обнаружены. По ссылкам на другие документы робот “скачивает” и эти страницы, находит в них ссылки, и так далее, пока не обойдет весь интересующий его участок Сети. Когда робот-индексатор поисковой машины приходит на web-сайт (например, на www.rambler.ru), он прежде всего проверяет, нет ли в корневом каталоге сайта служебного файла robots.txt (в нашем примере www.rambler.ru/robots.txt — имя робота записывается строчными буквами!). Если робот обнаруживает этот документ, все дальнейшие действия по индексированию сайта осуществляются в соответствии с указаниями robots.txt.

2. Web-сервер принимает от пользователя запрос на поиск, преобразует его и передает специальной программе — поисковой машине.

3. Поисковая машина просматривает базу данных индексов, составляет список страниц, удовлетворяющих условиям запроса (точнее, список ссылок на эти страницы), и возвращает его web-серверу.

4. Web-сервер оформляет результаты выполнения запроса в удобном для пользователя виде и передает их на машину клиента.

Специализированные справочные службы — это тематические каталоги (subject catalogs), в которых собраны более или менее структурированные сведения об адресах серверов по той или иной тематике. В отличие от универсальных баз индексов тематические каталоги составляются специалистами и обеспечивают клиента более строгой, достоверной и систематизированной информацией о документах Сети. Уровень “мусора” в этих каталогах гораздо ниже, чем в составленных автоматически индексах, но и обновляются они значительно медленнее.

Ранее поисковые системы подразделяли на универсальные (с индексными базами данных) и “гибридные” (индексные базы и тематический поиск). Такая классификация в известной мере устарела: ныне большинство поисковых систем может считаться “гибридными” — они ведут поиск и в индексных базах данных, и по тематическим рубрикаторам.

Вот небольшой список наиболее известных ныне поисковых систем с URL-адресами их начальных страниц:

· MSN Web Search — http://search.msn.com (поисковая система службы MSN);

· Excite — www.excite.com;

· Yahoo! — www.yahoo.com;

· Infoseek — www.infoseek.com;

· Lycos — www.lycos.com;

· Lycos — www.whowhere.lycos.com;

· Alta Vista — http://altavista.com;

· Google — www.google.ru;

· Rambler (“Рамблер”) — www.rambler.ru;

· Aport (“Апорт”) — http://aport.ru;

· Yandex (“Яндекс” или “Яndex”) — www.yandex.ru.

Заметим, что среди российских пользователей наибольшей популярностью ныне пользуются русскоязычные системы Google, Yandex, Rambler и Aport.

Практически на всех страницах, которые допускают поиск, имеется кнопка Помощь. Нажмите ее и распечатайте руководство по использованию системы.

На рис. 1 показан один из вариантов домашней страницы популярной поисковой системы Yandex.

 

Рис. 1. Начальная страница поисковой системы Яndex

Как видите, на одной странице предусмотрено несколько механизмов поиска:

— строгий поиск с помощью языка запросов (поле Я ищу:);

— тематический поиск (например, “Общество и политика”);

— поиск каких-то занятий или операций (“Почитать”, “Скачать”) и др.

Примечание. Поисковые системы часто меняют свои домашние страницы, и, набрав тот же адрес www.yandex.ru, вы можете получить другую картинку.

3. Механизм встроенного поиска Microsoft

В общем случае, чтобы начать поиск, вы можете вызвать одну из поисковых систем или один из известных вам тематических каталогов. Однако разработчики Internet Explorer для удобства клиента чаще всего встраивают в очередную версию обозревателя своеобразный интерфейс с избранными на данный момент поисковыми системами. Сам Internet Explorer не занимается поиском: он принимает от пользователя запрос, обрабатывает его и передает соответствующей поисковой системе (на рис. 2 на с. 35 показано пять таких систем). Результаты выполнения запроса отображаются на левой панели обозревателя*.

Нажмите на панели инструментов обозревателя кнопку Поиск. В левой части окна появится панель поиска одной из систем, отмеченных флажками в окне на рис. 2.

Для перехода к этому окну нажмите на панели поиска кнопку Настроить. Затем установите флажки рядом с названиями систем, которые вы намерены использовать для поиска. В левом верхнем подокне можно установить последовательность перехода от системы к системе.

На панели поиска в поле ввода наберите запрос (логическое выражение) и нажмите кнопку Поиск (в разных системах — Искать, Найти!, Search). Через некоторое время ниже поля ввода появляется список гиперссылок на документы, которые удовлетворяют введенному запросу. При наведении указателя мыши на гиперссылку, как правило, появляется подсказка (или краткое содержание этого документа, или просто его URL-адрес). Щелчком мыши вы можете открыть любой документ.

Ширину панели поиска можно изменить, перемещая мышью ее правую границу.

4. Общие механизмы поиска в Интернете

Итак, при поиске по ключевым словам (в индексных базах данных) вы набираете в поле ввода запрос, представляющий собой логическое выражение, которое формулируется по правилам синтаксиса данной поисковой системы.

Методы поиска нужных данных в безбрежном океане ресурсов Интернета можно разделить на три группы:

— “интуитивно-эвристические” приемы, основанные на эрудиции, опыте, кругозоре и интуиции пользователя;

— использование поисковых серверов, которые обеспечивают в известной мере формальные (инструментальные) механизмы поиска по ключевым словам;

— поиск в тематических (рубрицированных) каталогах.

Рис. 2. Настройка поиска в Internet Explorer

1. Эвристика. Роль запроса в частном случае может играть одно-единственное слово (например, Аджика). И это слово может сыграть роль отправной точки, начиная с которой вы не только выйдете на конкретную информацию, но и получите массу полезных данных об объектах, прямо или косвенно связанных с вашей задачей. Такая тактика обеспечивает весьма эффективный косвенный поиск, если “в лоб” трудно чего-либо добиться. Приведем несколько примеров.

1) Допустим, в качестве запроса вы набрали какую-либо редкую, но знаменитую фамилию, — например, Кторов (А.П. Кторов (1898–1980) — великий актер МХАТа). В этом случае вы наверняка получите не только информацию о Кторове, но и много интереснейших документов, имеющих прямое отношение к театру, к исполнительскому и драматическому искусству. Отправляясь от выданного реестра, вы можете, например, отыскать актеров с распространенной фамилией (например, Б.А. Смирнова) или библиографию редких книг о театре.

2) Наберите слово “Холодильник”, и вы попадете во вполне обозримый круг данных, связанных с бытовой техникой: в интернет-магазины, торгующие не только холодильниками, но и другими бытовыми товарами, получите сведения об устройстве агрегатов, их потребительских свойствах, ценах, о фирмах-производителях и т.п.

3) Наберите “Аджика” (продукт питания), и вы сможете исследовать массу материалов с рецептами, узнать о книгах по кулинарному искусству и даже, возможно, о знаменитостях, увлеченных кулинарией.

4) Слово “Ависан” (лекарство) почти наверняка приведет вас к искомому препарату; попутно оно обеспечит вам возможность выйти на болезни, их симптомы, рекомендации по лечению. Вероятно, еще более ценным для вас окажется выход на многие очень полезные медицинские сайты, — например, на универсальный аптечный сайт Москвы http://apteka.mos.ru, где можно исследовать цены и заменители лекарства, подыскать другие медикаменты, о которых вы уже думали, но для поиска которых потребовались бы дополнительные усилия.

Как уже говорилось, при таком подходе эффективность поиска в Сети в значительной мере зависит от опыта и кругозора пользователя. Когда вы ищете материалы по определенной тематике, ни в коем случае не следует полагаться на “интеллект” машины: вы сами должны учитывать особенности лексикона специалистов по данной теме, возможные сочетания терминов и т.п.

2. Языки запросов. В основе запросов на поиск и выборку информации лежит аппарат алгебры логики. В качестве примера рассмотрим элементы языка запросов поисковой системы Yandex, применяемые для строгого поиска в индексных базах данных. По сути дела, это синтаксис логических выражений, и он мало отличается от синтаксиса других русскоязычных систем (например, Rambler и Aport). Для поиска документов, содержащих какое-либо слово, наберите его в поле поиска и нажмите кнопку Найти. Область поиска можно сузить, если включить в окне рис. 1 одну из радиокнопок системы: Новости, Товары, Энциклопедии (состав этих кнопок, как и вид домашней страницы, может меняться).

Если запрос содержит несколько слов, необходимо соблюдать следующие правила:

1) логическое И (AND) — поиск сочетания в пределах предложения: натуральный шелк (разделитель — пробел) или натуральный&шелк;

2) логическое И (AND) — поиск сочетания в пределах документа: натуральный&&шелк;

3) поиск фразы — "Золотой Орфей" (прямые кавычки!).

Кроме того, можно искать по расстоянию между заданными терминами (заданному в словах или предложениях), искать в заголовке, в тексте ссылок, в описании, в подписях к изображениям; искать ссылки на заданный URL (например, #link="www.holm.ru*") и т.д. Yandex ищет не только по заданному слову, но и по его словоформам. Например, если вы задали слово “газета”, то будут найдены документы, которые содержат слова “газеты”, “газете”, “газетой” и т.д.

3. Тематический поиск. На рис. 1 показан тематический рубрикатор системы Yandex, пользуясь которым вы можете многое найти и без помощи алгебры логики. Такие же рубрикаторы (но с иным содержанием) имеют и другие поисковые (и не только поисковые) системы, — например, Rambler и Aport.

5. Специализированный поиск

Технологии Интернета быстро развиваются. Систематически появляются новые инструменты поиска. Оригинальную (и, видимо, перспективную) систему специализированного поиска предлагает компания “Lycos”: www.whowhere.lycos.com (в буквальном переводе “Кто? Где?”). Фрагмент окна этой системы показан на рис. 3.

Рис. 3. Поиск “Кто? Где?”

Во-первых, вы можете по имени и фамилии человека искать адрес его электронной почты, номер его телефона, web-страницы, на которых упоминается этот человек (раскрывающийся список Search Type: (Тип поиска)). И наоборот, можно искать человека по его адресу E-mail или телефону.

Во-вторых, в основной части окна находится своеобразный рубрикатор, пользуясь которым можно искать людей того или иного круга, рода занятий и т.п.:

· люди в сфере развлечений и любимых занятий: режиссеры, музыканты, спортсмены;

· люди и деньги: инвесторы, брокеры, покупатели, должностные лица;

· люди, “похожие на вас” (разделяющие ваши интересы, близкие вам по возрасту, мировосприятию, интеллекту и т.п.): женщины, дети, семьи, путешественники;

· люди, которые могут помочь вам: консультанты по будущим занятиям, работодатели и т.д.

6. ICQ

В последнее время широкую популярность приобрела система общения между людьми под названием ICQ (произношение “I seek you” — я ищу тебя). Система работает с помощью специального программного обеспечения. Каждому адресату присваивается индивидуальный номер, который может быть занесен в записную книжку пользователя. Соединение устанавливается при выборе соответствующей записи из записной книжки.

7. Поиск данных на отображаемой странице

До сих пор мы рассматривали поиск неструктурированных документов Web по ключевым словам в индексных базах данных, а также тематический поиск.

1. Вместе с тем обозреватель обеспечивает контекстный поиск на всех отображаемых (текущих) страницах. Для этого следует выбрать команду [Правка-Найти на этой странице…] и в появившемся окне набрать искомый текстовый фрагмент. Допускается установка флажков Слово целиком и С учетом регистра.

2. Многие сайты и порталы имеют собственные структурированные базы данных, в которых можно вести поиск какого-либо раздела БД (по тематике данного сайта). Например, на московском аптечном сайте http://apteka.mos.ru имеются два механизма такого поиска:

1) по алфавиту: вы щелкаете, скажем, на букве “П”, и сайт выдает вам список всех лекарств на букву “П”;

2) в стандартном поле поиска вы набираете название (например, Ависан) и щелкаете на кнопке Найти (или Искать). Система поиска сайта найдет вам все аптеки, в которых имеется набранный препарат, с указанием цен, адресов, телефонов и способов доставки. Механизмы поиска (а точнее, его детали) могут меняться на разных сайтах (в том числе и на одном и том же сайте), однако разобраться в них очень легко.

При поиске многих товаров, вакансий, услуг, фирм и т.п. (в иерархических структурах) область поиска можно постепенно (или сразу) сужать, указывая в нескольких полях ввода, например, модель потребительского изделия, желаемую цену, город, возраст и многое-многое другое.

Коротко о главном в этой статье

1. Ресурсы Интернета содержат практически всю информацию, накопленную человечеством, и рубрикаторы этой информации можно найти на многих сайтах и во всех поисковых системах (например, электронные библиотеки, отдельные статьи, музеи, театры и т.д. и т.п.).

2. Для поиска в Интернете можно использовать специальные поисковые системы, которые располагают строгими языками запросов на основе алгебры логики. Кроме того, эти системы и многие сайты, которые нельзя считать поисковыми, дают возможность вести тематический и специализированный поиск. Сейчас в Рунете наиболее популярны системы Google, Yandex, Rambler, Aport и другие.

3. Internet Explorer чаще всего имеет встроенный механизм поиска, позволяющий в удобной форме пользоваться услугами поисковых систем.

4. Существуют различные системы специализированного поиска (например, людей в сфере развлечений и любимых занятий: режиссеров, музыкантов, спортсменов).

5. Обозреватель обеспечивает возможность контекстного поиска на всех отображаемых (текущих) страницах. Для этого следует выбрать команду [Правка-Найти на этой странице…] и в появившемся окне набрать искомый текстовый фрагмент. Допускается установка флажков Слово целиком и С учетом регистра. Многие сайты имеют встроенные механизмы поиска по тематике данного сайта (товаров по алфавиту, вакансий и т.п.).


* В поздних версиях Internet Explorer окно рис.2 не выдается.
Юр. Ал. Шафрин

TopList