Поисковая машина система с формируемой роботом базой данных содержащей информацию

Поисковые машины

Введение

Одним из основных способов найти информацию в Internet являются поисковые машины. Поисковые машины каждый день «ползают» по Сети: они посещают веб-страницы и заносят их в гигантские базы данных. Это позволяет пользователю набрать некоторые ключевые слова, нажать «submit» и увидеть, какие страницы удовлетворяют его запросу.

Понимание того как работают поисковые машины просто необходимо вебмастерам. Для них жизненно важна правильная с точки зрения поисковых машин структура документов и всего сервера или сайта. Без этого документы будут недостаточно часто появляться в ответ на запросы пользователей к поисковой машине или даже вовсе могут быть не проиндексированы.

Вебмастера желают повысить рейтинг своих страниц и это понятно: ведь на любой запрос к поисковой машине могут быть выданы сотни и тысячи отвечающих ему ссылок на документы. В большинстве случаев только 10 первых ссылок обладают достаточной релевантностью к запросу.

Естественно, хочется, чтобы документ оказался в первой десятке, поскольку большинство пользователей редко просматривает следующие за первой десяткой ссылки. Иными словами, если ссылка на документ будет одиннадцатой, то это также плохо, как если бы ее не было вовсе.

Основные поисковые машины

Какие из сотен поисковых машин действительно важны для вебмастера? Ну, разумеется, широко известные и часто используемые. Но при этом следует учесть ту аудиторию, на которую рассчитан Ваш сервер. Например, если Ваш сервер содержит узкоспециальную информацию о новейших методах доения коров, то вряд ли Вам стоит уповать на поисковые системы общего назначения. В этом случае я посоветовал бы обменяться ссылками с Вашими коллегами, которые занимаются сходными вопросами 🙂 Итак, для начала определимся с терминологией.

Существует два вида информационных баз данных о веб-страницах: поисковые машины и каталоги.

Поисковые машины: (spiders, crawlers) постоянно исследуют Сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Примером может быть поисковая система Altavista.

Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-таги и содержимое страницы.

Каталоги: в отличие от поисковых машин в каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Примером каталога может служить Yahoo. Конструкция страниц значения не имеет. Далее речь пойдет в основном о поисковых машинах.

Система открыта в декабре 1995. Принадлежит компании DEC. С 1996 года сотрудничает с Yahoo.

Запущенная в конце 1995 года, система быстро развивалась. В июле 1996 куплена Magellan, в сентябре 1996 — приобретена WebCrawler. Однако, оба используют ее отдельно друг от друга. Возможно в будущем они будут работать вместе.

Существует в этой системе и каталог — Excite Reviews. Попасть в этот каталог — удача, поскольку далеко не все сайты туда заносятся. Однако информация из этого каталога не используется поисковой машиной по умолчанию, зато есть возможность проверить ее после просмотра результатов поиска.

Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi.

Запущена чуть раньше 1995 года, широко известна, прекрасно ищет и легко доступна. В настоящее время «Ultrasmart/Ultraseek» содержит порядка 50 миллионов URL.

Опция для поиска по умолчанию Ultrasmart. В этом случае поиск производится по обоим каталогам. При опции Ultraseek результаты запроса выдаются без дополнительной информации. Поистине новая поисковая технология также позволяет облегчить поиски и множество других особенностей, которые Вы можете прочитать об InfoSeek. Существует отдельный от поисковой машины каталог InfoSeek Select.

Примерно с мая 1994 года работает одна из старейших поисковых систем Lycos. Широко известная и часто используемая. В ее состав входит поисковая машина Point (работает с 1995 года) и каталог A2Z (работает с февраля 1996 года).

Система OpenText появилась чуть раньше 1995 года. С июня 1996 года стала партнерствовать с Yahoo. Постепенно теряет свои позиции и вскоре перестанет входить в число основных поисковых систем.

Открыта 20 апреля 1994 года как исследовательский проект Вашингтонского Университета. В марте 1995 года была приобретена компанией America Online Существует каталог WebCrawler Select.

Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен еще один каталог Yahoo — Yahooligans для детей. Появляются все новые и новые региональные и top-каталоги Yahoo.

Поскольку Yahoo основан на подписке пользователей, в нем может не быть некоторых сайтов. Если поиск по Yahoo не дал подходящих результатов, пользователи могут воспользоваться поисковой машиной. Это делается очень просто. Когда делается запрос к Yahoo, каталог переправляет его к любой из основных поисковых машин. Первыми ссылками в списке удовлетворяющих запросу адресов идут адреса из каталога, а затем идут адреса, полученные от поисковых машин, в частности от Altavista.

Особенности поисковых машин

Каждая поисковая машина обладает рядом особенностей. Эти особенности следует учитывать при изготовлении своих страниц.

Тип поисковой машины

«Полнотекстовые» поисковые машины индексируют каждое слово на веб-странице, исключая лишь некоторые стоп-слова. «Абстрактные» поисковые машины создают некий экстракт каждой страницы.

Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако для абстрактных поисковых машин может случиться, что страницы проиндексированы лучше, чем для полнотекстовых. Это может исходить от алгоритма экстрагирования, например по частоте употребления в странице одних и тех же слов.

Размер поисковой машины определяется количеством проиндексированных страниц. Например, в поисковой машине с большим размером могут быть проиндексированы почти все ваши страницы, при среднем объеме ваш сервер может быть частично проиндексирован, а при малом объеме ваши страницы могут вообще не попасть в каталоги поисковой машины.

Дата индексирования документа

Некоторые поисковые машины показывают дату, когда был проиндексирован тот или иной документ. Это помогает пользователю понять, какой «свежести» ссылку выдает поисковая система. Другие оставляют пользователям только догадываться об этом.

Указанные (submitted) страницы

В идеале поисковые машины должны найти любые страницы любого сервера в результате прохода по ссылкам. Реальная картина выглядит по-другому. Станицы серверов гораздо раньше появляются в индексах поисковых систем, если их прямо указать (Add URL).

Не указанные (non-submitted) страницы

Если хотя бы одна страница сервера указана, то поисковые машины обязательно найдут следующие страницы по ссылкам из указанной. Однако на это требуется больше времени. Некоторые машины сразу индексируют весь сервер, но большинство все-таки, записав указанную страницу в индекс, оставляют индексирование сервера на будущее.

Этот параметр относится только к не указанным страницам. Он показывает сколько страниц после указанной будет индексировать поисковая система.

Большинство крупных машин не имеют ограничений по глубине индексирования. На практике же это не совсем так. Вот несколько причин, по которым могут быть проиндексированы не все страницы:

Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

Тут примерно та же проблема, что и с фреймовыми структурами серверов.

Защищенные паролями директории и сервера

Некоторые поисковые машины могут индексировать такие сервера, если им указать Username и Password. Зачем это нужно? Чтобы пользователи видели, что есть на Вашем сервере. Это позволяет как минимум узнать, что такая информация есть, и, быть может, они тогда подпишутся на Вашу информацию.

Частота появления ссылок

Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются из других мест Сети. Некоторые машины на основании таких данных «делают вывод» стоит или не стоит тратить время на индексирование такого документа.

Способность к обучению

Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать, если редко — реже.

Показывает, какими средствами можно управлять той или иной поисковой машиной. Все крупные поисковые машины руководствуются предписаниями файла robots.txt. Некоторые также поддерживают контроль с помощью META-тагов из самих индексируемых документов.

Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает какой URL будет связан с вашими документами. Это важно, поскольку, если поисковая машина не отрабатывает перенаправление, то могут возникнуть проблемы с несуществующими файлами.

Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или просто очень часто использующиеся слова. А не включают их ради экономии места на носителях. Например, Altavista игнорирует слово web и для запросов типа web developer будут выданы ссылки только по второму слову. Существуют способы избежать подобного.

Влияние на алгоритм определения релевантности

Поисковые машины обязательно используют расположение и частоту повторения ключевых слов в документе. Однако, дополнительные механизмы увеличения степени релевантности для каждой машины различны. Этот параметр показывает, какие именно механизмы существуют для той или иной машины.

Все крупные поисковые системы «не любят», когда какой-либо сайт пытается повысить свой рейтинг путем, например, многократного указания себя через Add URL или многократного упоминания одного и того же ключевого слова и т. д. В большинстве случаев подобные действия (spamming, stacking) караются, и рейтинг сайта наоборот падает.

По идее, все поисковые машины должны учитывать метаданные при индексации страниц, однако на практике не все это делают.

Этот параметр показывает как поисковые машины генерируют заголовки ссылок для пользователя в ответ на его запрос.

Этот параметр показывает как поисковые машины генерируют описания ссылок для пользователя в ответ на его запрос.

Проверка статуса URL

Очень полезная для вебмастера черта поисковой машины — можно ли проверить насколько глубоко проиндексирован его сервер и есть ли он вообще в индексе поисковой машины.

Источник

Информационно-поисковая система

РубрикаПрограммирование, компьютеры и кибернетика
Видреферат
Языкрусский
Дата добавления27.03.2010
Размер файла51,7 K

Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть фото Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть картинку Поисковая машина система с формируемой роботом базой данных содержащей информацию. Картинка про Поисковая машина система с формируемой роботом базой данных содержащей информацию. Фото Поисковая машина система с формируемой роботом базой данных содержащей информацию

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Рассмотрим постановку задачи поиска в общем виде. Для этого нам необходимо ответить на три вопроса: что искать, то есть, какие источники информации, где искать (места размещение этих источников) и как искать (какие инструменты для этого использовать).

Каковы основные источники информации, представленные в Интернете?

Это документы WWW, статьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной информации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах данных, энциклопедиях.

Где эти источники информации размещаются?

В общем случае, можно выделить следующие поисковые инструменты для WWW: каталоги, поисковые системы, метапоисковые системы.

Адреса популярных каталогов:

Адреса наиболее популярных поисковых машин за рубежом и в России.

Зарубежные поисковые машины:

Российские поисковые машины:

Адреса известных метапоисковых систем:

Поиск источников информации

Обсудим проблему поиска такого источника информации, как статьи в группах новостей. Инструментами поиска в данном случае могут являться рассмотренные поисковые машины WWW, которые индексируют не только пространство WWW, но и статьи в телеконференциях и имеют специальный режим поиска именно в этом ресурсе. Поиск в группах новостей поддерживает, например, поисковый сервер Altavistа. Следует отметить, что поисковые системы WWW весьма оперативно индексируют группы новостей и содержат информацию о статьях, реально существующих в сети. Для поиска в архивах новостей существую специализированные системы, самой известной из которых является система Deja (www.deja.com). Эта система позволяет проводить как поиск отдельных статей, содержащих введенный термин, так и поиск определенных групп новостей, посвященных обсуждению заданной темы. Можно зарегистрироваться в Deja и подписаться на определенные группы новостей.

Теперь рассмотрим инструменты, позволяющие проводить поиск файлов. Многие поисковые системы WWW стали оказывать услугу поиска мультимедийных файлов (Altavista, Aport). Для этого вовсе нет необходимости знать специальные операторы, а достаточно перейти с домашней страницы по ссылкам Картинки (Images), MP3/Audio или Video к специальному режиму поиска. Поиск проводится по возможному имени файла или по тексту в комментарии к ссылке на мультимедийный файл.

Что касается поиска программного обеспечения, во всемирной паутине существуют поисковые Web-серверы с коллекциями условно-бесплатного ПО, некоторые из них специализируются на поиск программного обеспечения для Интернета или для конкретной операционной системы. Эти системы в конечном итоге приведут вас к конкретному серверу, с которого и можно скачать искомый программный продукт. Следует упомянуть серверы Archie, также оказывающие услугу поиска файлов на FTP-серверах, однако пользоваться Web-серверами гораздо удобнее.

Рассмотрим поисковые инструменты для поиска адресной информации. Введем понятие Белого(White) и Желтого (Yellow) поиска.

Здесь приведены адреса Web-систем для поиска адресной информации для людей и организаций.

· Поиск людей на Yahoo (http://people.yahoo.com).

Аналогичное развитие событий наблюдается и в World Wide Web. Собственно еще в 1988 году в специальном выпуске журнала «Communication of the ACM» [2] среди прочих проблем разработки гипертекстовых систем и их использования Франк Халаз назвал в качестве первоочередной задачи для следующего поколения систем этого типа назвал проблему организации поиска информации в больших гипертекстовых сетях. До сих пор многие идеи, высказанные в той статье, не нашли еще своей реализации. Естественно, что система, предложенная Бернерсом-Ли [3] и получившая такое широкое распространение в Internet, должна была столкнуться с теми же проблемами, что и ее локальные предшественники. Реальное подтверждение этому было продемонстрировано на второй конференции по World Wide Web осенью 1994 года, на которой были представлены доклады о разработке информационно-поисковых систем для Web, а система World Wide Web Worm, разработанная Оливером МакБрайном из Университета Колорадо, получила приз как лучшее навигационное средство. Следует также отметить, что все-таки долгая жизнь суждена отнюдь не чудесным программам талантливых одиночек, а средствам, являющимся результатом планового и последовательного движения научных и производственных коллективов к поставленной цели. Рано или поздно этап исследований заканчивается, и наступает этап эксплуатации систем, а это уже совсем другой род деятельности. Именно такая судьба ожидала два других проекта, представленных на той же конференции: Lycos, поддерживаемый компанией Microsoft, и WebCrawler, ставший собственностью America On-line.

Разработка новых информационных систем для Web не завершена. Причем как на стадии написания коммерческих систем, так и на стадии исследований. За прошедшие два года снят только верхний слой возможных решений. Однако многие проблемы, которые ставит перед разработчиками ИПС Internet, не решены до сих пор. Именно этим обстоятельством и вызвано появление проектов типа AltaVista компании Digital [4], главной целью которого является разработка программных средств информационного поиска для Web и подбор архитектуры для информационного сервера Web.

Архитектура современных ИПС для WWW

Прежде чем описать проблемы построения информационно-поисковых систем Web и пути их решения рассмотрим типовую схему такой системы. В различных публикациях, посвященных конкретным системам, например [5,6], приводятся схемы, которые отличаются друг от друга только способом применения конкретных программных решений, а не принципом организации различных компонентов системы. Поэтому рассмотрим эту схему на примере, взятом из работы [6] (рис. 1).

Рисунок 1. Типовая схема информационно-поисковой системы.

Рассмотрим теперь назначение и принципу построения каждого из этих компонентов более подробно и определим, в чем отличие данной системы от традиционной ИПС локального типа.

Информационные ресурсы и их представление в ИПС

После того как ресурсы заиндексированы и система составила массив ПОД, начинается построение поискового аппарата. Совершенно очевидно, что лобовой просмотр файла или файлов ПОД займет много времени, что абсолютно не приемлемо для интерактивной системы WWW. Для ускорения поиска строится индекс, которым в большинстве систем является набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зависят от многих факторов: размер массива поисковых образов, информационно-поисковый язык, размещения различных компонентов системы и т.п. Рассмотрим структуру индекса на примере системы [6], для которой можно реализовывать не только примитивный булевый, но и контекстный и взвешенный поиск, а также ряд других возможностей, отсутствующие во многих поисковых системах Internet, например Yahoo. Индекс рассматриваемой системы состоит из таблицы идентификаторов страниц (page-ID), таблицы ключевых слов (Keyword-ID), таблицы модификации страниц, таблицы заголовков, таблицы гипертекстовых связей, инвертированного (IL) и прямого списка (FL).

Информационно-поисковый язык системы

>Software that is used on Unix Platform

будет преобразован в:

>Unix AND Platform AND Software

что будет означать примерно следующее: «Найди все документы, в которых слова Unix, Platform и Software встречаются одновременно».

Возможны и варианты. Так, в большинстве систем фраза «Unix Platform» будет опознана как ключевая фраза и не будет разделяться на отдельные слова. Другой подход заключается в вычислении степени близости между запросом и документом. Именно этот подход используется в Lycos. В этом случае в соответствии с векторной моделью представления документов и запросов вычисляется их мера близости. Сегодня известно около дюжины различных мер близости. Наиболее часто применяется косинус угла между поисковым образом документа и запросом пользователя. Обычно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.

Наиболее развитым языком запросов из современных ИПС Internet обладает Alta Vista. Кроме обычного набора AND, OR, NOT эта система позволяет использовать еще и NEAR, позволяющий организовать контекстный поиск. Все документ в системе разбиты на поля, поэтому в запросе можно указать, в какой части документа пользователь надеется увидеть ключевое слово: ссылка, заглавие, аннотация и т.п. Можно также задавать поле ранжирования выдачи и критерий близости документов запросу.

Важным фактором является вид представления информации в программе-интерфейсе. Различают два типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

В обзорной статье были рассмотрены основные элементы информационно-поисковых систем и принципы их построения. Сегодня ИПС являются наиболее мощным механизмом поиска сетевых информационных ресурсов Internet. К сожалению, в российском секторе Internet пока не наблюдается активного изучения этой проблемы за исключением, может быть, проекта LIBWEB, финансируемого РФФИ и системы «Паук», которая работает недостаточно надежно. Наибольшим опытом разработки такого сорта систем безусловно обладает ВИНИТИ, но здесь работа сосредоточена пока на размещении своих собственных ресурсов в Сети, что принципиально отличается от информационно-поисковых систем Internet типа Lycos, OpenText, Alta Vista, Yahoo, InfoSeek и т.п. Казалось бы, что такая работа могла быть сосредоточена в рамках таких проектов, как Россия On-line компании SovamTeleport, но здесь мы пока наблюдаются ссылки на чужие поисковые машины. Развитие ИПС для Internet в США началось два года назад, учитывая отечественные реалии и темпы развития технологий Сети в России, можно надеяться, что у нас еще все впереди.

Подобные документы

Информационная поисковая система Яндекс; характеристика услуг и сервисов портала: каталог, новости, города, энциклопедии. Полезные ссылки главной страницы. Формирование и активизация поискового запроса: морфология, контекст, порядок слов, результат.

презентация [2,6 M], добавлен 10.03.2015

Основные методы объектно-ориентированного программирования поисковой системы. Выбор языка программирования и среды разработки приложения. Реализация паттерна, использование принципа сохраняемости. Описание пользовательского интерфейса поисковой системы.

курсовая работа [781,4 K], добавлен 29.04.2015

Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

научная работа [222,0 K], добавлен 29.01.2009

Базовые принципы объектно-ориентированного программирования, его реализация в Тurbo Рascal. Разработка информационно-поисковой системы «Записная книжка врача-педиатра» на языке программирования Рascal. Описание алгоритма решения задачи и интерфейса.

курсовая работа [2,8 M], добавлен 14.11.2013

Приемы поиска информации в Интернете. Поиск по известному адресу, конструирование адреса пользователем. Специальные информационно-поисковые системы: классификационные (рубрикаторы) и словарные. Поиск информационных ресурсов по различным направлениям.

реферат [27,1 K], добавлен 03.04.2010

Обеспечение высокой релевантности поиска с помощью поисковой системы Google. Быстрота и надежность работы, большее количество ссылок в русскоязычном секторе Интернета. Службы, отсутствующие у других поисковых систем. Google как законодатель моды.

презентация [1,5 M], добавлен 10.03.2015

Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

дипломная работа [942,1 K], добавлен 19.05.2011

Источник

Поисковая машина система с формируемой роботом базой данных содержащей информацию

1. Введение

С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти. Как правило, обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи – где и как искать, чтобы получать ЖЕЛАЕМЫЕ ответы.

Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.). В данном мастер-классе раскрываются основные технологии поиска информации в Интернет, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

2. Технологии поиска

Web-технология World Wide Web (WWW) считается специальной технологией подготовки и размещения документов в сети Интернет. В состав WWW входят и web-страницы, и электронные библиотеки, каталоги, и даже виртуальные музеи! При таком обилии информации остро встает вопрос: «Как сориентироваться в столь огромном и масштабном информационном пространстве?»
В решении данной проблемы на помощь приходят поисковые инструменты.

2.1 Поисковые инструменты

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы. Перед тем как перейти к их обсуждению, рассмотрим следующие понятия:

Схема поиска информации проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и на сколько эти документы соответствуют ожиданиям пользователя.

Большинство поисковых инструментов предлагают два способа поиска – simple search (простой поиск) и advanced search (расширенный поиск) с использованием специальной формы запроса и без нее. Рассмотрим оба вида поиска на примере англоязычной поисковой машины.

Например, AltaVista удобно использовать для произвольных запросов, «Something about online degrees in information technology», тогда как поисковый инструмент Yahoo позволяет получать мировые новости, информацию о курсе валют или прогнозе погоды.

Освоение критериев уточнения запроса и приемов расширенного поиска, позволяет увеличивать эффективность поиска и достаточно быстро найти необходимую информацию. Прежде всего, увеличить эффективность поиска Вы можете за счет использования в запросах логических операторов (операций) Or, And, Near, Not, математических и специальных символов. С помощью операторов и/или символов пользователь связывает ключевые слова в нужной последовательности, чтобы получить наиболее адекватный запросу результат поиска. Формы запросов приведены в таблице 1.

Простой запрос
account
merchant account
internet merchant account
«merchant account»
«internet merchant account»
Расширенный запрос
internet merchant account and online payments
internet merchant near gov*
internet merchant near education
Расширенный запрос с использованием математических символов
+internet +merchant +account
internet

governorInternet

Простой запрос дает некоторое количество ссылок на документы, т.к. в список попадают документы, содержащие одно из слов, введенных при запросе, или простое словосочетание (см. таблицу 1). Оператор and позволяет указать на то, что в содержании документа должны быть включены все ключевые слова. Тем не менее, количество документов может быть все еще велико, и их просмотр займет достаточно времени. Поэтому в ряде случаев гораздо удобнее применить контекстный оператор near, указывающий, что слова должны располагаться в документе в достаточной близости. Использование near значительно уменьшает количество найденных документов. Наличие символа «*» в строке запроса означает, что будет осуществляться поиск слова по его маске. Например, получим список документов, содержащих слова, начинающиеся на «gov», если в строке запроса запишем «gov*». Это могут быть слова government, governor и т.д.

Наиболее развитый сервис поиска русскоязычной информации предоставляет поисковый сервер Яndex. В Яndex можно просто написать по-русски фразу, описывающую то, что Вы хотите найти, и система проанализирует и обработает Ваш запрос, а затем постарается найти все, что относится к заданной теме. Вы можете, используя специальные операторы, составить строку, поясняющую поисковой системе, каким Вашим требованиям должна отвечать интересующая Вас информация. Некоторые из операторов языка запросов Яndex можно посмотреть здесь: http://help.yandex.ru/search/?id=481939

Давайте рассмотрим наиболее популярные технологии поиска информации в Интернет.

2.2 Поисковые машины (search engines)

Более того, роботы поисковых систем переходят по встречаемым на страницах ссылкам и переиндексируют их. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет.

Именно этот вид поисковых инструментов является наиболее известным и популярным среди всех пользователей сети Интернет. У каждого на слуху названия известных машин веб-поиска (поисковых систем) – Яndex, Rambler, Aport.

Чтобы воспользоваться данным видом поискового инструмента, необходимо зайти на него и набрать в строке поиска интересующее Вас ключевое слово. Далее Вы получите выдачу из ссылок, хранящихся в базе поисковой системы, которые наиболее близки Вашему запросу. Чтобы поиск был наиболее эффективен, заранее обратите внимание на следующие моменты:

К наиболее известным машинам веб-поиска относятся Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Среди русскоязычных можно выделить Яndex, Rambler, Апорт.

Поисковые системы являются самыми масштабными и ценными, но далеко не единственными источниками информации в Сети.

2.3 Каталоги (directories)

Каталог Интернет-ресурсов – это постоянно обновляющийся и пополняющийся иерархический каталог, содержащий множество категорий и отдельных web-серверов с кратким описанием их содержимого.Способ поиска по каталогу подразумевает «движение вниз по ступенькам», то есть движение от более общих категорий к более конкретным. Одним из преимуществ тематических каталогов является то, что пояснения к ссылкам дают создатели каталога и полностью отражают его содержание, то есть дает Вам возможность точнее определить, насколько соответствует содержание сервера цели Вашего поиска.

Примером тематического русскоязычного каталога можно назвать ресурс http://www.ulitka.ru/.

На главной странице данного сайта расположен тематический рубрикатор,

Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть фото Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть картинку Поисковая машина система с формируемой роботом базой данных содержащей информацию. Картинка про Поисковая машина система с формируемой роботом базой данных содержащей информацию. Фото Поисковая машина система с формируемой роботом базой данных содержащей информацию

с помощью которого пользователь попадает в рубрику со ссылками на интересующую его продукцию.

Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть фото Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть картинку Поисковая машина система с формируемой роботом базой данных содержащей информацию. Картинка про Поисковая машина система с формируемой роботом базой данных содержащей информацию. Фото Поисковая машина система с формируемой роботом базой данных содержащей информацию

Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть фото Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть картинку Поисковая машина система с формируемой роботом базой данных содержащей информацию. Картинка про Поисковая машина система с формируемой роботом базой данных содержащей информацию. Фото Поисковая машина система с формируемой роботом базой данных содержащей информацию

и получает список ссылок с описаниями сайтов, которые наиболее полно соответствуют его запросу. Стоит отметить, что этот поиск происходит не в содержимом WWW-серверов, а в их кратком описании, хранящихся в каталоге.

В нашем примере в каталоге также имеется возможность сортировки сайтов по количеству посещений, по алфавиту, по дате занесения.

Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть фото Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть картинку Поисковая машина система с формируемой роботом базой данных содержащей информацию. Картинка про Поисковая машина система с формируемой роботом базой данных содержащей информацию. Фото Поисковая машина система с формируемой роботом базой данных содержащей информацию

2.4 Подборки ссылок

Подборки ссылок – это отсортированные по темам ссылки. Они достаточно сильно отличаются друг от друга по наполнению, поэтому чтобы найти подборку, наиболее полно отвечающую Вашим интересам, необходимо ходить по ним самостоятельно, дабы составить собственное мнение.

В качестве примера приведем Подборку ссылок «Сокровища Интернет» АО «Релком»

Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть фото Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть картинку Поисковая машина система с формируемой роботом базой данных содержащей информацию. Картинка про Поисковая машина система с формируемой роботом базой данных содержащей информацию. Фото Поисковая машина система с формируемой роботом базой данных содержащей информацию

Пользователь, нажимая на любую из заинтересовавших его рубрик

попадает на подборку со ссылками на полезные Интернет-ресурсы
Автомобилистам

Преимуществом такого вида поисковых инструментов является их целенаправленность, обычно подборка включает в себя редкие интернет ресурсы, подобранные конкретным веб-мастером или хозяином интернет странички.

2.5 Базы данных адресов ( addresses database)

Базы данных адресов – это специальные поисковые сервера, которые обычно используют классификации по роду деятельности, по выпускаемой продукции и оказываемым услугам, по географическому признаку. Иногда они дополнены поиском по алфавиту. В записях базы данных хранится информация о сайтах, которые предоставляют информацию об электронном адресе, организации и почтовом адресе за определенную плату.

Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть фото Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть картинку Поисковая машина система с формируемой роботом базой данных содержащей информацию. Картинка про Поисковая машина система с формируемой роботом базой данных содержащей информацию. Фото Поисковая машина система с формируемой роботом базой данных содержащей информацию

представляет собой рубрикатор со множеством поддиректорий, таких как: Find Person, Phone Numbers, Name Search и другие.

Попадая в данные поддиректории, пользователь обнаруживает ссылки на сайты, которые и предлагают интересующую его информацию.

Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть фото Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть картинку Поисковая машина система с формируемой роботом базой данных содержащей информацию. Картинка про Поисковая машина система с формируемой роботом базой данных содержащей информацию. Фото Поисковая машина система с формируемой роботом базой данных содержащей информацию

2.6 Поиск в архивах Gopher (Gopher archives)

Gopher – это взаимосвязанная система серверов (Gopher-пространство), распределенная по Интернет.

В пространстве Gopher собрана богатейшая литературная библиотека, однако материалы недоступны для просмотра в удаленном режиме: пользователь может только просматривать иерархически организованное оглавление и выбирать файл по названию. С помощью специальной программы (Veronica) такой поиск можно сделать и автоматически, используя запросы, построенные на ключевых словах.

До 1995 года Gopher являлся самой динамичной технологией Интернет: темпы роста числа соответствующих серверов опережали темпы роста серверов всех других типов Интернет. В сети EUnet/Relcom активного развития серверы Gopher не получили, и сегодня о них практически никто не вспоминает.

2.7 Система поиска FTP файлов (FTP Search)

Система поиска FTP-файлов – это особый тип средств поиска в Internet, который позволяет находить файлы, доступные на «анонимных» FTP-серверах. Протокол FTP предназначен для передачи по сети файлов, и в этом смысле он функционально является своеобразным аналогом Gopher.

Основным критерием поиска является название файла, задаваемое разными способами (точное соответствие, подстрока, регулярное выражение и т.д.). Данный тип поиска, конечно же, не может соперничать по возможностям с поисковыми машинами, так как содержимое файлов никак не учитывается при поиске, а файлам, как известно, можно давать произвольные имена. Тем не менее, если Вам требуется найти какую-нибудь известную программу или описание стандарта, то с большой долей вероятности файл, его содержащий, будет иметь соответствующее имя, и Вы сможете найти его при помощи одного из серверов FTP Search:

Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть фото Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть картинку Поисковая машина система с формируемой роботом базой данных содержащей информацию. Картинка про Поисковая машина система с формируемой роботом базой данных содержащей информацию. Фото Поисковая машина система с формируемой роботом базой данных содержащей информацию

FileSearch ищет файлы на FTP-серверах по именам самих файлов и каталогов. Если Вы ищете какую-либо программу или еще что-то, то на WWW-серверах Вы скорее найдете их описание, а с FTP-серверов Вы сможете перекачать их к себе.

2.8 Система поиска в конференциях Usenet News

USENET NEWS – это система телеконференций сообщества сетей Интернет. На Западе этот сервис принято называть новостями. Близким аналогом телеконференций являются и так называемые «эхи» в сети FIDO.

Группы Google – это бесплатное интерактивное сообщество и служба групп обсуждений, которая предлагает самый обширный в Интернете архив сообщений сети Usenet (более миллиарда сообщений).Подробнее ознакомиться с правилами пользования сервисом можно на странице http://groups.google.com/intl/ru/googlegroups/tour/index.html

Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть фото Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть картинку Поисковая машина система с формируемой роботом базой данных содержащей информацию. Картинка про Поисковая машина система с формируемой роботом базой данных содержащей информацию. Фото Поисковая машина система с формируемой роботом базой данных содержащей информацию

Среди русскоязычных выделяется сервер Всемирная система USENET и телеконференции Relcom. Точно также как и в других поисковых службах, пользователь набирает строку запроса, а сервер формирует список конференций, содержащих ключевые слова. Далее надо подписаться на отобранные конференции в программе работы с новостями. Также имеет место аналогичный российский сервер FidoNet Online: конференции Fido на WWW.

2.9 Системы мета-поиска

Для быстрого поиска в базах сразу нескольких поисковых систем лучше обратиться к системам мета-поиска.

Системы мета-поиска – это поисковые машины, которые посылают Ваш запрос на огромное количество разных поисковых систем, затем обрабатывают полученные результаты, удаляют повторяющиеся адреса ресурсов и представляют более широкий спектр того, что представлено в сети Интернет.

Наиболее популярная в мире система мета-поиска Search.com.

Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть фото Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть картинку Поисковая машина система с формируемой роботом базой данных содержащей информацию. Картинка про Поисковая машина система с формируемой роботом базой данных содержащей информацию. Фото Поисковая машина система с формируемой роботом базой данных содержащей информацию

Объединенный поисковый сервер Search.com компании CNET, Inc. включает в себя почти два десятка поисковых систем, ссылками на которые пестрит весь Интернет.

С помощью данного вида поисковых инструментов пользователь может искать информацию во множестве поисковых систем, однако отрицательной стороной данных систем можно назвать их нестабильность.

2.10 Системы поиска людей

Системы поиска людей – это специальные сервера, которые позволяют осуществлять поиск людей в Интернет, пользователь может указать Ф.И.О. человека и получить его адрес электронной почты и URL-адрес. Однако, следует отметить, что системы поиска людей, в основном, берут информацию об электронных адресах из открытых источников, таких как конференции Usenet. Среди самых известных систем поиска людей можно выделить:

Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть фото Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть картинку Поисковая машина система с формируемой роботом базой данных содержащей информацию. Картинка про Поисковая машина система с формируемой роботом базой данных содержащей информацию. Фото Поисковая машина система с формируемой роботом базой данных содержащей информацию

в специальные графы поиска контактные данные (First Name. City, Last Name, Phone number), Вы можете найти интересующую Вас информацию.

Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть фото Поисковая машина система с формируемой роботом базой данных содержащей информацию. Смотреть картинку Поисковая машина система с формируемой роботом базой данных содержащей информацию. Картинка про Поисковая машина система с формируемой роботом базой данных содержащей информацию. Фото Поисковая машина система с формируемой роботом базой данных содержащей информацию

3. Заключение

Мы рассмотрели основные технологии поиска информации в Интернет и представили в общих чертах поисковые инструменты, которые существуют на данный момент в Интернете, а также структуру поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем и, подводя итог вышесказанному, хотим отметить, что единой оптимальной схемы поиска информации в Интернет не существует. В зависимости от специфики нужной Вам информации, Вы можете использовать соответствующие поисковые инструменты и службы. А от того, как грамотно будут подобраны поисковые службы, зависит качество результатов поиска.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *