Первое знакомство с информационно поисковыми системами. История создания и развитие современных ПС

С иском к россиянину, заказавшему в зарубежном Интернет-магазине новый смартфон Motorola? Тогда было немало заметок на эту тему и почти все они могли бы быть сформулированы коротко: “Российские власти закручивают гайки и обычному россиянину уже даже через Интернет нельзя заказать ничего нужного - везде фискалы и правоохранительные органы вставляют палки в колеса”. Надо заметить, что такие высказывания типичны для почти любого человека, который столкнувшись с нестандартной для себя ситуацией, в которой происходит якобы ущемление прав, начинает, не разобравшись, винить во всем всех кроме себя. С ввозом смартфона ситуация была как раз из этой области. Однако случай этот был далеко не первый. Еще несколько лет назад один из россиян, купив на eBay маршрутизатор Cisco, столкнулся с аналогичной ситуацией на российской таможне. А до и после было и еще несколько аналогичных случаев. Попробуем разобраться.

Дело в том, что в России, а точнее на территории Таможенного Союза, в который входят Россия, Беларусь и Казахстан, уже несколько лет действуют правила ввоза криптографических средств, под которые попадают многие гаджеты и иные предметы, о которых мы даже не задумываемся, что они подпадают под понятие средств щифрования. До сих пор в отношении этой темы больше слухов и мифов, чем достоверной информации. Основным заблуждением является две позиции и их производные “В Россию нельзя ввозить средства шифрования Cisco” и “Я могу заказать в зарубежном Интернет-магазине или аукционе все, что угодно, и без проблем получить это в России”. Это неверно и в данной статье нам бы хотелось ответить на самые распространенные вопросы в отношении импорта ИТ-продукции, и в частности, средств шифрования.

А причем тут вообще шифровальные средства?

Документы, регламентирующие вопросы ввоза-вывоза шифровальных средств, определяют, что средства шифрования – это “аппаратные, программные и аппаратно-программные средства, системы и комплексы, реализующие алгоритмы криптографического преобразования информации и предназначенные для защиты информации от несанкционированного доступа при ее передаче по каналам связи и (или) при ее обработке и хранении”. С одной стороны это очень емкое, а с другой – совсем неконкретное определение, которое может трактоваться по разному в разных ситуациях. Кодирование – это шифрование? А электронная подпись? А криптографическая аутентификация?

На самом деле с точки зрения таможенных органов контролю подлежат не только средства шифрования определенные абзацем выше, но также:

  • средства имитозащиты
  • средства электронной цифровой подписи
  • средства кодирования
  • средства изготовления криптографических ключей
  • сами криптографические ключи
  • системы, оборудование и компоненты, разработанные или модифицированные для выполнения криптоаналитических функций
  • системы, оборудование и компоненты, разработанные или модифицированные для применения криптографических методов генерации расширяющегося кода для систем с расширяющимся спектром, включая скачкообразную перестройку кодов для систем со скачкообразной перестройкой частоты
  • системы, оборудование и компоненты, разработанные или модифицированные для применения криптографических методов формирования каналов или засекречивающих кодов для модулированных по времени сверхширокополосных систем.

Список получается достаточно большой, но для целей ввоза не так уж и важно само определение. Важнее то, что именно контролируется таможней. В Перечне 2.19 нет отдельно определенной группы шифровальных средств и соответствующих им кодов так называемой единой Товарной номенклатуры внешнеэкономической деятельности (ЕТН ВЭД). В Перечне 2.19 указаны наименования товаров и их коды ЕТН ВЭД, по принадлежности к которым, таможенные органы могут определить ввозимый продукт как шифровальный (и не важно, есть ли там шифрование на самом деле или нет). Применительно к продукции компании Cisco выдержка из Перечня 2.19 выглядит, например, следующим образом:

Не стоит сильно вникать в то, что написано в таблице:-) Гораздо важнее понимать, что таможенные органы контролируют все, что так или иначе мы используем в своей обычной жизни или в служебных целях - компьютеры, смартфоны, лэптопы, GPS-приемники, маршрутизаторы, точки беспроводного доступа, программное обеспечение, телевизоры и телевизионные приставки и т.п. Именно поэтому смартфон Motorola в нашумевшем недавно случае попал “под раздачу” - он считается шифровальным средством с точки зрения таможни. Хотя надо признать, что он таковым считается и не только с точки зрения таможни, но и здравый смысл подсказывает нам, что в любом современном смартфоне шифрование есть. Оно есть в чипе, реализующем любой стандарт мобильной связи (например, A5 в GSM). Оно есть в операционной системе Android или iOS или Blackberry. Оно есть в бразуере Safari или ином мобильном варианте распространенных браузеров. Оно есть в почтовом клиенте на смартфоне. Оно есть… Да мало ли приложений или микросхем на смартфоне, где есть шифрование. Если посмотреть на многие другие приведенные в таблице устройства, то мы поймем, что шифрование там действительно есть. Как минимум, для защиты информации на самом устройстве, для хранения ключей или аутентификационной информации, или для защищенного управления (SSH - это тоже шифрование).

Если в продукте шифровальный функционал не является основным или его не предполагается использовать в качестве шифровального средства, он будет считается шифровальным средством или нет?

Поставьте себя на место рядового таможенника… Как он узнает, для чего вы будете использовать провозимый через границу продукт? Может быть вы приобретенный на eBay смартфон повесите в рамочку на стену, а может быть будете им гвозди заколачивать. А может вы скрытый террорист или экстремист, который планирует использовать импортное средство связи для взаимодействия со своими подельниками? Но если отбросить шутки в сторону, то позиция властей проста - если продукт может реализовать алгоритмы криптографического преобразования информации, он в любом случае считается шифровальным средством, даже если шифрование является неосновной или неиспользуемой функцией продукта.

Иными словами получается, что почти любой ИТ-товар, пересекающий границу Российской Федерации, становится предметом таможенного регулирования и на него распространяются все правила ввоза шифровальных средств. И совершенно неважно, кто является заказчиком такого средства - физическое или юридическое лицо.

Единая ли процедура ввоза для разных средств шифровальных средств?

Все шифровальные средства (читай почти любые ИТ-продукты) по процедуре ввоза разделены на две группы:
  • Упрощенная процедура ввоза. Означает ввоз по так называемой зарегистрированной нотификации, которая оформляется для шифровальных средств, которые могут быть включены в “Перечень категорий товаров (продукции), являющихся шифровальными (криптографическими) средствами или содержащих в своем составе шифровальные (криптографические) средства, технические и криптографические характеристики которых подлежат нотификации” (приложение к ранее упомянутому Положению о ввозе, далее - Перечень НТФ).
  • Ввоз по лицензии. Шифровальные средства, непопавшие в Перечень НТВ, ввозятся на основании разовой лицензии Минпромторга России, выданной на основании заключения Центра лицензирования, сертификации и защите государственной тайны ФСБ России (далее - ЦЛСЗ) о возможности ввоза шифровального средства. Лицензия и заключение выдаются импортеру на конкретную поставку в сторону конкретного заказчика (потребителя).

Что ввозится по упрощенной схеме?

Идеально, если продукт попадает под “упрощенку”. В этом случае его ввоз ничем не отличается от ввоза любой иной, неограниченной никакими запретами продукции. На сегодняшний день в этот список попадают:
  • Товары, содержащие шифровальные (криптографические) средства, имеющие любую из следующих составляющих:
    • симметричный криптографический алгоритм, использующий криптографический ключ длиной, не превышающей 56 бит (это обычный и мало где сейчас применяемый DES); или
    • асимметричный криптографический алгоритм, основанный на любом из следующих методов (тот же RSA в современной реализации в это исключение тоже не попадает):
      • на разложении на множители целых чисел, размер которых не превышает 512 бит;
      • на вычислении дискретных логарифмов в мультипликативной группе конечного поля
        размера, не превышающего 512 бит; или
      • на дискретном логарифме в группе, отличного от поименованного в вышеприведенном
        подпункте “b” размера, не превышающего 112 бит.
  • Товары, содержащие шифровальные (криптографические) средства, обладающие следующими ограниченными функциями:
    • аутентификация, включающая в себя все аспекты контроля доступа, где нет шифрования файлов или текстов, за исключением шифрования, которое непосредственно связано с защитой паролей, персональных идентификационных номеров или подобных данных для защиты от несанкционированного доступа;
    • электронная цифровая подпись.
  • Шифровальные (криптографические) средства, являющиеся компонентами программных операционных систем, криптографические возможности которых не могут быть изменены пользователями, которые разработаны для установки пользователем самостоятельно без дальнейшей существенной поддержки поставщиком и техническая документация (описание алгоритмов криптографических преобразований, протоколы взаимодействия, описание интерфейсов и т.д.) на которые является доступной. Именно под это исключение подпадают широко распространенные ОС - Windows, Linux и т.п.
  • Шифровальное (криптографическое) оборудование, специально разработанное и ограниченное применением для банковских или финансовых операций. Это банкоматы, оборудование для SWIFT и т.п. Cisco специально для данных целей выпускает маршрутизаторы 800-й серии с кодом PCI в коде продукта.
  • Персональные смарт-карты (интеллектуальные карты).
  • Приемная аппаратура для радиовещания, коммерческого телевидения или аналогичной коммерческой аппаратуры для вещания на ограниченную аудиторию без шифрования цифрового сигнала, кроме случаев использования шифрования исключительно для управления видео- или аудиоканалами и отправки счетов или возврата информации, связанной с программой, провайдерам вещания.
  • Оборудование, криптографические возможности которого недоступны пользователю, специально разработанное и ограниченное для применения любым из следующего
    • программное обеспечение исполнено в защищенном от копирования виде
    • доступом к любому из следующего:
      • защищенному от копирования содержимому, хранящемуся только на доступном для чтения носителе информации;
      • информации, хранящейся в зашифрованной форме на носителях, когда эти носители информации предлагаются на продажу населению в идентичных наборах
    • контролем копирования аудио- и видеоинформации, защищенной авторскими правами.
  • Портативные или мобильные радиоэлектронные средства гражданского назначения (например, для использования в коммерческих гражданских системах сотовой радиосвязи), которые не способны к сквозному шифрованию (т.е. от абонента до абонента). Именно под это исключение попадают обычные мобильные телефоны и многие модели смартфонов.
  • Беспроводное радиоэлектронное оборудование, осуществляющее шифрование информации только в радиоканале с максимальной дальностью беспроводного действия без усиления и ретрансляции менее 400 м в соответствии с техническими условиями производителя. Домашние точки доступа вполне подпадают под это исключение.
  • Шифровальные (криптографические) средства, используемые для защиты технологических каналов информационно-телекоммуникационных систем и сетей связи.
  • Товары, у которых криптографическая функция заблокирована производителем. Например, Cisco для многих своих продуктовых линеек выпускает специальные версии оборудования с установленным программным обеспечением NO PAYLOAD ENCRYPTION - “NPE”. Такое ПО есть для маршрутизаторов Cisco 800, ISR 1900, ISR 2900, ISR 3900, 2100 CGR, ASR1000, ASR 903, коммутаторов Cisco Catalyst 3560-X, Catalyst 3750-X, 2500 CGS, Nexus 7000, оборудования систем видеоконференцсвязи, систем унифицированных коммуникаций. Этот список модифицированных продуктов постоянно расширяется.

Что ввозится по “сложной” схеме?

Если на пересекающий границу товар отсутствует нотификация, то ввозится он по “сложной” схеме. Даже если формально он мог бы быть оформлен по упрощенному варианту. Такая ситуация часто возникает для совсем новых продуктов, на которые производитель еще не успел (или и вовсе не планирует) оформить нотификацию.

А других вариантов нет?

В Положении указан ряд исключений, когда шифровальное средство может быть ввезено без нотификации, но и без лицензии Минпромторга. Это происходит в следующих случаях:

  • при ввозе и вывозе шифровальных средств для осуществления ремонта или замены в соответствии с обязательствами по договору (контракту, соглашению);
  • при временном ввозе и временном вывозе шифровальных средств в целях:
    • проведения научно-технической экспертизы
    • научных исследований;
    • экспонирования на выставках;
  • при ввозе и вывозе шифровальных средств в целях обеспечения собственных нужд организаций без права их распространения и оказания третьим лицам услуг в области шифрования;
  • при транзитных перевозках шифровальных средств через территорию государств – участников таможенного союза.

Правда, в этом случае все равно необходимо получение соответствующего заключения ЦЛСЗ.

Кто должен заниматься оформлением документов на ввоз средств шифрования?

В случае с ввозом по нотификации, ее оформлением занимается производитель ввозимой продукции. Например, Cisco заполняет нотификации на свою продукцию в двух экземплярах, после чего соответствующая информация попадает в Перечень НТФ, а Cisco передает сами нотификации для регистрации в ЦЛСЗ. После регистрации один экземпляр нотификации возвращается в Cisco. ЦЛСЗ также направляет информацию о зарегистрированной нотификации в ЕЭК для опубликования на сайте www.tsouz.ru/db/entr/notif/Pages/default.aspx (кстати, вы можете и сами проверить законность ввоза используемой вами продукции). В среднем, процедура регистрации нотификации занимает не менее 2-3 недель. Ввоз шифровальных средств, попадающих в Перечень НТФ, осуществляется на основании информации о зарегистрированной нотификации без оформления иных разрешительных документов.

В случае с ввозом по “сложной” схеме все работы с уполномоченными государственными органами (ЦЛСЗ и Минпромторг) осуществляет импортер (а не потребитель). Процедура получения лицензии и вся необходимая информация подробно представлена на сайте Минпромторга - www.minpromtorg.gov.ru/services/permission/export-import . При этом Положение о ввозе не делает различия между юридическими или физическими лицами, но на практике обычный гражданин врядли будет в состоянии пройти все процедуры общения с регулирующими органами.

Общий срок получения лицензии Минпромторга с учетом проведения экспертизы и получения заключения ЦЛСЗ не должен превышать 90 дней со дня регистрации обращения импортера в ЦЛСЗ. Сложившаяся практика показывает, что при условии правильно подготовленных документов, получение разрешительных документов занимает около 7 - 9 недель (ЦЛСЗ – от 4 до 6 недель, Минпромторг – не более 3 недель). При этом заказывать продукцию можно сразу после получения заключения ЦЛСЗ. Процедуру получения лицензии Минпромторга можно совместить с процессом изготовления и транспортировки продукции в Россию.

В вышеприведенном случае с ввозом смартфона он должен был попасть под упрощенную схему; но только после того, как российское юридическое лицо, представляющее интересы Motorola, зарегистрировало бы нотификацию на данный смартфон. Так как модель эта было новая и в Россию на момент заказа не поставлялась, то к смартфону была применена “сложная” схема. При этом оформлением документов на ввоз смартфона должен был заниматься не покупатель, а импортер - курьерская или логистическая компания, доставляющая товар через границу. У нее, разумеется, никаких специальных разрешительных документов на ввоз шифровального средства не было, а таможня в базе зарегистрированных нотификаций провозимой модели смартфона тоже не нашла. В результате и возникло нарушение таможенного законодательства.

Что грозит за нарушение правил ввоза средств шифрования?

Как было написано в повестке, приведенной пострадавшим любителем смартфонов Motorola, ему инкриминировали нарушение части 1 статьи 16.3 Кодекса об административных правонарушениях (“”Несоблюдение ограничений на ввоз товаров). На самом деле таможня не совсем верно классифицировала правонарушение - зесь следовало бы применить часть 2 данной статьи. Помимо статьи 16.3 возможно применение (но уже к импортеру) статей 16.2 “Недекларирование или недостоверное декларирование” и 16.7 “Представление недействительных документов при таможенном декларировании”. Все эти статьи могут быть применены как к юридическому лицу, ввозящему шифровальные средства через таможенную границу РФ, так и физическому лицу, что и было уже не раз продемонстрировано за прошедшие несколько лет.

Но вот если шифровальное средство пересекло границу и продается уже на территории России, то покупателю ничего не грозит. Дело в том, что покупка шифровальных средств на территории Российской Федерации в настоящее время никак не регламентируется. Действующее законодательство не обязывает покупателя на территории России проверять условия ввоза приобретаемых им продуктов. Только в случае заказа шифровальных средств за пределами РФ и ввоза их через границу Таможенного Союза вступают в силу все правила, описанные выше.

А разве конечный пользователь не участвует в процессе оформления своего заказа?

Как это ни странно, нет. В Положении не определены процедуры, которые должен осуществлять потребитель. Но в соответствии со сложившейся практикой, потребитель оказывает импортеру поддержку, предоставляя в ЦЛСЗ информационное письмо по применению ввозимого оборудования (для “сложной” схемы), т.к. импортер обязан указать для кого осуществляется ввоз шифровального средства. В письме указывается минимально необходимая следующая информация:
  • каталожные номера (P/N), наименования, количество ввозимых шифровальных средств
  • цель ввоза
  • краткая характеристика среды функционирования – локализация, пользователи, обрабатываемая информация
  • назначение ввозимых шифровальных средств, их размещение (адрес).

Информационное письмо должно совпадать по содержанию с заявлением в ЦЛСЗ от импортера. Отсутствие информационного письма может трактоваться как недобросовестность импортера и, как правило, означает стопроцентный отказ в выдаче заключения на ввоз шифровального средства.

С практикой оформления таких писем от потребителей - рядовых граждан нам сталкиваться не приходилось.

А вот другой вендор уверяет, что у него нет проблем с ввозом. Такое может быть?

Для перемещения любого шифровального средства через таможенную границу независимо от страны происхождения и названия производителя обязательными документами являются зарегистрированная нотификация или заключение ЦЛСЗ (при необходимости требуется также лицензия Минпромторга России). Обойти эту процедуру можно единственным способом - ввозить оборудование незаконным путем.

Если при приобретении продукции с функцией шифрования покупатель не может получит у продавца информацию о зарегистрированной нотификации или копию лицензии Минпромторга России – существует высокая вероятность, что данная продукция ввезена на территорию России с нарушением законодательства.

А если я ввез оборудование без шифрования, а потом обновил его через Интернет и получилось средство шифрования?

В действующем российском законодательстве действия по изменению криптографических характеристик устройств, уже находящихся и приобретенных на территории России не регламентированы и предсказать последствия скачивания из Интернет апгрейда с включенной криптографической функциональностью никто не возьмется. Вместе с тем, в настоящее время существует практика получения разрешения ЦЛСЗ на ввоз продуктов, позволяющих изменить криптографических характеристики имеющегося оборудования, например программного обеспечения на физическом носителе (CD/DVD) или скачиваемого по сети Интернет. Правда, действует эта практика преимущественно для юридических лиц, использующих средства шифрования. Они должны понимать, что у регулирующих и проверяющих органов могут быть вопросы к организации, которая никогда не приобретала криптографические продукты, ввезенные для нее по заключению ЦЛСЗ, но использует их в своей деятельности.

В отношении рядовых граждан, скачивающих из Интернет программные шифровальные средства, правоприменительной практики пока не сложилось.

Кто регламентирует вопросы ввоза и вывоза шифровальных средств?

Вопреки бытующему мнению, что регулирование ввоза средств шифрования у нас занимается таможня или ФСБ, это не совсем верно, а точнее совсем неверно. Эти органы по сути только выполняют распоряжения вышестоящей организации - Евразийской экономической комиссии (далее - ЕЭК), созданной решением Президентов Российской Федерации, Республики Беларусь и Республики Казахстан в конце 2011 года.

ЕЭК была создана как единый постоянно действующий регулирующий орган Таможенного союза и Единого экономического пространства. Комиссия имеет статус наднационального органа управления, не подчинена какому-либо правительству и решения Комиссии обязательны для исполнения на территории трех стран, включая и Россиию. Основной задачей ЕЭК является обеспечение условий функционирования и развития Таможенного союза и Единого экономического пространства, а также выработка предложений по дальнейшему развитию интеграции. ЕЭК передаются полномочия упраздняемой Комиссии Таможенного союза.

В соответствии с решением Межгосударственного Совета Евразийского экономического сообщества от 27 ноября 2009 года «О едином нетарифном регулировании таможенного союза Республики Беларусь, Республики Казахстан и Российской Федерации» нынешнее Положение о ввозе, с изменениями и дополнениями, действует с 01 января 2010 года. Вступление России в ВТО 22 августа 2012 года ничего не поменяло в области нетарифного регулирования внешней торговли.

После подписания договора о создании Евразийского экономического союза ситуация врядли изменится и ЕЭК пока остается основным органом, определяющим правила ввоза средства шифрования, а таможня только реализует на практике эти правила. ФСБ же, а точнее ее ЦЛСЗ, определяет, что будет ввозиться по упрощенной схеме, а что потребует бОльших телодвижений.

В качестве заключения хотелось бы ответить еще на 2 вопроса, которые могут возникнуть по ходу прочтения материала.

А мне нужна лицензия ФСБ на ввоз средств шифрования?

Нет. Несмотря на схожие названия, лицензии Минпромторга на ввоз шифровальных средств и лицензии ФСБ на деятельность с шифровальными средствами это совершенно разные ветви законодательства.

Какими документами регулируется ввоз шифровальных средств на территорию Российской Федерации?

Решением Решение Коллегии Евразийской экономической комиссии от 16 августа 2012г. №134 «О нормативных правовых актах в области нетарифного регулирования» утверждены:
  • «Единый перечень товаров, к которым применяются запреты или ограничения на ввоз или вывоз государствами - членами таможенного союза в рамках Евразийского экономического сообщества в торговле с третьими странами», включающий в себя перечень шифровальных (криптографических) средств, ввоз которых на таможенную территорию Таможенного союза и вывоз с таможенной территории Таможенного союза ограничен (далее - Перечень 2.19).
  • Положения о применении ограничений, включающие в себя Положение о порядке ввоза на таможенную территорию Таможенного союза и вывоза с таможенной территории Таможенного союза шифровальных (криптографических) средств (далее - Положение о ввозе).

Как только посылка поступит на один из наших складов за рубежом или в России, вы получите оповещение по электронной почте. В дальнейшем Вы сможете отследить Вашу посылку на нашем сайте в разделе «Отслеживание», для этого необходимо ввести свой tracking-number.

Пожалуйста, убедитесь что Вы верно указали свой почтовый адрес в профиле IPS, и что Ваш электронный почтовый ящик не переполнен.

Если ваш продавец (интернет-магазин) сообщил Вам, что Ваша посылка прибыла в один из наших офисов, но вы все еще не можете отследить ее, пожалуйста, свяжитесь с нами, по возможности, предоставив полную информацию о вашей посылке (название магазина, отправителя и адрес отправления, идентификационный номер, дату отправления и т.д.).

    Доставка посылки из-за границы. Как это работает?

    Всем нашим клиентам (будь это постоянный клиент или клиент, желающий получить посылку единоразово) мы предоставляем почтовые адреса в трех городах мира – Лондоне, Нью-Йорке, Ганновере. На любой из них Ваш респондент (интернет-магазин, друг, родственник, коллега и т.п.) может выслать Вам посылку и через – 7-10 рабочих дней после того, как она поступит на один из этих адресов, Вы получите ее в Москве.

    Как мне получить адреса?

    Есть два варианта:

    • Вы хотите получить пока одну-две посылки:

    Вам нужно подъехать с паспортом в офис IPS. Здесь сделают ксерокопию Вашего паспорта, запишут Ваши контактные телефоны и выдадут нужный Вам адрес (в Лондоне, в Нью-Йорке или в Ганновере).

    • Вы планируете регулярно (несколько раз в месяц) получать письма, журналы или посылки из-за рубежа:

    Вам имеет смысл заключить договор на постоянное обслуживание. Для этого нужно абонировать почтовый ящик и регулярно вносить абонентский платеж. Минимальный размер месячной абонентской платы – 755,2руб (с учетом НДС 18%). (Есть и другие размеры абонентской платы, они зависят от набора дополнительный бесплатных услуг, уже включенных в абонентское обслуживание). В этом случае Вы получаете все три адреса и можете пользоваться ими по своему усмотрению.

    Для получения адреса - можно мне к Вам не приезжать, а отправить копию паспорта по e-mail?

    Можно, но тогда нужна предоплата.

    В двух вышеуказанных случаях (см. вопрос 2) мы обслуживаем клиентов в режиме наложенного платежа - мы привозим (т.е. сначала оказываем услугу), а потом только получаем оплату от клиента. Поэтому для нас важно удостовериться, что наш клиент –реальное лицо.

    Если Вы хотите нам отправить копию паспорта электронно, то для дальнейшего обслуживания важна предоплата от Вас в размере не менее 4000,0 руб. Если после оказания и оплаты услуги доставки у Вас остается сумма – по первому Вашему требованию эта сумма будет Вам возвращена на те реквизиты, с которых она была отправлена Вами нам. Либо в дальнейшем вы сможете использовать ее для оплаты услуг в нашей компании.

    Почему выгодно абонировать почтовый ящик?

    Клиент, который абонирует почтовый ящик, становится нашим постоянным клиентом.

    Постоянные клиенты имеют следующие льготы:

    • Тарифы на наши услуги для наших постоянных клиентов ниже тарифов для непостоянных клиентов на 10-30 % (в зависимости от вида услуг).
    • Расчет тарифов за доставку посылки из-за рубежа производится в соответствии с реальным весом этой посылки, а не за округленный вес до полного числа килограмм.
    • Действуют накопительные скидки.
    • Упаковка, переупаковка писем/посылок для наших постоянных клиентов производится бесплатно.
    • Для постоянных клиентов осуществляется доставка или пересылка писем/посылок из наших зарубежных адресов на любой другой международный адрес или в руки любому лицу за рубежом.
    • Постоянный клиент получает информацию обо всех изменениях заранее.
    • Постоянный клиент может заказать нужную ему нестандартную услугу, даже если эта услуга не обозначена в списке услуг IPS и ее нужно выполнить за пределами России.
    • Бесплатно хранить длительное время письма/посылки в наших зарубежных офисах.
    • Самостоятельно забирать свои посылки в наших зарубежных офисах.
  • Могу я использовать абонируемый почтовый ящик в Вашем офисе для получения обычной почты, корреспонденции, счетов, подписки из Москвы или из России?

    Конечно. Абонентская плата у нас дешевле, чем на Почте России. В данном случае, кроме абонентской платы Вы больше ничего не платите.

    Мне нужно отправить посылку за рубеж. Чем услуги IPS по отправке отличаются от других курьерских компаний?

    • Через нас клиент может отправить 3-мя режимами:
      • почтовый режим – самый дешевый, но и самый медленный – 10-12 раб.дней;
      • курьерский режим средней скорости доставки – 4-5 раб.дней (Экспресс-смарт);
      • курьерский режим высшей скорости доставки - 1-2 раб.дня (Экспресс-бизнес).
    • Мы самостоятельно оформляем за клиента все документы для таможни.
    • Бесплатно консультируем по оптимизации логистического процесса отправки любого груза в любую страну мира.
  • У меня 4 маленьких посылки. Вы сможете упаковать эти посылки в одну?

    Cможем. Мы обеспечим консолидацию посылок. Для постоянных клиентов (абонирующих почтовый ящик) – эта услуга бесплатная.

    Каким образом я могу оплатить доставку?

    На данный момент доступны наличный и безналичный способы оплаты.

    Какая компенсация мне будет выплачена в случае потери посылки?

    Наша доставка имеет высокую степень надежности. Однако если такое случилось и посылка была застрахована – полная застрахованная сумма.

    Как долго занимает доставка посылки?

    Обычно доставка занимает от 7 до 12 дней со дня поступления посылки на наш склад в соответствующей стране.

    Могу ли я хранить мою посылку на вашем складе в США/Великобритании/Германии в течение 1-2 месяцев? Взимается ли за это дополнительная плата?

    Если Вы не абонируете почтовый ящик компания IPS будет хранить бесплатно Вашу посылку только в течение 7 дней с момента поступления на склад. В случае хранения посылки свыше 7 дней взимается дополнительная плата. IPS оставляет за собой право по своему усмотрению распоряжаться посылками, которые хранятся на складе более чем на 60 дней, владельцы которых не осуществили оплату хранения.

    Каковы преимущества доставки с компанией IPS?

    Преимущества доставки с компанией IPS:

    • надежность доставки;
    • разумная и понятная стоимость доставки;
    • выполняемый срок доставки -7-12 дней;
    • наличие московского офиса, где всегда готовы помочь;
    • возможность покупки товаров, не доступных в России;
    • возможность покупки товаров в магазинах, не доставляющих товары в Россию;
    • возможность экономии на доставке, используя услугу консолидации отправления и переупаковки.
  • Какую информацию я должен указать в поле «Адрес доставки» при покупке товаров в интернет-магазинах?

    Вы должны ввести: адрес нашего зарубежного офиса, предоставленный Вам нашей компанией, Ваши Фамилию и Имя, номер Вашего почтового ящика.

    Должен ли я что-то Вам сообщить после совершения покупки и отправки посылки на предоставленный мне адрес?

    После осуществления заказа необходимо сообщить нам о совершенном заказе, предоставить данные заказа – описание вложения, его вес, стоимость. Эта информация необходима для обработки Ваших посылок.

    Существуют ли ограничения возможных вложений?

    С компанией IPS вы можете отправить посылку с любым вложением, не запрещенным законодательством Российской Федерации.

    К запрещенным вложениям относятся:

    • взрывчатые вещества,
    • легковоспламеняющиеся предметы,
    • радиоактивные материалы,
    • сжатый газ,
    • огнестрельное оружие,
    • любые предметы, которые, по своей природе упаковки могут привести к травме сотрудников IPS или вызвать повреждение других предметов.

    С полным перечнем запрещенных вложений вы сможете ознакомиться .

    Перед тем как сделать покупку в интернет-магазине, пожалуйста, убедитесь, что ваша покупка не относится к категории опасных грузов.

    Гарантирует ли IPS подлинность и качество приобретенного мною продукта?

    IPS не несет ответственности перед клиентом за подлинность и качество приобретенного им товара. В целях собственной безопасности, пожалуйста, приобретайте товары только в проверенных интернет-магазинах.

    Как правильно упаковать посылку?

    Тем не менее, если это необходимо, пожалуйста, обеспечьте надлежащую упаковку вашего отправления, либо проинформируйте сотрудников IPS о необходимости дополнительной упаковки вашей посылки.

    Мы не несем ответственность за любые убытки и повреждения, которые могут возникнуть во время обработки, перевозки или доставки вследствие ненадлежащей упаковки посылки отправителем.

    Какие документы необходимо предоставить для подтверждения оценочной стоимости отправки?

    Необходимо предоставить инвойс, подготовленный отправителем, указанные в нем суммы должны включать все налоги, а также все другие возможные сборы.

    В каких интернет-магазинах я могу совершать покупки?

    Что делать, если продавец выслал не тот товар / не правильное количество товара?

    Так как компания IPS осуществляет только доставку вашей посылки в Россию, все вопросы, касательно комплектации и соответствия товара, а так же возможность обмена, либо возврата необходимо решать непосредственно с продавцом или отправителем.

    Я хочу приобрести ювелирные изделия из драгоценных металлов с драгоценными камнями. Это возможно?

    Нет. Мы не доставляем изделия из драгоценных металлов и/или с драгоценными камнями.

    Когда я буду знать конечную стоимости доставки?

    Только после того, как посылка поступит на наш, выбранный Вами, зарубежный склад.

    Как только ваша посылка будет обработана, вы будете уведомлены по электронной почте относительно сроков доставки и конечной стоимости доставки. Вашей посылке будет присвоен персональный номер, вы сможете, следуя инструкциям в письме, оплатить стоимость доставки и отследить статус своего отправления.

    В случае, если вы хотите произвести консолидацию вашего отправления, необходимо производить оплату после окончательного формирования посылки.

    Клиенту, абонирующему почтовый ящик, не нужно совершать никаких оплат до получения своей корреспонденции/посылок в московском офисе IPS.

    Если я решил отказаться от доставки в Россию посылки, которая пришла на мое имя в зарубежный офис IPS, будут ли с меня удержаны какие-то суммы, если будет необходимо вернуть посылку отправителю или уничтожить её?

    Если по какой-либо причине вы решили остановить доставку в Россию вашей посылки, пожалуйста, срочно переговорите с вашим отправителем, чтобы он не отправлял на адрес IPS вашу посылку.

    В случае, если посылка все же пришла на адрес склада IPS, мы можем по вашему указанию, отправить посылку обратно (или переправить на другой адрес) с удержанием 10$ административного сбора, а также 100% стоимости затрат на возврат/доставку посылки.

    Так же мы можем утилизировать посылку с удержанием 10$ административного сбора (для посылок, не превышающих 15 кг). В случае хранения посылки более, чем 21 день, IPS взимает оплату в размере $.50 в день за одну посылку.

    Каков минимальный оплачиваемый вес доставляемой посылки?

    Для клиентов, абонирующих почтовый ящик - минимальный оплачиваемый вес составляет 1 фунт с последующим шагом в 0,1 фунт.

ИПС (информационно-поисковая система) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска – релевантность.

Релевантность – это соответствие результатов поиска сформулированному запросу.

По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера.

Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное – по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

Кроме того, ИПС также могут специализироваться по поиску различных источников информации, например, документов WWW, файлов, адресов и т.д.

Рассмотрим подробнее основные задачи, которые должны решить разработчики ИПС. Как следует из определения, ИПС для WWW проводят поиск в собственной базе (индексе) с описанием распределенных источников информации.

Следовательно, сначала нужно описать информационные ресурсы и создать индекс. Построение индекса начинается с определения начального набора URL источников информации. Затем проводится процедура индексирования.

Индексирование – описание источников информации и построение специальной базы данных (индекса ) для эффективного поиска.

В некоторых информационно-поисковых системах описание источников информации проводится персоналом ИПС, то есть, людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка аннотаций по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет совершенно адекватно источнику. Правда, в этом случае процедура описания занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как в тематических каталогах библиотек.

В ИПС второго типа процедура описания информационных ресурсов автоматизирована. Для этого разрабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимости от его значимости. Например, если слово находится в названии Web-страницы, робот пометит этот факт для себя. Поскольку описание автоматизировано, затраты времени невелики, и индекс может оказаться очень большим по размеру.

Следовательно, следующей задачей для ИПС второго типа является разработка робота-индексировщика. Для поиска в системах данного типа пользователю придется научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запроса. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого языка запросов разрабатывается механизм поиска и алгоритм сортировки результатов поиска. Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты.

Не последнее значение имеет внешний вид поисковой системы, предстающий перед пользователем, поэтому одной из задач является разработка удобного и красивого интерфейса. Наконец, исключительно важна форма представления результатов поиска, поскольку пользователю необходимо узнать как можно больше о найденном источнике информации, чтобы принять правильное решение о необходимости его посещения.

Для обращения к поисковому серверу пользователь использует стандартную программу-клиент для всемирной паутины, то есть браузер. По адресу домашней страницы ИПС пользователь работает с интерфейсом поисковой системы, который служит для общения пользователя с поисковым аппаратом системы (системой формирования запросов и просмотра результатов поиска).

Информационно-поисковые системы

Основным компонентом ИПС является поисковая машина, которая служит для перевода запроса пользователя в формальный запрос системы, поиска ссылок на информационные ресурсы и выдачи результатов поиска пользователю.

Как уже говорилось ранее, поиск осуществляется в специальной базе, именуемой индексом. Архитектура индекса устроена таким образом, чтобы поиск проходил максимально быстро, и при этом можно было отследить ценность каждого из найденных ресурсов. Некоторые системы сохраняют запросы пользователя в его личной базе данных, поскольку на отладку каждого запроса уходит много времени, и чрезвычайно важно хранить запросы, на которые получен удовлетворительный ответ.

Робот-индексировшик – программа, которая служит для сканирования Интернет и поддержки базы данных индекса в актуальном состоянии.

Web-сайты – те информационные ресурсы, доступ к которым обеспечивает ИПС.

Как известно, Web-страница – это сложный документ, состоящий из множества элементов. При описании подобного документа программой-роботом необходимо учитывать, в какой именно части Web-страницы встретилось данное слово. Источниками индексирования для документов WWW являются:

    Заголовки (Title).

    Заглавия.

    Аннотация (Description).

    Списки ключевых слов (KeyWords).

    Полные тексты документов.

Кстати, поисковые системы, которые описывают абсолютно весь текст документа WWW, называются полнотекстовыми.

Для того, чтобы описать файл в ресурсе FTP используется URL. Для описания статьи в группе новостей источниками индексирования являются поля Тема (Subject) и Keywords (ключевые слова).

Во время процедуры индексирования часто производится нормализация лексики (приведение слова к базовой форме), некоторые неинформативные слова, например, союзы или предлоги, игнорируются. В каждой ИПС существует свой список называемых стоп-слов, которые игнорируются в процессе индексирования. В системах с сильно изменяемыми языками, например, русским, проводится учет морфологии.

Учет морфологии означает умение работать с различными формами слов конкретного языка.

Здесь следует отметить достаточную сложность русского языка, слова которого изменяются по числам, падежам, родам и временам, причем зачастую неожиданным образом. Например: идет, шел, пойдет, идут и т.д. Все существующие ИПС с учетом морфологии русского языка используют "Грамматический словарь русского языка", составленным Андреем Анатольевичем Зализняком. Словарь включает 90000 словарных статей, по каждому слову даются сведения о том, изменяемо ли оно, и как именно оно склоняется или спрягается.

Из вышеизложенного следует, что основными инструментами поиска информации в WWW являются ИПС.

Однако в Интернет существуют средства поиска, имеющие принципиальные отличия от рассмотренных выше ИПС. В общем случае, можно выделить следующие поисковые инструменты для WWW:

    поисковые системы,

    метапоисковые системы и программы ускоренного поиска.

Центральное место по праву принадлежит поисковым системам, которые в свою очередь подразделяются на каталоги, автоматические индексы (поисковые машины) и каталоги-индексы. Только поисковые системы почти в полном объеме обладают возможностями и свойствами ИПС.

Каталог – поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.

Рассмотрим особенности систем-каталогов.

Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины.

База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса.

Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.

Среди самых популярных зарубежных каталогов можно упомянуть: Yahoo (www.yahoo.com), Magellan (www.mckinley.com),

Российские каталоги: @Rus (www.atrus.ru); Weblist (www.weblist.ru); Созвездие интернет (www.stars.ru).

Поисковая система – система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.

Отличительной чертой поисковых систем является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками.

Зарубежные поисковые машины (системы):

Google - www.google.com (примерно 38% охвата русскоязычных запросов)

Altavista- www.altavista.com

Excite www.excite.com

HotBot - www.hotbot.com

Nothern Light- www.northernlight.com

Go (Infoseek) www.go.com (infoseek.com)

Fast www.alltheweb.com

Российские поисковые машины:

Яndex - www.yandex.ru (или www.ya.ru) (48% охвата русскоязычных запросов)

Рэмблер - www.rambler.ru

Апорт- www.aport.ru

Метапоисковая система – система, не имеющая своего индекса, способная послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

6 Принципы работы метапоисковых систем. Механизмы поиска в интернет. Язык запросов.

При работе метапоисковой системы из полученного от поисковых систем множества документов необходимо выделить наиболее релевантные, то есть соответствующие запросу пользователя.

Простейшие метапоисковые системы реализуют стандартный подход, представленный на рис. 1. В таких системах анализ полученных описаний документов не производится, что может поставить нерелевантные документы, идущие первыми в одной поисковой системе, выше релевантных в другой, чем существенно понизить качество самого поиска.

Рис.1 Стандартная метапоисковая система

При разработке следующего поколения метапоисковых систем были учтены недостатки, присущие стандартным метапоисковым системам. Были созданы системы с возможностью выбора тех поисковых машин, в которых, по мнению пользователя, он с большей вероятностью может найти то, что ему нужно (рис. 2)

Рис. 2. Следующее поколение метапоисковых систем

Кроме этого, такой подход позволяет уменьшить используемые вычислительные ресурсы метапоискового сервера, не перегружая его слишком большим объемом ненужной информации и серьезно сэкономить трафик. Здесь нужно отметить, что в любой системе метапоиска наиболее узким местом в основном является пропускная способность канала передачи данных, так как обработка страниц с результатами поиска, полученными от нескольких десятков поисковых серверов не является слишком трудоемкой операцией, потому что затраты времени на обработку информации на порядки меньше времени прихода страниц, запрошенных у поисковых серверов.

Как пример систем, имеющих подобную организацию, можно назвать Profusion,Ixquick,SavvySearch,MetaPing.

Примером метапоисковой системы является Nigma (Нигма. РФ) - российская интеллектуальнаяметапоисковаясистема.

Программа ускоренного поиска – это программа с возможностями метапоисковой системы, устанавливаемая на локальном компьютере.

Принципиальным отличием метапоисковых систем и программ ускоренного поиска от ИПС является отсутствие своего собственного индекса. Зато они превосходно умеют использовать результаты работы других поисковых систем.

Механизмы поиска

Обобщенная технология поиска состоит из следующих этапов:

    Пользователь формулирует запрос

    Система проводит поиск документов (или их поисковых образов)

    Пользователь получает результат (сведения о документах)

    Пользователь совершенствует или реформирует запрос

    Организация нового поиска...

Как правило, поисковые машины поддерживают два режима: режим простого поиска и режим расширенного поиска. Рассмотрим обобщенные возможности.

Формирования запроса в режиме простого поиска. Можно просто вводить через пробел одно или несколько слов; поиск слов со всевозможными окончаниями моделируется символом * в конце слова. Многие системы позволяют искать словосочетания или фразу, для этого необходимо ее заключить в кавычки. Возможно обязательное включение или исключение определенных слов.

Основная проблема поиска по примитивно составленному запросу (в виде перечисления ключевых слов) заключается в том, что поисковая машина найдет все страницы, на которых указанные слова встречаются в любой части документа. Как правило, количество найденных страниц будет слишком велико.

Для улучшения качества поиска в режиме простого поиска допустимо использование логических операторов и операторов, позволяющих ограничить область поиска, а также выбор определенной категории документов из представленного списка.

Многие поисковые системы включают в свой язык составления запросов специальные операторы, позволяющие проводить поиск в определенных зонах документа, например, в его заголовке, или искать документ по известной части его адреса.

Режим расширенного или детального запроса в разных системах реализован индивидуально, но чаще всего это бланк, в котором упомянутые операторы и ключевые элементы реализуются простой установкой соответствующих флажков или выбором параметров из списка.

Ниже в качестве примера приведены сведения из раздела помощь поисковой системы Yandex: окно расширенного поиска, язык запросов, искать в найденном.

Искать в найденном Если в результате запроса Яндекс нашел много документов, но по более широкой теме, чем вам хочется, вы можете сократить этот список, уточнив запрос. Еще один вариант - включить флажок в найденном в форме поиска, задать дополнительные ключевые слова, и следующий поиск будет вестись только по тем документам, которые были отобраны в предыдущем поиске.

Памятка по использованию языка запросов

Значение

"К нам на утренний рассол"

Слова идут подряд в точной форме

"Прибыл * посол"

Пропущено слово в цитате

полгорбушки & мосол

Слова в пределах одного предложения

снаряжайся && добудь

Слова в пределах одного документа

глухаря | куропатку | кого-нибудь

Поиск любого из слов

не смогешь << винить

Неранжирующее "и": выражение после оператора не влияет на позицию документа в выдаче

я должон /2 казнить

Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово)

нешто я ~~ пойму

Исключение слова пойму из поиска

при моем /+2 уму

Расстояние в пределах двух слов в прямом порядке

чай ~ лаптем

Поиск предложения, где слово чай встречается без слова лаптем

щи /(-1 +2) хлебаю

Расстояние от одного слова в обратном порядке до двух слов в прямом

Соображаю!что!чему

Слова в точной форме с заданным регистром

получается && (+на | !мне)

Скобки формируют группы в сложных запросах

Политика

Словарная форма слова

title:(в стране)

Поиск по заголовкам документов

url:ptici.narod.ru/ptici/kuropatka.htm

Поиск по URL

беспременно inurl:vojne

Поиск с учетом фрагмента URL

Поиск по хосту

Поиск по хосту в обратной записи

site:http://www.lib.ru/PXESY/FILATOW

Поиск по всем поддоменам и страницам заданного сайта

Поиск по одному типу файлов

Поиск с ограничением по языку

Поиск с ограничением по домену

Поиск с ограничением по дате

государственное дело && /3 улавливаешь нить

Расстояние в 3 предложения в любую сторону

нешто я ~~ пойму

Исключение слова пойму из поиска

Интересной возможностью является поиск документов в сети, ссылающиеся на страницу с указанным вами адресом (URL). Таким образом, можно найти в сети страницы, на которых есть ссылки на ваш Web-сайт. Некоторые системы позволят ограничить область поиска внутри указанного домена.

В качестве дополнительных специальных операторов можно выделить:

    Операторы поиска документов с определенным графическим файлом;

    Операторы ограничения по дате искомых страниц;

    Операторы близости между словами;

    Операторы учета словоформы;

    Операторы сортировки результатов (по релевантности, свежести, старости).

Следует заметить, что, к великому сожалению, на сегодняшний день не существует стандарта на количество и синтаксис поддерживаемых операторов для различных поисковых систем. Попытки разработать стандарт на синтаксис поддерживаемых операторов предпринимаются, поэтому есть надежда на то, что разработчики поисковых систем позаботятся об удобстве пользователей. На данном этапе развития средств поиска, пользователь, обращаясь к определенной поисковой системе, непременно должен в первую очередь ознакомиться с ее правилами составления запросов. Как правило, на домашней странице будет обязательно присутствовать ссылка Помощь (Help), по которой вы перейдете к справочной информации.

Различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых системах.

Рассмотрим способы представления результатов поиска в поисковых машинах.

Чаще всего количество найденных документов превышает несколько десятков, а в отдельных случаях может достигать сотен тысяч! Поэтому в качестве формы выдачи составляется список документов по 5-10-15 единиц на странице с возможностью перехода к следующей порции внизу страницы. Обязательно указывается заголовок и URL(адрес) найденного документа, иногда система указывает в процентах степень релевантности документа.

В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов).

Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов.

Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания.

Однако, автоматизация определение похожести – весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

17.03.1996 Павел Храмцов

Пользователям Internet хорошо известны названия таких сервисов и информационных служб, как Lycos, AltaVista, Yahoo, OpenText, InfoSeek и др. - без услуг этих систем сегодня практически нельзя найти что-либо полезное в море информационных ресурсов Сети. Что собой представляют эти сервисы изнутри, как они устроены, почему результат поиска в терабайтных массивах информации осуществляется достаточно быстро и как устроено ранжирование документов при выдаче - все это обычно остается за кадром. Тем не менее без правильного планирования стратегии поиска, знакомства с основными положениями теории ИПС (Информационно-Поисковых Систем), насчитывающей уже двадцатилетнюю историю, трудно эффективно использовать даже такие скорострельные сервисы, как AltaVista или Lycos. Архитектура современных ИПС для WWW Информационные ресурсы и их представление в ИПС Индекс поиска Информационно-поисковый язык системы Интерфейс системы Заключение Литература Пользователям Internet уже хорошо известны названия таких сервисов

Пользователям Internet хорошо известны названия таких сервисов и информационных служб, как Lycos, AltaVista, Yahoo, OpenText, InfoSeek и др. - без услуг этих систем сегодня практически нельзя найти что-либо полезное в море информационных ресурсов Сети. Что собой представляют эти сервисы изнутри, как они устроены, почему результат поиска в терабайтных массивах информации осуществляется достаточно быстро и как устроено ранжирование документов при выдаче - все это обычно остается за кадром. Тем не менее без правильного планирования стратегии поиска, знакомства с основными положениями теории ИПС (Информационно-Поисковых Систем), насчитывающей уже двадцатилетнюю историю, трудно эффективно использовать даже такие скорострельные сервисы, как AltaVista или Lycos.

Информационно-поисковые системы появились на свет достаточно давно. Теории и практике построения таких систем посвящено множество статей, основная масса которых приходится на конец 70-х - начало 80-х годов. Среди отечественных источников следует выделить научно-технический сборник "Научно-техническая информация. Серия 2", который выходит до сих пор. На русском языке издана так же и "библия" по разработке ИПС - "Динамические библиотечно-информационные системы" Ж. Солтона , в которой рассмотрены основные принципы построения информационно-поисковых систем и моделирования процессов их функционирования. Таким образом, нельзя сказать, что с появлением Internet и бурным вхождением его в практику информационного обеспечения появилось нечто принципиально новое, чего не было раньше. Если быть точным, то ИПС в Internet - это признание того, что ни иерархическая модель Gopher, ни гипертекстовая модель World Wide Web еще не решают проблему поиска информации в больших объемах разнородных документов. И на сегодняшний день нет другого способа быстрого поиска данных, кроме поиска по ключевым словам.

При использовании иерархической модели Gopher приходится довольно долго бродить по дереву каталогов, пока не встретишь нужную информацию. Эти каталоги должны кем-то поддерживаться, и при этом их тематическое разбиение должно совпадать с информационными потребностями пользователя. Учитывая анархичность Internet и огромное количество всевозможных интересов у пользователей Сети, понятно, что кому-то может и не повезти и в сети не будет каталога, отражающего конкретную предметную область. Именно по этой причине для множества серверов Gopher, называемого GopherSpace была разработана информационно-поисковая программа Veronica (Very Easy Rodent-Oriented Net-wide Index of Computerized Archives).

Аналогичное развитие событий наблюдается и в World Wide Web. Собственно еще в 1988 году в специальном выпуске журнала "Communication of the ACM" среди прочих проблем разработки гипертекстовых систем и их использования Франк Халаз назвал в качестве первоочередной задачи для следующего поколения систем этого типа назвал проблему организации поиска информации в больших гипертекстовых сетях. До сих пор многие идеи, высказанные в той статье, не нашли еще своей реализации. Естественно, что система, предложенная Бернерсом-Ли и получившая такое широкое распространение в Internet, должна была столкнуться с теми же проблемами, что и ее локальные предшественники. Реальное подтверждение этому было продемонстрировано на второй конференции по World Wide Web осенью 1994 года, на которой были представлены доклады о разработке информационно-поисковых систем для Web, а система World Wide Web Worm, разработанная Оливером МакБрайном из Университета Колорадо, получила приз как лучшее навигационное средство. Следует также отметить, что все-таки долгая жизнь суждена отнюдь не чудесным программам талантливых одиночек, а средствам, являющимся результатом планового и последовательного движения научных и производственных коллективов к поставленной цели. Рано или поздно этап исследований заканчивается, и наступает этап эксплуатации систем, а это уже совсем другой род деятельности. Именно такая судьба ожидала два других проекта, представленных на той же конференции: Lycos, поддерживаемый компанией Microsoft, и WebCrawler, ставший собственностью America On-line.

Разработка новых информационных систем для Web не завершена. Причем как на стадии написания коммерческих систем, так и на стадии исследований. За прошедшие два года снят только верхний слой возможных решений. Однако многие проблемы, которые ставит перед разработчиками ИПС Internet, не решены до сих пор. Именно этим обстоятельством и вызвано появление проектов типа AltaVista компании Digital , главной целью которого является разработка программных средств информационного поиска для Web и подбор архитектуры для информационного сервера Web.

Архитектура современных ИПС для WWW

Прежде чем описать проблемы построения информационно-поисковых систем Web и пути их решения рассмотрим типовую схему такой системы. В различных публикациях, посвященных конкретным системам, например , приводятся схемы, которые отличаются друг от друга только способом применения конкретных программных решений, а не принципом организации различных компонентов системы. Поэтому рассмотрим эту схему на примере, взятом из работы (рис.).

Рис. Типовая схема информационно-поисковой системы.

Client (клиент) на этой схеме - это программа просмотра конкретного информационного ресурса. Наиболее популярны сегодня мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.

User interface (пользовательский интерфейс) - это не просто программа просмотра, в случае информационно-поисковой системы под этим словосочетанием понимают также способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска.

Search engine (поисковая машина) - служит для трансляции запроса на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.

Index database (индекс базы данных) - индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.

Queries (запросы пользователя) - сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.

Index robot (робот-индексировщик) - служит для сканирования Internet и поддержания базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.

WWW sites - это весь Internet или точнее - информационные ресурсы, просмотр которых обеспечивается программами просмотра.

Рассмотрим теперь назначение и принципу построения каждого из этих компонентов более подробно и определим, в чем отличие данной системы от традиционной ИПС локального типа.

Информационные ресурсы и их представление в ИПС

Как видно из рисунка, документальным массивом ИПС Internet является все множество документов шести основных типов: WWW-страницы, Gopher-файлы, документы Wais, записи архивов FTP, новости Usenet и статьи почтовых списков рассылки. Все это довольно разнородная информация, которая представлена в виде различных, никак несогласованных друг с другом форматов данных: тексты, графическая и аудиоинформация и вообще все, что имеется в указанных хранилищах. Естественно возникает вопрос - как информационно-поисковая система должна со всем этим работать?

В традиционных системах используется понятие поискового образа документа - ПОД. Обычно, этим термином обозначают нечто, заменяющее собой документ и использующееся при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью является векторная модель , в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Если быть более точным, то документу приписывается вектор размерности, равный числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД. В более сложных моделях термины взвешиваются - элемент вектора равен не 1 или 0, а некоторому числу (весу), отражающему соответствие данного термина документу. Именно последняя модель стала наиболее популярной в ИПС Internet .

Вообще говоря, существуют и другие модели описания документов: вероятностная модель информационных потоков и поиска и модель поиска в нечетких множествах . Не вдаваясь в подробности, имеет смысл обратить внимание на то, что пока только линейная модель применяется в системах Lycos, WebCrawler, AltaVista, OpenText и AliWeb. Однако ведутся исследования по применению и других моделей, результаты которых отражены в работах . Таким образом, первая задача, которую должна решить ИПС, - это приписывание списка ключевых слов документу или информационному ресурсу. Именно эта процедура и называется индексированием. Часто, однако, индексированием называют составление файла инвертированного списка, в котором каждому термину индексирования ставится в соответствие список документов в которых он встречается. Такая процедура является только частным случаем, а точнее, техническим аспектом создания поискового аппарата ИПС. Проблема, связанная с индексированием, заключается в том, что приписывание поискового образа документу или информационному ресурсу опирается на представление о словаре, из которого эти термины выбираются, как о фиксированной совокупности терминов. В традиционных системах существовало разбиение на системы с контролируемым словарем и системы со свободным словарем. Контролируемый словарь предполагал ведение некоторой лексической базы данных, добавление терминов в которую производилось администратором системы, и все новые документы могли быть заиндексированы только теми терминами, которые были в этой базе данных. Свободный словарь пополнялся автоматически по мере появления новых документов. Однако на момент актуализации словарь также фиксировался. Актуализация предполагала полную перезагрузку базы данных. В момент этого обновления перегружались сами документы, и обновлялся словарь, а после его обновления производилась переиндексация документов. Процедура актуализации занимала достаточно много времени и доступ к системе в момент ее актуализации закрывался.

Теперь представим себе возможность такой процедуры в анархичном Internet, где ресурсы появляются и исчезают ежедневно. При создании программы Veronica для GopherSpace предполагалось, что все серверы должны быть зарегистрированы, и таким образом велся учет наличия или отсутствия ресурса. Veronica раз в месяц проверяла наличие документов Gopher и обновляла свою базу данных ПОД для документов Gopher. В WWW ничего подобного нет. Для решения этой задачи используются программы сканирования сети или роботы-индексировщики . Разработка роботов - это довольно нетривиальная задача; существует опасность зацикливания робота или его попадания на виртуальные страницы. Робот просматривает сеть, находит новые ресурсы, приписывает им термины и помещает в базу данных индекса. Главный вопрос заключается в том, что за термины приписывать документам, откуда их брать, ведь ряд ресурсов вообще не является текстом. Сегодня роботы обычно используют для индексирования следующие источники для пополнения своих виртуальных словарей: гипертекстовые ссылки, заголовки, заглавия (H1,H2), аннотации, списки ключевых слов, полные тексты документов, а также сообщения администраторов о своих Web-страницах . Для индексирования telnet, gopher, ftp, нетекстовой информации используются главным образом URL, для новостей Usenet и почтовых списков поля Subject и Keywords. Наибольший простор для построения ПОД дают HTML документы. Однако не следует думать, что все термины из перечисленных элементов документов попадают в их поисковые образы. Очень активно применяются списки запрещенных слов (stop-words), которые не могут быть употреблены для индексирования, общих слов (предлоги, союзы и т.п.). Таким образом даже то, что в OpenText, например, называется полнотекстовым индексированием реально является выбором слов из текста документа и сравнением с набором различных словарей, после которого термин попадает в ПОД, а потом и в индекс системы. Для того чтобы не раздувать словарей и индексов (индекс системы Lycos уже сегодня равен 4 Тбайт), применяется такое понятие, как вес термина . Документ обычно индексируется через 40 - 100 наиболее "тяжелых" терминов.

Индекс поиска

После того как ресурсы заиндексированы и система составила массив ПОД, начинается построение поискового аппарата. Совершенно очевидно, что лобовой просмотр файла или файлов ПОД займет много времени, что абсолютно не приемлемо для интерактивной системы WWW. Для ускорения поиска строится индекс, которым в большинстве систем является набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зависят от многих факторов: размер массива поисковых образов, информационно-поисковый язык, размещения различных компонентов системы и т.п. Рассмотрим структуру индекса на примере системы , для которой можно реализовывать не только примитивный булевый, но и контекстный и взвешенный поиск, а также ряд других возможностей, отсутствующие во многих поисковых системах Internet, например Yahoo. Индекс рассматриваемой системы состоит из таблицы идентификаторов страниц (page-ID), таблицы ключевых слов (Keyword-ID), таблицы модификации страниц, таблицы заголовков, таблицы гипертекстовых связей, инвертированного (IL) и прямого списка (FL).

Page-ID отображает идентификаторы страниц в их URL, Keyword-ID - каждое ключевое слов в уникальный идентификатор этого слова, таблица заголовков - идентификатор страницы в заголовок страницы, таблица гипертекстовых ссылок - идентификатор страниц в гипертекстовую ссылку на эту страницу. Инвертированный список ставит в соответствие каждому ключевому слову документа список пар - идентификатор страницы, позиция слова в странице. Прямой список - это массив поисковых образов страниц. Все эти файлы так или иначе используются при поиске, но главным среди них является файл инвертированного списка. Результат поиска в данном файле - это объединение и/или пересечение списков идентификаторов страниц. Результирующий список, который преобразовывается в список заголовков, снабженных гипертекстовыми ссылками возвращается пользователю в его программу просмотра Web. Для того чтобы быстро искать записи инвертированного списка, над ним надстраивается еще несколько файлов, например, файл буквенных пар с указанием записей инвертированного списка, начинающихся с этих пар. Кроме этого, применяется механизм прямого доступа к данным - хеширование. Для обновления индекса используется комбинация двух подходов. Первый можно назвать коррекцией индекса "на ходу" с помощью таблицы модификации страниц. Суть такого решения довольно проста: старая запись индекса ссылается на новую, которая и используется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление индекса - его перезагрузка. Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса. Как правило, способ организации этих массивов является "секретом фирмы" и ее гордостью. Для того чтобы убедиться в этом, достаточно почитать материалы OpenText .

Информационно-поисковый язык системы

Индекс - это только часть поискового аппарата, скрытая от пользователя. Второй частью этого аппарата является информационно-поисковый язык (ИПЯ), позволяющий сформулировать запрос к системе в простой и наглядной форме. Уже давно осталась позади романтика создания ИПЯ, как естественного языка, - именно этот подход использовался в системе Wais на первых стадиях ее реализации. Если даже пользователю предлагается вводить запросы на естественном языке, то это еще не значит, что система будет осуществлять семантический разбор запроса пользователя. Проза жизни заключается в том, что обычно фраза разбивается на слова, из которых удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR. Таким образом, запрос типа:

>Software that is used on Unix Platform

будет преобразован в:

>Unix AND Platform AND Software

что будет означать примерно следующее: "Найди все документы, в которых слова Unix, Platform и Software встречаются одновременно ".

Возможны и варианты. Так, в большинстве систем фраза "Unix Platform" будет опознана как ключевая фраза и не будет разделяться на отдельные слова. Другой подход заключается в вычислении степени близости между запросом и документом. Именно этот подход используется в Lycos. В этом случае в соответствии с векторной моделью представления документов и запросов вычисляется их мера близости. Сегодня известно около дюжины различных мер близости. Наиболее часто применяется косинус угла между поисковым образом документа и запросом пользователя. Обычно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.

Наиболее развитым языком запросов из современных ИПС Internet обладает Alta Vista. Кроме обычного набора AND, OR, NOT эта система позволяет использовать еще и NEAR, позволяющий организовать контекстный поиск. Все документ в системе разбиты на поля, поэтому в запросе можно указать, в какой части документа пользователь надеется увидеть ключевое слово: ссылка, заглавие, аннотация и т.п. Можно также задавать поле ранжирования выдачи и критерий близости документов запросу.

Интерфейс системы

Важным фактором является вид представления информации в программе-интерфейсе. Различают два типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

При составлении запроса к системе используют либо меню - ориентированный подход, либо командную строку. Первый позволяет ввести список терминов, обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. На схеме из рисунка указаны сохраненные запросы пользователя - в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска - список идентификаторов документов, который объединяется/пересекается со списком, полученным при поиске документов по новым терминам. К сожалению, сохранение списка идентификаторов найденных документов в WWW не практикуется, что было вызвано особенностью протоколов взаимодействия программы-клиента и сервера, не поддерживающих сеансовый режим работы.

Итак, результат поиска в базе данных ИПС - это список указателей на удовлетворяющие запросу документы. Различные системы представляют этот список по-разному. В некоторых выдается только список ссылок, а в таких, как Lycos, Alta Vista и Yahoo, дается еще и краткое описание, которое заимствуется либо из заголовков, либо из тела самого документа. Кроме этого, система сообщает, на сколько найденный документ соответствует запросу. В Yahoo, например, это количество терминов запроса, содержащихся в ПОД, в соответствии с которым ранжируется результат поиска. Система Lycos выдает меру соответствия документа запросу, по которой производится ранжирование.

При обзоре интерфейсов и средств поиска нельзя пройти мимо процедуры коррекции запросов по релевантности . Релевантность - это мера соответствия найденного системой документа потребности пользователя. Различают формальную релевантность и реальную. Первую вычисляет система, и на основании чего ранжируется выборка найденных документов. Вторая - это оценка самим пользователем найденных документов. Некоторые системы имеют для этого специальное поле , где пользователь может отметить документ как релевантный. При следующей поисковой итерации запрос расширяется терминами этого документа, а результат снова ранжируется. Так происходит до тех пор, пока не наступит стабилизация, означающая, что ничего лучше, чем полученная выборка, от данной системы не добьешься.

Кроме ссылок на документы в списке, полученном пользователем, могут оказаться ссылки на части документов или на их поля. Это происходит при наличии ссылок типа http://host/path#mark или ссылок по схеме WAIS. Возможны ссылки и на скрипты, но обычно такие ссылки роботы пропускают, и система их не индексирует. Если с http-ссылками все более или менее понятно, то ссылки WAIS - это гораздо более сложные объекты. Дело в том, что WAIS реализует архитектуру распределенной информационно-поисковой системы, при которой одна ИПС, например Lycos, строит поисковый аппарат над поисковым аппаратом другой системы - WAIS. При этом серверы WAIS имеют свои собственные локальные базы данных. При загрузке документов в WAIS администратор может описать структуру документов, разбив их на поля, и хранить документы в виде одного файла. Индекс WAIS будет ссылаться на отдельные документы и их поля как на самостоятельные единицы хранения, программа просмотра ресурсов Internet в этом случае должна уметь работать с протоколом WAIS, чтобы получить доступ к этим документам.

Заключение

В обзорной статье были рассмотрены основные элементы информационно-поисковых систем и принципы их построения. Сегодня ИПС являются наиболее мощным механизмом поиска сетевых информационных ресурсов Internet. К сожалению, в российском секторе Internet пока не наблюдается активного изучения этой проблемы за исключением, может быть, проекта LIBWEB, финансируемого РФФИ и системы "Паук", которая работает недостаточно надежно. Наибольшим опытом разработки такого сорта систем безусловно обладает ВИНИТИ, но здесь работа сосредоточена пока на размещении своих собственных ресурсов в Сети, что принципиально отличается от информационно-поисковых систем Internet типа Lycos, OpenText, Alta Vista, Yahoo, InfoSeek и т.п. Казалось бы, что такая работа могла быть сосредоточена в рамках таких проектов, как Россия On-line компании SovamTeleport, но здесь мы пока наблюдаются ссылки на чужие поисковые машины. Развитие ИПС для Internet в США началось два года назад, учитывая отечественные реалии и темпы развития технологий Сети в России, можно надеяться, что у нас еще все впереди.

Литература

1. Дж. Солтон. Динамические библиотечно-информационные системы. Мир, Москва, 1979.
2. Frank G. Halasz. Reflection notecards: seven issues for the next generation of hypermedia systems. Communication of the acm, V31, N7, 1988, p.836-852.
3. Tim Berners-Lee. World Wide Web: Proposal for HyperText Project. 1990.
4. Alta Vista . Digital Equipment Corporation, 1996.
5. Brain Pinkerton. Finding What People Want: Experiences with the WebCrawler .
6. Bodi Yuwono, Savio L.Lam, Jerry H.Ying, Dik L.Lee. .
7. Martin Bartschi. An Overview of Information Retrieval Subjects. IEEE Computer, N5, 1985,p.67-84.
8. Michel L. Mauldin, John R.R. Leavitt. Web Agent Related Research at the Center for Machine Translation .
9. Ian R.Winship. World Wide Web searching tools -an evaluation . VINE (99).
10. G.Salton, C.Buckley. Term-Weighting Approachs in Automatic Text Retrieval. Information Processing & Management, 24(5), pp. 513-523, 1988.
11. Open Text Corporation Releases Industry"s Highest Performance Text Retrieval System.

Павел Храмцов ([email protected]) - независимый эксперт, (Москва).



Семинар

Проектирование систем управления документами

Понятие информационно-поисковой системы (ИПС).

Состав компонент и технология работы с ИПС.

В работе современных предприятий важную роль играют его информационные ресурсы, под которыми можно понимать проектную документацию, переписку с партнерами, внутренние приказы и распоряжения, финансовые данные и другие документы, которые служат основой для принятия новых решений и используются в процессах управления предприятием. И если для хранения структурированных данных можно применять специализированные информационные системы (типа бухгалтерской или торговой системы или системы планового отдела), основанные, на использовании СУБД, то для неструктурированных данных нужны системы общего назначения – электронные архивы, работающие на принципах информационно-поисковой системы.

Информационно-поисковая система (ИПС) – это система, предназначенная для хранения и поиска документов с текстовой, графической, табличной информацией по атрибутам, ключевым словам документа и содержанию в какой-либо предметной области. Выделяют ИПС двух типов: фактографические и документографические системы. ИПС фактографического типа предназначены для хранения и поиска фактов, показателей, характеристик каких-либо объектов или процессов (например, сведения о работниках, о предприятиях, акционерах и т.д.). Документографические ИПС отличаются тем, что объектом хранения и поиска в этих системах служат документы, отчеты, рефераты, обзоры, журналы, книги и т.д. Сценарий поиска документа при помощи ИПС обычно сводится к вводу запроса на поиск, состоящего из одного или нескольких слов, после чего предъявляется список имен найденных документов. Пользователь может открыть любой из найденных документов и если поисковая система позволяет, вхождения искомых слов в документе выделяются - «подсвечиваются». Можно выделить следующие особенности организации и



функционирования документографической ИПС, отличающие ее от систем управления базами структурированных данных: – Документы могут храниться на бумаге, микрографических носителях или существовать в электронных форматах. Микрографические форматы включают микрофильмы, микрофиши, слайды и другие микроформы, производимые разнообразными документными камерами. Электронные форматы еще многочисленнее, они включают документы, подготовленные в текстовых процессорах, системах электронной почты и других компьютерных программах, оцифрованные изображения прошедших сканирование документов и проч. При этом предполагается обязательное хранение как электронных копий документов, так и их бумажных оригиналов.

Если документы занимают большой объем и полные электронные копии выдавать на просмотр или хранить не возможно, то для таких документов создают и хранят электронные адреса их хранения.

Поиск осуществляется нахождением документа по двум принципам: по

атрибутам документа – дате создания, размеру, автору и пр. и по его содержанию (тексту). Обычно поиск по содержанию документа выполняется двумя способами: по ключевым словам и по всему тексту, который называют полнотекстовым, подчеркивая тем самым, что для поиска используется весь текст документа, а не только его реквизиты.

Для поиска документов создают и хранят их поисковые образы. Поисковый образ документа (ПОД) – совокупность кодов ведущих ключевых слов (дескрипторов), которые описывают смысл, содержание документа.

Ключевые слова и их коды хранятся в специальном словаре – тезаурусе .

Для того, чтобы осуществлять поиск документов, нужно создать информационно-поисковый язык (ИПЯ), в состав которого входит тезаурус и грамматика языка, т.е. совокупность правил задания множества высказываний на множестве ключевых слов.

Чтобы отыскать документ, нужно создать с помощью ИПЯ поисковый образ запроса (ПОЗ) , который представляет собой совокупность закодированных ключевых слов, описывающие те документы, которые нужно найти.

Схема взаимодействия компонент ИПС представлена на рис. 1.

Рис. 1. Схема взаимодействия компонент ИПС

ИПС состоит из следующих обеспечивающих подсистем:

Лингвистическое обеспечение, включающее в свой состав информационно-поисковый язык;

Техническое обеспечение системы, включающее ЭВМ и устройства создания, хранения, чтения и размножения копий на бумажных носителях, в микроформатах и в электронной форме;

Информационное обеспечение, состоящее из БД документов (БД Док.), адресов (БД Адр.) и БД поисковых образов документов (БД ПОД) и списков дескрипторов и их кодов - тезауруса;

Программное обеспечение.

Программное обеспечение ИПС предназначено для автоматизации следующих основных функций, которые должна выполнять эта система:

Составления, кодирования и загрузки базы данных ПОД;

Загрузки БД документов и их адресов хранения;

Составления, кодирования ПОЗ;

Выполнение операции поиска и выдачи ответа на запрос в виде документа или адресов хранения документов на экран ЭВМ, на бумагу, в файл;

Актуализация баз данных ПОД, документов и адресов;

Актуализация тезауруса;

Выдача справок.

Рассмотрим основные понятия, употребляемые в сфере поиска документов.

Релевантность - степень соответствия найденного документа запросу. Найденный по запросу документ может иметь отношение к запросу, т. е. содержать нужную (искомую) информацию, а может и не иметь никакого отношения. В первом случае документ называется релевантным (по-английски relevant - «относящийся к делу» ), во втором - нерелевантным , или шумовым. Как правило, в любой поисковой системе по запросу выдается несколько (чаще много) найденных документов. Многие из них могут повествовать не о том. И наоборот, некоторые важные, релевантные, документы могут быть пропущены при поиске. Ясно, что количество тех и других определяет качество поиска, которое можно определить достаточно точно. Основными понятиями в мире поисковых средств являются идеи точности и полноты поиска.

Точность поиска (Т) определяется тем, какая часть информации, выданная в ответ на запрос, является релевантной, т.е. относящейся к этому запросу и является параметром, показывающим, какова доля релевантных документов в общем числе найденных. Этот показатель рассчитывается по формуле:

Если, например, все выданные по запросу документы относятся к делу, то точность равна 100%; если, напротив, все документы шумовые, то точность поиска равна нулю.

Полнота поиска (П) - дополнительный параметр, показывающий, какова доля (или процент) найденных релевантных документов в общем количестве релевантных документов, т.е. характеризуется соотношением между всей релевантной информацией, имеющейся в базе, и той ее частью, которая включена в ответ и рассчитывается по формуле:

Если в области поиска на самом деле имеется 100 документов, содержащих нужную информацию, а по запросу найдено из них всего 30, то полнота поиска равна 30%. Кроме этого при оценке поисковых систем учитывается, с какими типами данных может работать та или иная система, в какой форме представляются результаты поиска и какой уровень подготовки пользователей необходим для работы в этой системе. Следует отметить, что точность поиска и его полнота зависят не только от свойств поисковой системы, но и от правильности построения конкретного запроса, а также от субъективного представления пользователя о том, какая нужна ему информация. Если стоит проблема оценки нескольких систем и выбора наиболее эффективной, можно вычислить средние значения полноты и точности рассматриваемых конкретных систем, протестировав их на эталонной базе документов.

Индексация документов (т.е. составление ПОД), которая означает предварительную подготовку текстов для поиска и применяется главным образом для ускорения поиска; как правило, текстовые базы данных, предназначенные для многократного поиска, обрабатывают заранее, составляя так называемый индекс (ПОД) . При индексации поисковая система составляет списки слов, встречающихся в тексте, и приписывает каждому слову его код - координаты в тексте (чаще всего номер документа и номер слова в документе). При поиске слово ищется в индексе, и по найденным координатам выдаются нужные документы. Если слов в запросе несколько, над их координатами производится операция пересечения. В том случае, если множество документов пополняется, приходится пополнять и индекс.

Единица поиска - это квант текста, в пределах которого в данной поисковой системе осуществляется поиск, от величины которого зависит показатель точности поиска, величина шума и время ответа на запрос. Единицей поиска может быть документ, предложение или абзац. В технологии использования ИПС можно выделить три группы операций:

Операции, связанные с получением поисковых образов документов (ПОД), описывающих содержание документов и загрузкой их в базу данных (БД ПОД), а также загрузкой самих документов или их адресов хранения в БДДок и БДАдр.;

Операции составления поисковых образов запроса (ПОЗ) с использованием тезауруса, поиска и выдачи результатов на просмотр и отбор или файл или на печать найденных документов или списка адресов;

Операции ведения информационно-поисковой системы, включающие актуализацию БД ПОД, БДДок., БДАдр. и тезауруса вследствие возникновения и необходимости пополнения памяти системы новыми документами или ключевыми словами. В состав операций ведения ИПС входит также процедура выдачи справок о работе системы, о ее структуре, методах поиска и классах и видах хранимых u1076 документах.