РОССИЙСКИЙ НАУЧНЫЙ ЭЛЕКТРОННЫЙ ЖУРНАЛ Электронные библиотеки

Электронные библиотеки -1999 - Том 2 - Выпуск 4


Поиск информации в многоязыковой среде Интернет

В.К. Степанов
Московский государственный университет культуры


В последние 3-4 года происходит процесс стремительного превращения Интернет из моноязычной (англоязычной) в полиязычную среду. С началом формирования Всемирной паутины миллионы людей по всему миру стали размещать в Сети материалы на своих родных языках. Стремительная коммерциализация Интернет еще более усилила динамику этого процесса, поскольку верно замечено, что язык торговли - это язык клиента. Уже в 1997 году исследования показывали, что 15% всего содержания серверов Интернет было неанглоязычным [1]. Для 55% пользователей Интернет английский язык не является родным, что также в огромной степени стимулирует появление материалов на национальных языках.

Процесс этот сопровождался решением множества технических проблем, однако, к настоящему времени большинство из них разрешены и ныне Интернет "говорит" более чем на 30 наиболее распространенных языках, включая азиатские, славянские, арабский и т.д. Это само по себе отрадное явление, однако оно породило проблему поиска информации на разных языках.

Для разыскания данных в Сети используются поисковые системы, которые можно условно разделить на две группы. Первую составляют всемирно известные поисковые машины, декларирующие глобальный охват - без каких-либо ограничений по странам или языкам. К их числу относятся Alta Vista, Northern Light, HotBot, Excite, InfoSeek, Lycos и другие. Вторую группу составляют локальные поисковые системы, которые, как правило, акцентируют внимание на выявлении материалов на определенном языке и не посылают своих роботов за пределы доменов отдельных стран. В каждой развитой стране существуют по крайней мере 2-3 подобные локальные поисковые системы.

Цель предпринятого исследования заключалась в определении того, насколько поисковые системы приспособлены для разыскания материалов на различных языках и насколько в целом высоки их языковые способности. В ходе работы были протестированы несколько десятков поисковых машин, включая всемирно известные и региональные. Для детального анализа было отобрано 6 поисковых систем глобального масштаба и такое же число региональных (межнациональных и национальных). Эта выборка на наш взгляд позволяет убедительно проиллюстрировать нынешний уровень состояния дел в исследуемой области.

Все требования к поисковым средствам Интернет, связанные с многоязычностью среды, могут быть сведены к следующим:

  • возможность осуществлять поиск на различных языках;
  • возможность ограничивать поиск материалами только на определенном языке;
  • возможность выбрать интерфейс на желаемом языке;
  • способность корректно обрабатывать все кодировки разных языков;
  • возможность переводить запрос на определенный язык;
  • возможность переводить результаты поиска на определенный язык;
  • возможность переводить найденный документ в целом.

В приведенной таблице показано, в какой мере глобальные и региональные поисковые системы на сегодняшний день удовлетворяют перечисленным требованиям.

Параметры глобальных поисковых систем, связанные с работой в многоязыковой среде

Alta Vista HotBot Excite InfoSeek Lycos Northern Light
Возможность осуществлять поиск на различных языках + + (только для 9 ведущих европейских языков) + + + (распространенные азиатские, арабский и другие редкие языки только с локализованных сайтов) +
Возможность ограничивать поиск материалами только на определенном языке + + (для большинства европейских языков) + (английский, французский, немецкий, голландский, шведский) - + (только для большинства европейских языков*) + (только для английского, французского, немецкого, итальянского испанского)
Возможность выбрать интерфейс на желаемом языке + - + + + -
Способность корректно обрабатывать все кодировки разных языков - - - - - -
Перевод запроса, списка результатов поиска и всего документа в целом + запрос (с помощью специальной опции) и документ в целом с/на английский, немецкий, французский, испанский, португальский и итальянский - - - - -

Параметры региональных поисковых систем, связанные с работой в многоязыковой среде

  Aport (Russia) Dragon (Japan) Swiss Search (Switzerland) Nordic Web Index (Scandinavia) EuroSeek EuroFerret
Возможность осуществлять поиск на различных языках - (только на русском и английском) - (только на японском и английском) + (только на европейских языках, использующих латиницу) + (все языки, включая азиатские) + (все языки, включая азиатские) + (только на европейских языках, использующих латиницу)
Возможность ограничивать поиск материалами только на определенном языке + - - - + -
Возможность выбрать интерфейс на желаемом языке - (только на русском и английском ) - (только на японском) + (английский, немецкий, французкий, итальянский) + (английский и все скандинавские) + (все европейские) + (английский, немецкий, испанский, французкий, итальянский, шведский)
Способность корректно обрабатывать все кодировки разных языков + - - - - -
Перевод запроса, списка результатов поиска и всего документа в целом + (для всего с русского на английский) + (с японского на английский - только для запроса) - - - -

Возможность осуществлять поиск на различных языках

Это основной параметр, определяющий возможность использования системы для поиска информации в многоязыковой среде. Глобальные поисковые системы могут быть разделены в данном случае на две группы, в зависимости от метода, которым они обрабатывают тексты документов. Первая группа представлена только HotBot, который уже на этапе индексирования рассматривает каждое слово как морфологическую единицу. Это позволяет HotBot оперировать значениями слов, что, в частности, дает возможность углублять запрос за счет морфологических расширений (по запросу "think" будет также найдено "thought" и т.д.). Однако эта же черта резко ограничивает перечень языков, которые "знает" система. На сегодняшний день в ее арсенале лишь девять наиболее распространенных европейских языков, использующих латинский алфавит. HotBot не обрабатывает документы на кириллице, ведущих восточных (японский, китайский, корейский), арабском, еврейском, греческом, турецком и прочих языках, использующих оригинальный алфавит, что заметно снижает ценность системы, претендующей на всемирный учет материалов Сети.

Во вторую группу входят все остальные протестированные глобальные поисковые машины, механизм которых основан на восприятии слов не как лексических единиц, а как простого набора символов (битов). Это позволяет Alta Vista, Excite, InfoSeek, Lycos и Northern Light индексировать документы и, соответственно, осуществлять поиск потенциально на любом языке Земли. Это достижение убедительно свидетельствует, что такой вариант поискового механизма более подходит для поисковых средств глобального масштаба.

Региональные поисковые средства используют оба варианта поисковых механизмов. Первый вариант (слово - лексическая единица) реализован в системах, ориентированных на моно- или двуязычную среду (обычно это национальный язык и английский). Российский Апорт и японский Dragon - типичные примеры такого подхода. Швейцарский Swiss Search и общеевропейский InterFerret также ограничивают свою область европейскими языками, включая в этот перечень и языки с нелатинским алфавитом, как, например, кириллица. Общескандинавский Nordic Web Index и общеевропейский EuroSeek применяют второй вариант поискового механизма.

Для региональных поисковых машин, в отличии от глобальных, внутренний механизм обработки, в котором слова рассматриваются как лексические единицы выглядит более предпочтительным. Эти машины в большинстве случаев имеют дело с национальными языками, имеющими множество особенностей, учесть которые можно только анализируя их значение.

Возможность ограничивать поиск материалами только на определенном языке

Выбор страниц только на определенном языке основывается на способности правильно определять язык выдаваемых документов. Это может быть сделано с помощью специальной подсистемы, анализирующей текст и распознающей особенности конкретных языков прежде всего по их кодировке.

За исключением InfoSeek, все глобальные поисковые машины декларируют эту функцию, однако корректно ее не реализует ни одна из них, что обусловлено сложностью процесса автоматической идентификации языков.

Региональные поисковые системы, как правило, не заявляют эту функцию. Только EuroSeek предлагает меню выбора документов на определенном языке в структуре основного интерфейса. Однако сама эта функция реализуется некорректно: например, постоянно путаются документы на русском и болгарском языках.

Возможность выбрать интерфейс на желаемом языке

Общей практикой для глобальных поисковых машин является предоставление возможности выбора интерфейса на родном языке на локализованных сайтах. Это объясняется тем, что для большинства пользователей локализованных серверов английский не является родным. Только HotBot и Northern Light, не имеющие ни одного сервера "на местах", не предлагают этой возможности. Региональные же сайты Alta Vista, Excite, InfoSeek и Lycos проявляют большую заботу о местных пользователях.

Большинство национальных поисковых средств не сталкиваются с этой проблемой, поскольку обслуживают как правило моноязычное сообщество (англоязычный интерфейс в данном случае не в счет). Характерное исключение составляют швейцарский Swiss Search, предлагающий помимо англоязычного, также пользовательский интерфейс на французском, немецком и итальянском языках и Nordic Web Index, также включающий режим выбора интерфейса на любом из скандинавских языков.

Общеевропейское значение EuroFerret и EuroSeek также предопределяет наличие выбора интерфейса на желаемом языке. Однако, если первая система предлагает выбрать из 6 наиболее распространенных европейских языков, то вторая - практически на всех языках народов Европы, включая самые редкие.

Способность корректно обрабатывать все кодировки разных языков

Важность правильной обработки документов во всех кодировках еще недостаточно осознается разработчиками глобальных поисковых средств. Это происходит прежде всего потому, что проблема эта абсолютно несущественна для основного массива данных Интернет, который представлен на главных европейских языках в кодировке Latin1 (ISO 8859-1). Однако с увеличением в Сети доли материалов на других языках (особенно на кириллице и азиатских) значение этого вопроса будет возрастать.

Главная проблема заключается в том, что по техническим (а иногда и историческим) причинам текст на многих языках (русский, китайский, корейский, арабский, турецкий и т.д.) представляется сразу в нескольких кодировках, дабы пользователи всех операционных систем (UNIX, Windows, Macintosh, MS DOS) могли им воспользоваться. Соответственно на серверах создается несколько версий одного и того же документа. Ведущие браузеры имеют специальную опцию, позволяющую устранить этот недостаток и зачастую автоматически выбрать нужную версию. Однако роботы глобальных поисковых систем воспринимают все версии одного и того же документа как разные источники, поскольку все они имеют разные адреса. Поэтому зачастую список результатов, содержащий несколько десятков или даже сотен ссылок, содержит сведения всего о нескольких оригинальных источниках.

В связи с проблемой множественности кодировок для поисковых систем возникают два главных требования: корректно обрабатывать документы во всех кодировках и по возможности "сливать" разные адреса одного и того же документа в одну ссылку. Помимо HotBot, который не наделен ни одной из этих способностей, все глобальные поисковые машины в некоторой степени справляются лишь с первой задачей (за счет восприятия любого текста как набор битов). Второму требованию на сегодняшний день не удовлетворяет ни одна из глобальных поисковых машин, из-за чего перечни результатов поиска на русском и других нелатинских языках в Alta Vista, Excite, Lycos и Northern Light содержат большой процент дублетных ссылок (для иллюстрации может служит запрос "Chertovy Kulichki - Stolitsa").

Региональные и в особенности национальные поисковые средства намного лучше удовлетворяют требованиям работы в условиях множественности кодировок. Это естественно, поскольку специфика работы в многокодировочной среде изначально учитывалась разработчиками. Лучшие из национальных поисковых систем способны читать все кодировки языка конкретной страны, относительно верно определять схему кодировки и "сливать" различные адреса одного и того же документа в одну ссылку.

Типичной иллюстрацией такого рода поисковых систем могут служить российские Rambler, Яndex и Апорт, которые демонстрируют высокие показатели в определении оригинальных документов в разных кодировках и даже на различных сайтах и в перечне результатов объединяют все различные адреса в одну ссылку.

Возможность переводить запрос на определенный язык

Эта характеристика обеспечивает низший уровень "переводческого" сервиса, позволяющий получить самое первичное и весьма смутное представление о наличии документов искомой тематики не определенном языке (в конкретной стране). Сама по себе эта функция не очень ценна, поскольку пользователь не может контролировать правильность перевода и должен сам осуществлять перевод списка результатов поиска.

Среди глобальных поисковых машин только Alta Vista обеспечивает перевод запроса с английского на еще 5 наиболее распространенных европейских языков (опция AV Translation Services).

Среди десятков протестированных региональных поисковых средств лишь японские Dragon, Okay Japanese, Moshix2, TITAN и российский Апорт реализуют эту функцию. При этом Dragon, Okay Japanese и Moshix2 переводят запрос с английского на японский по умолчанию, а TITAN и Апорт имеют специальный пункт в меню запроса.

Возможность переводить результаты поиска на определенный язык

Это более значимая характеристика поисковой машины, которая дает гораздо более четкое представление о том, какого рода материалы по конкретной теме существуют на зарубежных серверах. Перевод заглавия и краткого реферата документа конечно же не может заменить полный перевод текста, однако это может помочь пользователю принять решение, насколько данный источник соответствует его нуждам.

Среди всех протестированных поисковых систем - как глобального, так и регионального масштаба - лишь российский Апорт имеет эту функцию. Заглавия и краткие рефераты ссылок переводятся "налету", в ходе формирования списка результатов. Преимуществом в данном случае является то, что "рефератом" являются не первые предложения текста, которые зачастую мало информативны, а непосредственные вхождения искомых терминов в контекст документа.

Возможность переводить найденный документ в целом

Возможность полного перевода оригинального документа безусловно является максимальной ступенью переводческого сервиса, предоставляемого в процессе поиска. Пользователь при этом получает полный текст документа на своем родном языке или, по крайней мере, на английском.

Alta Vista - единственная из глобальных поисковых средств, демонстрирующая эту способность и делающая это на высоком уровне. Встроенная система перевода позволяет переводить текст документа, причем сохраняет оригинальный вид исходной страницы, включая форматирование, иллюстрации, цвета и т.д. Перевести таким образом можно любой текст, представленный на 6 наиболее распространенных европейских языках (русский пока не в их числе). Модуль, обеспечивающий перевод, существует как отдельный сервис и может быть использован независимо от процесса поиска для перевода любого текста.

Приемлемые возможности перевода документа в целом демонстрирует также российский Апорт. Эта функция не отражена в документации системы, однако если в пункте меню "Выдача" углубленной формы запроса указать "На английский", то в списке результатов, при использовании функции "Реконструкция текста" будет выдан текст на английском языке. В этом случае, однако, текст выводится "навалом" - без какого-либо форматирования, что, конечно же, затрудняет пользование им.

Результаты проведенного исследования позволяют утверждать, что поисковые системы всех уровней постоянно совершенствуют характеристики, связанные с обработкой источников на различных языках. Это проявляется в увеличении числа языков, которые могут быть обработаны поисковыми механизмами, повышении качества обработки различных кодировок, возрастании числа сервисных функций, включая перевод текста документа на другие языки. Основными вопросами на сегодняшний день являются создание технологии безошибочной идентификации языка (по сути - кодировки текста) документа, увеличение морфологических возможностей и повышение качества перевода.

Превращение поисковых систем в мощные предпринимательские компании, образование на их основе Web-порталов международного значения вынуждает их разработчиков расширять, наряду с другими, и языковые возможности своих продуктов с тем, чтобы сделать их более эффективными и, соответственно, конкурентоспособными.

Ссылки

1. Urquhart, Iain. Multilinguality on the Web. 1997. - URL: http://concord.cscdc.be/meetings/research_www_7th/pres/bruec2/ sld002.htm


© Степанов В.К., 1999

Последнее обновление страницы было произведено: 2003-12-09

Все предложения и пожелания по содержанию и структуре портала направляйте по адресу rdlp@iis.ru