Поиск научной текстовой информации в Сервисно-Ориентированной Астрономии

Бартунов Олег Сергеевич, ГАИШ МГУ им. М.В.Ломоносова

Карпов Сергей Валентинович, САО РАН

Астрономия является наукой наблюдательной, и обеспечение доступа к наблюдательным данным является важнейшей задачей Виртуальной Обсерватории (ВО). ВО - международная инициатива [1], возникшая в начале 21 века для обеспечения доступа, прежде всего программного, к распределенным и разнородным данным. ВО использует общепринятые стандарты и рекомендации W3C , обогащенные астрономической спецификой, что определяет ее архитектуру и позволяет использовать технологии, разрабатываемые в других науках и бизнесе.

Архитектура ВО основывается на использовании веб-сервисов, которые являются основой структур со слабой связностью между компонентами. Это означает, что компонентам системы не обязательно знать, как устроены взаимодействующие с ними подсистемы, и нет необходимости разрабатывать новые форматы данных либо создавать специальное ПО для взаимодействия с ними. Для Веб-сервисов важно только то, что данные передаются в формате XML посредством протокола HTTP и содержат сериализованные объекты и способ адресации - URI (Unified Resource Identifier). Учитывая, что практически все вендоры приняли и используют спецификации W3C (w3c.org), Веб-сервисы имеют все шансы стать новой технологией распределенных информационных систем.

ВО использует специальные реестры ресурсов [3], которые, сами являясь веб-сервисами, предоставляют методы для публикации метаданных о ресурсах и их поиска. Кроме того, реестры способны собирать информацию о ресурсах (harvesting). Ресурсы ВО - это службы, которые способны отвечать на специальные запросы в специальном формате, например, это может быть система хранения астрономических каталогов (например, SAI CAS [4]), изображений, служба управления телескопом и т.д.

В настоящей работе сделана попытка расширить понятие ресурса на электронные публикации, в частности, на архив препринтов [5], который является де-факто общепринятым местом публикации научных статей, в том числе и по астрономии. Известно, что электронные публикации зачастую являются источником важнейших наблюдательных данных, недоступных в виде каталогов, которые, как правило, становятся доступными после довольно продолжительного времени. Все электронные публикации в архиве препринтов имеют уникальные идентификаторы, доступ к их мета-информации предоставляется по протоколу OAI-PMH 2.0 [6], поэтому функциональность реестров ВО можно усилить, добавив поиск по электронным статьям, оставаясь в рамках архитектуры ВО. Однако, стандартный поиск по метаданным и текстам статей, который предоставляет архив препринтов, недостаточен для задачи поиска информации об астрономических объектах, так как существует большое количество синонимов - названий одного и того же объекта, разное написание одного и того же понятия, например, x-ray или xray и множество иных особенностей, которые следовало бы учесть [7].

Наш подход заключается в использовании открытых технологий, применяемых в проекте Виртуальной Обсерватории [8], развиваемого нашей группой в рамках проекта Астронет [9]. В частности, мы используем свободно-распространяемую RDBMS PostgreSQL [10] для хранения метаданных, которые периодически обновляются по протоколу OAI-PMH 2.0. Для специализированного поиска мы используем систему полнотекстового поиска, доступного в PostgreSQL [11], которая предоставляет возможность подключения пользовательских словарей для “нормализации” слов.

“Нормализация”, снижение разнообразия используемых словоформ, является одной из ключевых операций при проведении полнотекстового поиска. Для обычных текстов она заключается главным образом к сведению слов к базовым формам (первое лицо, единственное число, и так далее). В случае же астрономических публикаций основной задачей процесса “нормализации” становится приведение названий астрономических объектов к унифицированному виду. Так, каталожные номера в текстах могут быть как отделены от идентификаторов каталогов, так и писаться слитно с ними; могут также варьироваться и сами названия каталогов (’Messier 82’, ‘M82’ и ‘M 82’ ссылаются на один и тот же объект). Более того, зачастую один и тот же объект фигурирует в различных каталогах (та же галактика M82 имеет, согласно данным астрономической базы данных SIMBAD [12], 60 уникальных идентификаторов).

К сожалению, проведение полной “нормализации” наименований объектов при сохранении текстовой информации в базу данных на данном этапе нереально как из-за большого многообразия форматов идентификаторов, так и из-за их неустойчивости во времени (появляются новые каталоги, включающие и известные ранее объекты). Потому в нашем подходе эта операция разбивается на две - базовую “нормализацию” идентификаторов (приведение их к каноническому виду, удаление пробелов и символов, имеющих специальное значение) на этапе добавления текста в базу, и “расширение” названия на стадии пользовательского запроса (так, при запросе ‘UGC 5322’ будет проведен поиск по всем 60 вариантам именования M82) с использованием публично доступного веб-сервиса SIMBAD [12].

Минимальным уровнем абстракции, позволяющим ввести возможность полнотекстового поиска в рамках архитектуры ВО, является уровень реестров ресурсов [3]; протокол более низкого уровня для работы со списками ресурсов OAI v2.0 не предполагает возможности их поиска, за исключением весьма ограниченной рубрикации (было, однако, предложено его расширение, дающее возможность поиска по содержимому отдельных полей [13] каждой записи, не являющееся, однако, стандартным и универсальным). На данном этапе мы реализовали полнотекстовый поиск посредством как стандартного запроса реестра KeywordsSearch(), имеющего существенные ограничения по семантике запроса, так и запросы-расширений FullTextSearch(), принимающего на вход семантическую строку, которая может содержать как обычную логику (AND, OR, NOT) искомых терминов, так и спецификаторы их расположения в описании ресурса (title:, authors:, description:, comments:), и ObjectSearch(), выполняющего поиск с “расширением” идентификатора объекта.

Помимо этого, реализован обычный пользовательский веб-интерфейс для полнотекстовых запросов и поиска по идентификатору объекта архива препринтов, доступный по адресу [14].

На данный момент нами не реализованы по техническим причинам основанный на ADQL стандартный поисковый запрос реестра Search(), а также механизмы распространения хранимой мета-информации по запросам внешних реестров (так называемая процедура “харвестинга”, осуществляемая посредством OAI-PMH 2.0 протокола). Причиной временного отказа от участия в меж-реестровом харвестинге является количество ресурсов - наша копия архива препринтов содержит 420 тысяч записей против, к примеру, 14 тыс в реестре Национальной Виртуальной Обсерватории [15]. Эти проблемы мы планируем решить после подробного изучения масштабируемости используемых в настоящее время программных реализаций центральных реестров.

Кроме того, мы планируем увеличить мощность “нормализации” астрономических текстов в нашей системе посредством существующих словарей-тезаурусов соответствующих терминов (см., к примеру, [16]).

Работа выполнена при поддержке гранта РФФИ 05-07-90225.

Литература.

1. International Virtual Observatory Alliance, http://www.ivoa.net/

2. Virtual Observatory Architecture Overview, http://www.ivoa.net/Documents/Notes/IVOArch/IVOArch-20040615.html

3. IVOA Registry Interfaces, http://www.ivoa.net/Documents/latest/RegistryInterface.html

4. SAI Catalog Access Services, http://vo.astronet.ru/cas/

5. http://arxiv.org/

6. The Open Archives Initiative Protocol for Metadata Harvesting, http://www.openarchives.org/OAI/openarchivesprotocol.html

7. The NASA Astrophysics Data System: The search engine and its user interface, Guenther Eichhorn, Michael J. Kurtz, Alberto Accomazzi, Carolyn S. Grant, and Stephen S. Murray, Astron. Astrophys. Suppl. Ser. 143, 61–83 (2000)

8. http://vo.astronet.ru

9. http://www.astronet.ru

10. PostrgeSQL RDBMS,http://www.postgresql.org/

11. http://www.sai.msu.su/~megera/postgres/fts/doc

12. SIMBAD Astronomical Database, http://simbad.u-strasbg.fr/

13. OAI-SQ, расширение для поисковых запросов в рамках OAI-PMH v2.0, http://scout.wisc.edu/Projects/OAISQ/

14. http://vo.astronet.ru/arxiv

15. NVO Registry, http://nvo.stsci.edu/VORegistry/

16. The Astronomy Thesaurus, http://msowww.anu.edu.au/library/thesaurus/

people/sergeykarpov/paper-arxiv-2007.txt · Last modified: 2007/05/31 23:05 by oleg
Back to top
SAI VO | Astronet | SAI MSU | Legal Information
RFBR