Зачем библиотекам связанные данные?

Писарик В.А., заведующий сектором отдела каталогизации документов РНТБ

Зачем библиотекам связанные данные?

Когда я был мальчиком, моя любовь к логическим занятиям часто побуждала меня находить удовольствие в том, чтобы выслеживать по карте воображаемого лабиринта тропинки в надежде, что та или иная из них приведет к его центру.

Чарльз Сандерс Пирс

Вселенная знаний все чаще напоминает мне огромный бесконечный лабиринт, в котором тропинки различных научных интересов пересекаются одна с другой и расходятся. Но именно в точке расхождения можно наблюдать, как образуется область новой предметности, перекресток знакомого и неизведанного, феномен, который можно определить как одно из фундаментальных свойств знания. Воспользовавшись терминологией, приведенной в статье Александра Николаевича Сысоева и Виктора Николаевича Белоозерова «Классификационные индексы документов электронных каталогов естественнонаучных и технических библиотек: аспектный анализ», назовем его междисциплинарностью. Взаимосвязь между различными областями знания «присутствует всегда и служит мерой интереса конкретной науки к окружающему ее миру знаний и, обратно, окружающего мира к этой науке и зависит только от состояния науки в данный момент времени и качества исходных данных. Универсальные иерархические классификации знания УДК, ДКД, ББК и другие являются «картами знаний», благодаря которым становится возможным охватить пространство Универсума знаний в его доступном состоянии» [3, с. 273].

В данной статье я хотела бы рассмотреть новые горизонты и возможности, которые открывает для библиотек технология семантической сети (семантического веба, всемирной паутины, веба 3.0).

«Семантическая сеть – это информационная модель предметной области, имеет вид ориентированного графа. Вершины графа соответствуют объектам предметной области, а дуги (ребра) задают отношения между ними. Объектами могут быть: понятия, события, свойства, процессы. Таким образом, семантическая сеть – это один из способов представления знаний» [7].

Прародителем семантических сетей считается американский философ, один из основателей семиотики Чарльз Сандерс Пирс (1839–1914). Круг интересов исследователя не ограничивался только словесным описанием логической структуры знаковых процессов, но включал также разработку так называемых «экзистенциальных графов», графического описания знаков и отношений между ними.

В канун католического Рождества 1909 года Ч.С. Пирс написал своему другу, известному американскому философу и психологу Уильяму Джеймсу (1842–1910): «My triumph in that [algebraic] line, my Existential Graphs, by which all deduction is reduced to insertions and erasures, and in which there are no connecting signs except the writing of terms on the same area enclosed in an oval and heavy lines to express the identity of the individual objects whose signs are connected by such lines. This ought to be the Logic of the Future» [11, с. 874].

Перевести дословно данный отрывок не так просто, необходимо учитывать невероятно сложную философию диаграмматических рассуждений ученого. Надеюсь, я не искажу основной смысл сделанного им открытия: «Моим наивысшем достижением в области универсальной алгебры логики являются Экзистенциальные Графы, с помощью которых любое умозаключение можно представить в виде добавлений и исключений, в них термины одной предметной области объединяются не математическими знаками, а заключены в овал и жирные линии, чтобы обозначить идентичность отдельных предметов, знаки которых соединены такими линиями. Вот что должно стать Логикой Будущего».

Теория графов Ч.С. Пирса – это не только логическая, но и философская, и семиотическая концепция порождения нового знания.

В более ранней статье я уже писала о понимании знака ученым как конкретного объекта, репрезентирующего (обозначающего) в нашем сознании и деятельности другой объект или явление. Знак всегда материален, но обозначать может материальное и нематериальное, реальное и вымышленное.

Ч.С. Пирс считал, что подобные связи представляют собой универсальную алгебру отношений.

Мы четко различаем то, что видим, говорим, слышим, чувствуем (знаки), то, какой смысл в это вкладываем («референт» знака, или концепт) и то, что имеем в виду («интерпретанта» знака, понятие, обозначаемый предмет или денотат).

Рассмотрим следующую схему:

ЗНАК→КОНЦЕПТ→ДЕНОТАТ

ЧЕЛОВЕК ПИШУЩИЙ→ЧТО-ТО СОЧИНЯЕТ→АВТОР.

Если объект удовлетворяет условиям концепта, то он соотносится с его знаком и становится денотатом.

Семантика – это всего лишь способ соотнесения знака с объектом реального мира или ситуацией из некоторой предметной области.

Как представить знания о реальном мире на машиночитаемом языке?

Согласно технологии семантического веба информация в Интернете может быть интерпретирована компьютерными программами почти так же, как человеком. Для этого Консорциум Всемирной паутины (3WC) разработал стандарт (W3C Recommendation) «Среда описания ресурса (RDF): понятия и абстрактный синтаксис. Рекомендация W3C от 10 февраля 2004 г.».

Основная цель данного стандарта заключается в том, чтобы структурировать большие объемы данных, размещенных в Интернете, и тем самым способствовать «сетевой интероперабельности», «способности двух или более информационных систем или компонентов к обмену информацией и к использованию информации, полученной в результате обмена» [2].

Среда описания ресурса (RDF) должна решать, помимо прочего, следующие задачи:

«сделать машиночитаемой информацию (данные приложений), которая во Всемирной паутине представлена в Гипертексте, чтобы позволить данным быть обрабатываемыми вне особой среды, в которой они были созданы, в той степени, чтобы они могли работать в масштабе сети Интернет;
обеспечить взаимодействие приложений (комбинирование данных из различных приложений для того, чтобы получить новую информацию);
содействовать автоматической обработке веб-информации программными агентами, т. е. Веб превращается из информации, читаемой только людьми, во всемирную сеть взаимодействующих процессов» [8].

С помощью RDF можно создавать логические утверждения о различных вещах (ресурсах).

«Ресурсом в RDF может быть любая сущность – как информационная (например, веб-сайт или изображение), так и неинформационная (например, человек, город или некое абстрактное понятие). Утверждение, высказываемое о ресурсе, имеет вид «субъект – предикат – объект» и называется триплетом. Множество RDF-утверждений образует RDF-граф» [8].

Таким образом, RDF описывает определенную предметную область в терминах ресурсов, свойств ресурсов и значений свойств. Для связывания данных в Интернете ресурсы и свойства идентифицируются с помощью глобальных идентификаторов – URI.

RDF является только лишь абстрактной моделью данных, для обработки которых используется язык запросов SPARQL.

Написание запросов к различным семантическим хранилищам немного отличается, но базовый принцип построения логических утверждений в виде триплетов «субъект – предикат – объект» всегда остается неизменным.

Для примера давайте заглянем на сайт Викиданных https://www.wikidata.org. Попробуем найти информацию об английском писателе Дугласе Адамсе. Для этого вводим в поисковую строку инициалы и выбираем один из предложенных вариантов: English science fiction writer and humourist. Полученные результаты отображаются весьма интересно и необычно.

Справа мы можем прочитать фамилию автора на разных языках и перейти на соответствующие страницы Википедии.

Слева находим огромное количество утверждений, в частности о том, что Дуглас Адамс является человеком, о его псевдониме, семье, профессиональной деятельности, любимых занятиях, цвете глаз и т.д. Рядом находим ссылки (references), кем данные опубликованы. И особенно приятно отметить, что в выбранном примере большое количество информации об авторе предоставляется национальными библиотеками разных стран. Далее в некоторых случаях ссылок нет, т.е. мы можем предположить, что логический вывод сделан программой автоматически, значит структура RDF позволяет получать новые знания из уже имеющихся.

Теперь остановимся подробнее на фразе, которая, думаю, особенно бросается в глаза: Дуглас Адамс является человеком (instance of human).

Вот в чем заключается разница между нашим мышлением и компьютерной обработкой данных. Еще раз повторюсь, мы концепты понимаем интуитивно, нам не нужно объяснять, что Дуглас Адамс – это человек и если он пишет литературные произведения, то является автором этих произведений. Но чтобы информацию предоставить в машиночитаемом виде, каждый концепт необходимо программировать вручную. Поэтому создание базы данных семантических триплетов – это огромный труд.

Вернемся снова к утверждениям (statements) о Дугласе Адамсе.

Если утверждения представляют собой способ хранения любой информации об известном нам элементе, то как нам получить к ним доступ?

Для этого перейдем в сервис запросов Викиданных (Query Service) и выберем в папке примеров поиск данных о кошках (cats).

В окне редактора запросов появляется следующий программный код:

SELECT ?item ?itemLabel

WHERE

{

?item wdt:P31 wd:Q146.

SERVICE wikibase:label { bd:serviceParam wikibase:language «[AUTO_LANGUAGE],en». } }

Нас интересует четвертая строка: «?item wdt:P31 wd:Q146».

Здесь мы просим программу предоставить информацию об элементе (item), который обладает определенным свойством (property) с некоторым значением (value). Триплет «субъект – предикат – объект» представлен в данном случае как «item – property – value».

В строку запроса после префикса wdt и двоеточия мы вводим свойство элемента, а после префикса wd и двоеточия – его значение. Наши утверждения – это не более чем соответствие свойства (например, «автор») и значения («Дуглас Адамс»).

Изменим запрос о кошках, подставив вместо P31 («частный случай понятия») свойство P50 («автор»), а вместо Q146 («кошка как домашнее животное») значение Q42 («Дуглас Адамс»). Нам не нужно для этого знать все цифровые обозначения, только нажать на клавиатуре компьютера кнопки «Ctrl» и «Space» и вводить данные на русском или любом другом языке. В результате получаем список произведений, написанных Дугласом Адамсом.

Утверждения могут устанавливать отношение между свойством и более чем одним значением. Например, свойство «occupation» («род занятий») для Дугласа Адамса могло бы быть связано со значениями «писатель» и «сценарист», чтобы отразить факт того, что он писал как книги, так и сценарии для фильмов.

В Википедии при рассмотрении запросов к Викиданным указано: «Значения могут быть разных типов, включая другие записи, числа или файлы с фото и видео, и могут определять более сложные правила относительно их предполагаемого использования. Эти правила называются «ограничения». Например, свойство «столица» включает в себя «ограничение на единственное значение», отражающее тот факт, что у любой территории (как правило) есть только одна столица. Ограничения трактуются скорее как подсказки. При желании для уточнения значения утверждения могут использоваться квалификаторы. Они предоставляют дополнительную информацию в контексте данного утверждения. Например, свойство «население» может быть расширено квалификатором «по состоянию на 2011 год». Также утверждения могут снабжаться ссылками, указывающими на подтверждающий утверждение контент» [1].

Следует отметить, что ключевым элементом сервиса службы запросов Викиданных является возможность визуализации полученных результатов в табличной форме, в виде карты, различных диаграмм, галереи изображений и т.д.

Просматривая YouTube-каналы, посвященные работе с Викиданными, можно часто услышать подобное высказывание: «SPARQL поможет Вам обрести сверхспособности». Я, конечно, пока не могу написать сама такие сложные запросы, как те, которые приведены на странице примеров SPARQL [9]. Вот только некоторые из них:

популярные цвета глаз среди людей;
улицы, названные в честь человека;
места рождения людей по имени Антуан;
гендерное распределение среди кандидатов на всеобщих выборах в Нидерландах 2017 года;
список стран по возрасту главы правительства;
авторы научных статей по роду занятий;
люди, жившие в тот же период, что и другой человек;
книги или литературные произведения, опубликованные до 1830 года с координатами места публикации;
рок-группы, названия которых начинаются на букву «М»;
места нахождения работ Пабло Пикассо и т.д.

Но хочу заметить, что даже если немного подредактировать уже имеющиеся примеры в соответствии с личными интересами и визуализировать полученные данные в виде, например, пузырьковой или столбцовой диаграммы, то действительно очаровываешься новыми возможностями, предоставляемыми средой описания ресурса (RDF).

Для RDF-графов семантической основой представления данных является онтология, которая включает в себя терминологический словарь и набор утверждений о моделируемых объектах. Самая простая онтология описывает только иерархию понятий, связанных определенными отношениями.

В библиотечной сфере такими упрощенными онтологиями являются электронные каталоги, информационно-поисковые тезаурусы, библиографические классификации.

Что будет, если представить эти традиционные системы организации знаний в среде LOD (Linked Open Data), т.е. в качестве «связанных наборов данных, опубликованных в RDF-формате и доступных для свободного использования всеми пользователями сети Интернет без каких-либо ограничений в виде авторских прав, патентов и других механизмов контроля» [6].

В Итоговом отчете Группы развития библиотечных связанных данных Консорциума Всемирной паутины от 25 октября 2011 г. среди прочих выводов о множестве невероятных преимуществ от внедрения подобных инноваций в библиотечную деятельность акцент делается на следующем: «используя глобально уникальные идентификаторы для обозначения произведений, мест, людей, событий, субъектов и других объектов или предметов, библиотеки сделают возможным ссылаться на эти ресурсы в широком спектре других источников данных, и таким образом сделают свои метаданные более широко доступными» [4].

В настоящее время в виде связанных данных уже опубликованы национальные библиографии Великобритании, Франции, Германии, Швеции и других стран.

Особого внимания заслуживает LOD-проект Национальной библиотеки Франции. На сайте https://data.bnf.fr мы можем перейти в сервис запросов SPARQL и получить данные, связанные не только с внутренними ресурсами библиотеки, такими как электронный каталог, коллекция оцифрованных материалов Gallica, предметные рубрики RAMEAU, но также и внешними (Сводный каталог французских академических библиотек SUDOC, WorldCat, VIAF, Wikipedia и т.д.). Таким образом, французская национальная библиография, опубликованная в среде открытых связанных данных, объединяет разрозненную информацию из различных источников и делает ее понятной для поисковых систем.

Сделать частью семантической сети можно также и классификационные системы. Особенно показательным в этом плане является пример Российской государственной библиотеки, опубликовавшей на сайте https://lod.rsl.ru в виде LOD Библиотечно-библиографическую классификацию (ББК).

Данные Генерального систематического каталога РГБ были преобразованы специалистами в соответствии с моделью RDF и загружены в семантическое хранилище для дальнейшей обработки с использованием языка запросов SPARQL.

Цель проекта – «поддержка контента и предоставление средств обеспечения интероперабельности с другими ресурсами той же природы, т. е. со словарями связанных данных в среде Глобальной сети» [5].

В настоящее время система является экспериментальной, но вызывает огромный интерес в библиотечном сообществе.

Иерархическая структура классификации выстраивает смысловые связи между понятиями, обеспечивает переход от общего к частному, способствует добавлению в поисковый запрос более узких по смыслу понятий и синонимов, «позволяет построить маршруты от темы запроса к темам документов» [5]. Библиотечные классификации благодаря технологии LOD наконец станут «семантическими дорожными картами» для исследования информационного пространства.

Другие многочисленные примеры использования связанных открытых данных мы можем увидеть на сайте https://lod-cloud.net. Облако LOD – огромно. И наш мир с каждым днем становится все более взаимосвязанным. Какое будущее ждет библиотеки в семантически структурированном Интернете?

Тим Бернерс-Ли, автор концепции семантической паутины, считает, что «паутиноподобные системы предлагают массу удивительных возможностей всем, начиная от крупных компаний и заканчивая обычными пользователями, и дают такие преимущества, предсказать которые заранее трудно или даже невозможно» [10].

Согласитесь, звучит заманчиво. Мы стоим на пути больших перемен.

Список использованных источников

Викиданные [Электронный ресурс] // Википедия. Свободная энциклопедия. – URL: https://ru.wikipedia.org/wiki/Викиданные (дата обращения: 11.02.2023).
Информационные технологии. Интероперабельность. Основные положения [Электронный ресурс] : ГОСТ Р 55062-2021. – Взамен ГОСТ Р 55062-2012 ; введ. 30.04.22. – М. : Госстандарт России : Изд-во стандартов, 2021. – 8 с. – URL: https://files.stroyinf.ru/Data/759/75997.pdf (дата обращения: 02.2023).
Единое цифровое пространство научных знаний: проблемы и решения : сб. науч. тр. / под ред. Н. Е. Каленова, А. Н. Сотникова. – М. ; Берлин : Директмедиа Паблишинг, 2021. – 464 с.
Итоговый отчет Группы развития библиотечных связанных данных Консорциума Всемирной паутины от 25 октября 2011 г. [Электронный ресурс]. – URL: https://kirill-johnson.github.io/library-linked-data (дата обращения: 09.02.2023).
Лавренова, О. А. Современные пользователи библиотек и пространство связанных открытых данных [Электронный ресурс] / О. А. Лавренова, А. А. Винберг // Библиотековедение. – 2020. – Т. 69, № 3. – С. 243–260. – URL: https://bibliotekovedenie.rsl.ru/jour/issue/viewIssue/80/64 (дата обращения: 06.02.2023).
Радченко, И. А. Использование открытых данных в научных исследованиях [Электронный ресурс] / И. А. Радченко // Информационное общество. – 2013. – № 1/2. – С. 93–101. – URL: http://emag.iis.ru/arc/infosoc/emag.nsf/BPA/dceb90122dd34f3a44257be800415e22 (дата обращения: 23.03.2023).
Семантическая сеть [Электронный ресурс] // Википедия. Свободная энциклопедия. – URL: https://ru.wikipedia.org/wiki/Семантическая_сеть (дата обращения: 06.02.2023).
Среда Описания Ресурса (RDF): понятия и абстрактный синтаксис [Электронный ресурс] : рекомендация W3C от 10 февраля 2004 г. – URL: https://www.w3.org/2007/03/rdf_concepts_ru/Overview.html#ref-rdf-syntax (дата обращения: 06.02.2023).
Wikidata: SPARQL query service/queries/examples [Электронный ресурс]. – URL: https://www.wikidata.org/wiki/Wikidata:SPARQL_query_service/queries/examples (дата обращения: 2023-02-11).
Бернерс-Ли, Т. Семантическая Сеть [Электронный ресурс] / Тим Бернерс-Ли, Джеймс Хендлер, Ора Лассила. – URL: http://www.cs.man.ac.uk/~ezolin/logic/semantic_web_utf.html (дата обращения: 25.03.2023).
Peirce, Ch. S. The new elements of mathematics. Mathematical Miscellanea [Электронный ресурс] / Ch. S. Peirce ; ed. Carolyn Eisele. – Hague : Mouton Publishers, 1976. – 1153 p. – URL: https://uberty.org/wp-content/uploads/2015/12/Charles_S._Peirce_Math_3.2.compressed.pdf (дата обращения: 2023-03-13).

понедельник - пятница	с 9.00 до 20.00
суббота	с 10.00 до 18.00
воскресенье	выходной

Инфоцентр по УР	с 9.00 до 17.30
суббота, воскресенье	выходной

последняя пятница каждого месяца	- санитарный день