Le triplestore de Persée


Sommaire

Persée est un programme national de numérisation et de diffusion de collections de documents scientifiques. Sur son portail (www.persee.fr) plus de 400 collections de revues publiées de 1820 à nos jours sont disponibles. Le portail permet une recherche dans certaines métadonnées et le texte de plus de 1.070.000 documents. Les interfaces de recherche permettent d’exploiter trois index (documents, illustrations et auteurs) ; elles sont dotées de fonctionnalités de tri, de facettes, etc., mais elles ne permettent pas de faire des requêtes complexes, de croiser les résultats de requêtes distinctes, etc.

Or les demandes que reçoit l’équipe Persée montrent qu’un nombre grandissant de chercheurs considèrent Persée non plus seulement comme une bibliothèque où consulter des documents et construire une bibliographie, mais comme un corpus de recherche à part entière.

Cette façon d’envisager les contenus de Persée, suppose, pour être viable, d’adjoindre au corpus des outils de parcours et de requêtage plus élaborés que ceux disponibles sur le portail. Les concepts et les technologies du web sémantique apportent une réponse à ce besoin.

Comment est construit le TS de Persée ?

Quelles données ?

Ce qui distingue Persée d’autres sites mettant à disposition des documents scientifiques réside dans la nature de ses contenus (il s’agit principalement de collections exhaustives de revues scientifiques) et dans leur structuration (collection, volume, numéro). Il ne s’agit donc pas d’un entrepôt de tirés-à-part, mais d’une bibliothèque organisée contenant des collections sélectionnées en fonction de leur thématique, leur valeur scientifique, etc. L’autre  particularité de Persée est liée à la profondeur historique de ses contenus : certaines de nos collections ont commencé à paraître au milieu du XIXe siècle, et, pour permettre au lecteur d’interpréter correctement chaque document, il est tout à fait primordial de pouvoir le re-situer dans son contexte historique de publication initial : les connaissances scientifiques, le vocabulaire pour les décrire, les modalités d’échange entre savants ont évolué au fil du temps (par exemple, on ne parlera pas d’évolution de la même façon aujourd’hui et à la fin du XIXe, lors de la naissance du darwinisme). Enfin, le contexte scientifique de publication est également essentiel : bon nombre des collections de Persée proposent des numéros thématiques, dont la constitution a été confiée à un éditeur scientifique. Ainsi, un même historien, spécialiste de la révolte des Canuts à Lyon, pourra produire des documents totalement différents en fonction de la publication visée : revue d’histoire généraliste, d’histoire de l’industrie, d’histoire du syndicalisme, revue de sociologie, d’économie ou de sciences politiques. Sans information sur ce « point de vue » initial dans lequel se place l’auteur, le lecteur ne pourra pas avoir une lecture éclairée du document.

En amont des contextes de restitution (bibliothèque) et de publication, chaque document est le fruit d’un contexte scientifique de production donné : l’auteur, qui dispose, à un moment donné, de connaissances dans un champ particulier, étayées par ses lectures, s’est saisi d’un objet de recherche à propos duquel il présente ses propres réflexions. Ainsi, l’état des connaissances sur l’objet de recherche au moment de la rédaction, la bibliographie propre de l’auteur, ses collaborations scientifiques, les références bibliographiques qu’il met en avant, etc., sont autant d’informations qui vont permettre au lecteur de correctement appréhender chaque document.

Dans le triplestore proposé par Persée, ces différents éléments de connaissance ont été décrits et accompagnent la description bibliographique traditionnelle (titre, auteur, résumé, etc.) de chaque document . Dès lors, elles peuvent également être interrogées par l’utilisateur.

Comment les représenter ? les outils

Les informations susceptibles d’être décrites dans le triplestore de Persée sont donc de natures très variées. Pour les exprimer en RDF, nous nous sommes appuyés sur différents vocabulaires préexistants, chacun permettant d’exprimer un type de donnée de façon précise, sous une forme exploitable au sein de notre triplestore, et réexploitable par d’autres.

S’agissant de représenter les contenus d’une bibliothèque hébergeant les reproductions numériques de documents initialement publiés sous forme papier (principalement), le formalisme proposé par le modèle FRBR (Functional Requirements for Bibliographic Records) pouvait paraître adéquat : il distingue les notions (et leurs caractéristiques propres) de création abstraite (œuvre), de contenu intellectuel (expression), de publication (manifestation) et d’exemplaire (item). Il permet ainsi de décrire de façon précise le statut des objets proposés par Persée ; par exemple, un article en ligne est une manifestation électronique, produite par Persée, en 2015, par numérisation d’une manifestation imprimée, publiée en 1891, dans telle revue, par tel éditeur…

Pour décrire des documents, le vocabulaire proposé par le modèle DCMI (Dublin Core Metadata Initiative) est le plus répandu et a très naturellement été retenu.

Pour décrire les personnes et les relations qui les lient, nous avons opté pour le vocabulaire FOAF (Friend Of A Friend) qui est lui aussi largement répandu.

Pour décrire les liens entre documents (citation, analyse ou compte-rendu, séquence de textes, réponse…), nous avons employé le vocabulaire CITO (Citation Typing Ontology).

Pour décrire la nature des documents, le vocabulaire BIBO (Bibliographic Ontology) a été mis en œuvre, complété par un vocabulaire « maison » qui permet de décrire de façon précise la typologie des documents proposés par Persée [bientôt, vous pourrez consulter une page de documentation à propos de persee-ontology.owl].

Enfin, pour exprimer les concepts abordés dans les documents, le vocabulaire SKOS (Simple Knowledge Organisation System) a été retenu. Lorsque ces concepts sont décrits par ailleurs, nous avons réutilisé les modélisations proposées par les spécialistes du domaine et avons établi des alignements entre les contenus de Persée et les référentiels en vigueur dans chaque communauté, afin de permettre aux utilisateurs de notre triplestore de « rebondir » vers d’autres sources d’information. Parmi ces alignements, certains ont fait l’objet de procédures particulières qui seront décrites dans la section suivante.

Une première modélisation de nos données, basée sur une utilisation fine de ces différents vocabulaires, a été mise en œuvre et proposée à un panel d’utilisateurs (pour la plupart ces mêmes chercheurs qui avaient exprimé le besoin de réaliser une extraction complexe des données de Persée). Si cette représentation était riche, elle présentait l’inconvénient d’être très (trop) touffue, et supposait pour être exploitable, d’avoir de solides connaissances sur le RDF, son langage de requête Sparql, et chacun des différents vocabulaires utilisés…

Ces prérequis constituent un obstacle pour beaucoup d’utilisateurs potentiels du triplestore. Aussi, pour pallier cette complexité, trois stratégies ont été développées en parallèle : la simplification de la modélisation des données et la simplification des outils mis à disposition pour les exploiter.

  • Le modèle de données que nous proposons aujourd’hui  a été allégé et recentré sur la description des ressources effectivement présentes sur le portail Persée (par exemple, il n’y a plus de notion d’œuvre, d’expression, etc.).
  • L’outil Sparklis, développé par Sébastien Ferré  de l’IRISA, a été choisi pour permettre une interrogation du triplestore en langage naturel et de nombreux tutoriels ont été réalisés pour faciliter encore sa prise en main.
  • Plusieurs outils permettant de visualiser les données extraites ont également été sélectionnés afin de faciliter l’exploitation des résultats des requêtes.

Des données aux données liées

Les contenus de Persée reflètent un état de la connaissance à un instant donné, parfois ancien. Mais celui-ci n’est pas figé, il convient donc de pouvoir, depuis les ressources de Persée, rebondir vers des connaissances actuelles, vers d’autres informations sur le même thème ou du même auteur. Pour cette raison, l’équipe Persée s’attache à décloisonner ses contenus et à établir des liens entre les documents qui lui sont confiés et d’autres systèmes d’information. À ce jour, trois ensembles de données ont fait l’objet de traitements permettant d’établir de tels liens :

  • les auteurs,
  • les noms d’espèces pour les collections de SVT
  • les monuments du Caire pour la collection des Bulletins Comité de Conservation des Monuments de l’Art Arabe.

Les collections de SVT et la collection des Bulletins Comité de Conservation des Monuments de l’Art Arabe viendront très prochainement enrichir le triplestore et le portail, sous forme de pages « mash-ups » qui compileront des informations sur ces ressources moissonnées aussi bien sur le triplestore de Persée que sur les triplestores de structures partenaires.

L’alignement avec IdRef – Un enrichissement mutuel

L’auteur constitue une source assez naturelle de rebond à partir d’un document. Au niveau mondial, plusieurs référentiels internationaux existent (Viaf, Isni, Orcid,…) maintenus par des entités différentes, répondant à des objectifs et proposant des services complémentaires, ils sont pour la plupart synchronisés les uns avec les autres. En France, deux référentiels nationaux coexistent et sont synchronisés sur la partie des données qu’ils ont en commun. L’un est maintenu par la Bibliothèque nationale de France, l’autre, IdRef,  par l’Abes (Agence bibliographique de l’enseignement supérieur). Nous avons privilégié le second car il était plus proche de la population d’auteurs de Persée.

Deux procédures d’alignement ont été mises en place.

  • La première est manuelle : chaque fois qu’un nouvel auteur apparaît au cours du traitement d’une collection, IdRef est interrogé. Il fournit en réponse une liste de candidats décrits par leur nom, prénom, dates de naissance et de mort, et références des ouvrages qui lui sont attribués (dans le catalogue national Sudoc). Lorsqu’il l’identifie de façon certaine, le documentaliste sélectionne le candidat adéquat, le lien est établi.
  • La seconde est automatique : dans le cadre de son projet Qualinca (Qualité et interopérabilité de grands catalogues documentaires), l’Abes a mis en place des outils permettant de proposer des alignements. Un extrait des données produites par Persée (auteur, listes de contributions) est ainsi confronté aux contenus gérés par l’Abes pour produire de nouveaux alignements.

Au-delà de l’établissement de liens entre les notices décrivant des personnes dans chacun de nos systèmes d’information, le partenariat avec l’Abes vise à une amélioration mutuelle des données : lors des traitements d’alignements, qu’ils soient manuels ou automatiques, toute incohérence ou conflit est signalé et analysé. Les données de l’un ou l’autre des deux référentiels sont alors complétées et/ou corrigées.

Pour les utilisateurs de nos sites web “classiques”, ce travail d’alignement a une première utilité immédiate : depuis la notice d’un auteur consultée sur le portail Persée, l’utilisateur pourra accéder aux ouvrages que cette personne a écrits, les localiser en bibliothèque, connaître les thèses qu’il a dirigées ou évaluées…

Inversement, depuis les sites de l’Abes, l’utilisateur pourra consulter, en plus de la liste des ouvrages et des thèses, celle des articles rédigés par chacune des personnes ayant fait l’objet d’un alignement.

Pour les utilisateurs du triplestore de Persée, grâce à la possibilité de recherches fédérées (interrogeant plusieurs systèmes d’information en même temps) cet alignement permet de questionner non plus seulement les données de Persée, mais également celles proposées par d’autres sites en une seule et même requête.

Ce premier alignement Persée/IdRef est en outre exploité par l’équipe Persée pour établir de nouveaux liens vers d’autres référentiels (BNF, Isni, Viaf, Wikipédia, etc.) venant enrichir le système d’information de Persée et en améliorer la cohérence puisque, là encore, les anomalies sont analysées, signalées auprès des institutions maintenant ces référentiels et corrigées.

Gestion de la qualité (exhaustivité vs confiance/fiabilité ?)

Les trois projets pilotes (le fonds Persée, les collections SVT alignées avec le référentiel GBIF, et les monuments du Caire) ont des périmètres et des objectifs très différents :

  • L’alignement d’ATHAR a un périmètre restreint mais sur lequel un travail en profondeur est réalisé, principalement par le partenaire scientifique qui porte la collection
  • L’alignement avec IdRef a un périmètre très large mais s’appuie sur un partenariat actif et sur la connaissance approfondie qu’a chacune des équipes sur les données à traiter (notices d’autorités personnes)
  • L’alignement avec GBIF a également un périmètre très large, il ne s’appuie pas, dans sa phase initiale sur un partenariat établi, ni sur des compétences particulières de l’équipe en sciences de la vie.

Concernant les liens établis entre ressources de Persée (citations, suites, réponses,…) là encore, des algorithmes recherchent des liens candidats qui sont validés (ou non) par l’équipe Persée.

Dans chacun de ces différents cas de figure, si la décision de liage est aidée par les outils informatiques, elle revient à un opérateur humain (scientifique du domaine ou spécialiste de l’IST).

La tentation est grande de proposer des liens tous azimuts dès qu’une ressource semble proche d’une autre, mais, dans un contexte où les données sont largement exposées, reprises, croisées, enrichies et rediffusées, la mise en ligne d’informations non fiables peut devenir une source de bruit importante et aboutir à une diminution de la confiance accordée à leur source. Aussi, Persée a fait le choix de limiter l’exploitation de liens aux seuls liens vérifiés.