Canada

Sommaires Dewey sous forme de données liées

Depuis longtemps, l'équipe Dewey d'OCLC souhaite faire quelque chose des données liées. C'est-à-dire, appliquer le principe de données liées à certaines parties de la classification décimale Dewey et présenter les données sous forme de petit "service terminologique". Le service doit répondre aux requêtes HTTP standard par une présentation des classes Dewey pouvant être lue par une machine ou par l'utilisateur. Il doit y avoir un URI (voire mieux, une page Web affichant une description utile) pour chaque concept Dewey, et pas uniquement pour les classes. Le format de présentation des données doit pouvoir traiter des informations sémantiques riches et permettre aux utilisateurs, ou agents utilisateurs, d'explorer les données de façon instinctive. Pour les choses plus complexes, le service doit fournir un accès aux requêtes de type API. Enfin, les données présentées doivent pouvoir être réutilisées par toute personne à des fins non commerciales.

À ceci s'ajoute dewey.info

L'appel récent au partage et à l’ouverture des données brutes (Raw Data Now!) de Tim Berners-Lee fait peut-être passer pour un peu trop simple la publication de données interopérables sur le Web sémantique [dont les données (ouvertes) liées sont, à titre d'information, un sous-ensemble faisant appel aux outils transversaux de l'infâme "gâteau à étages" du Web sémantique]. Ceci s'explique notamment par le manque de données spécifiques du type de celles que nous utilisons, c'est-à-dire de vastes systèmes de classification universelle multilingues. Ce type de données riches du point de vue sémantique vous confronte sans cesse à un choix cornélien : une modélisation Ontologique stricte avec un grand "O", ou des ensembles de données publiées qui ne sont que légèrement améliorés du point de vue sémantique (avec, ça et là, une pincée d'ontologie avec un petit "o"), mais qui peuvent être appliqués dans de nombreux domaines possibles.

La seconde approche nous a alors semblé plus efficace et nous a conduits à confronter différents problèmes, pertinents pour l'une comme pour l'autre. Nous devions trouver, pour la CDD, un modèle d'URI qui fonctionnerait comme des identificateurs permanents pour les concepts de la CDD dans un environnement distribué. Nous voulions ensuite tester le vocabulaire RDF SKOS pour créer un modèle représentatif qui exprimerait les meilleures données de la CDD (identificateurs indépendants de la langue, terminologie multilingue et relations sémantiques). Enfin, puisque les données ouvertes liées ne sont pas vraiment ouvertes lorsque vous devez demander l'autorisation de les utiliser, nous voulions tester une licence Creative Commons pour pouvoir plus facilement réutiliser les données de la CDD à des fins non-commerciales.

Pour savoir si et comment certains de ces objectifs pouvaient être atteints, nous avons choisi de publier les Sommaires Dewey (qui nous semblaient un ensemble de données approprié) selon les principes des données liées. La dernière version des Sommaires, c'est-à-dire les 1 110 meilleures classes de la CDD 22, a été disponible sous forme de document Web pendant un certain temps. Pour élargir les applications possibles de ce qui n'est au fond qu'une "soupe de balises" (dans une seule langue) pour l'instant, chaque classe a dû être identifiée par un URI et les données présentées de façon à pouvoir être réutilisées.

Comment fonctionne-t-il ?

Avez-vous déjà rencontré une cote Dewey, 641 par exemple, et voulu savoir (ou faire savoir à vos utilisateurs) à quoi elle correspondait ? Vous pouvez désormais utiliser un navigateur standard et utiliser l'URL suivante : http://dewey.info/class/641/. Cette URL sous forme d'identificateur représente la classe "641" de la CDD. Elle redirige automatiquement le navigateur Web standard vers la page HTML de toutes les versions disponibles de cette classe, dans toutes les langues disponibles (http://dewey.info/class/641/about). La partie "/about" indique que cette URL contient une description générale du concept abstrait (c'est-à-dire la classe Dewey 641), et non le concept lui-même. Le concept lui-même, en tant que chose ou idée abstraite, ne possède pas de représentation pouvant être envoyée sur le Web. Le serveur Web oriente donc l'agent utilisateur vers un emplacement du Web où cette chose est décrite.

Le format précis de cette description est négocié en arrière-plan par l'agent utilisateur et le serveur. Le navigateur Web standard, par exemple Opera ou Firefox, reçoit une version HTML de la page, qui est également directement disponible à l'adresse http://dewey.info/class/641/about.html. Un navigateur de données liées, Zitgist par exemple, reçoit une version RDF (Resource Description Framework) des données, qu'il utilise pour construire sa propre vue.

L'un des principaux avantages que présente la représentation indépendante de la langue d'un sujet, d'une cote Dewey par exemple, réside dans la facilité à passer d'une langue à l'autre lorsqu'il s'agit d'afficher la partie qui dépend de la langue, par exemple la description de la catégorie ou la terminologie associée. En ajoutant une balise linguistique à l'URI de la ressource générique (finissant en "/about"), il est possible de se limiter aux versions d'une langue spécifique : http://dewey.info/class/641/about.fr. (La page HTML d'une classe pour laquelle d'autres langues sont disponibles affiche également les liens vers ces versions.) La possibilité de contourner la négociation de contenu en spécifiant directement le format souhaité existe toujours : http://dewey.info/class/641/about.fr.rdf.

Enfin, le service offre la possibilité de préciser la date de la version à identifier ou récupérer. L'utilité de cette fonction deviendra évidente au fur et à mesure que des mises à jour seront ajoutées au service. En précisant une année et/ou un mois dans l'URI ( http://dewey.info/class/641/2009/08/), le service n'affichera que les concepts de cette période, août 2009 dans le cas présent. Lorsque tous ces éléments sont combinés, vous obtenez une description relativement complète d'une classe Dewey : http://dewey.info/class/641/2009/08/about.ar.html. (À l'origine il était prévu que les URI Dewey soient plus précises en indiquant la "tranche horaire" d'une version, en minutes et en secondes. Ce devrait être le cas dans une future version.)

D'autres fonctions apportent une valeur ajoutée au service. Elles sont toutefois trop techniques pour être décrites de façon exhaustive, mais méritent d'être mentionnées au passage. En fait, l'affichage HTML est déjà enrichi du point de vue sémantique grâce à une norme W3C appelée RDFa. L'utilisation d'un navigateur prenant la RDFa en charge (ou d'un extracteur RDFa) ouvre la voie vers de nouvelles possibilités de moissonnage, collecte et connexion des données Dewey.

Ensuite, dewey.info présente une API simple utilisant SPARQL, la technologie de recherche standard pour le Web sémantique. Les plus téméraires peuvent être intéressés par cet exemple de requête qui récupère les principales classes de Dewey en français.

À quoi sert-il ?

Le principal objectif de dewey.info est de contribuer à la croissance du réseau de données liées. La plupart des cas d'utilisation s'appliquant aux données liées s'applique donc également à dewey.info. Si l'on considère la façon dont les données des Sommaires Dewey sont utilisées dans la World Digital Library, il devrait être possible d'accomplir quelque chose de comparable sans les complications supplémentaires liées à l'acquisition et au brassage des données avant qu'elles ne soient disponibles sur le Web, sur dewey.info.

Si vos métadonnées incluent déjà des cotes Dewey, vous pourriez envisager de créer des URI dewey.info et de les ajouter, en plus des cotes simples qui y figurent déjà. Vous pourriez immédiatement bénéficier des neuf langues actuellement disponibles, et profiter ultérieurement des autres langues et données mises à jour qui seront ajoutées. Les cotes prendront vie et commenceront littéralement à parler, vous permettant de tirer pleinement parti de Dewey dans son ensemble, les données utiles et descriptives étant juste à portée d'hyperlien. Dans le même temps, en indiquant une date d'affectation dans l'URI, vous pouvez référencer de façon fiable et constante une représentation, version, langue et format de contenu précis, même si cette cote Dewey a été mise à jour et sa signification modifiée dans l'intervalle.

Que peut-on espérer à long terme ?

Ce que vous voyez n'est que la première étape. L'objectif étant que dewey.info soit une plate-forme des données Dewey sur le Web. Les Sommaires ne seront peut-être pas l'ensemble de données le plus complexe ou le plus difficile à publier sous cette forme, mais d'autres réalisations suivront en termes de langues, données plus détaillées et liens vers d'autres ensembles de données. Si vous trouvez ces données trop étriquées (ce qui est le cas pour l'instant), pourquoi ne pas commencer à ajouter vos propres liens, ce qui, à la façon des données liées, est possible en utilisant simplement les URI Dewey dans les données de vos ressources. N'oubliez pas que les liens fonctionnent dans les deux sens !