Mise en œuvre de l'IA pour étendre et accélérer la déduplication dans WorldCat
Les équipes de Qualité des métadonnées d'OCLC mettent en œuvre diverses mesures, à la fois manuelles et automatisées, pour améliorer la qualité et l'utilité des données de WorldCat. Ces efforts considérables et continus garantissent que les données de WorldCat répondent aux besoins de nos membres et de notre réseau mondial de milliers de bibliothèques dans un large éventail de services. À mesure que les technologies et les outils qui nous permettent d’accomplir ce travail important évoluent, nous explorons continuellement de nouvelles méthodes pour enrichir, corriger et dédupliquer les notices WorldCat, des données qui alimentent la découverte et le partage mondiaux des ressources des bibliothèques.
Chez OCLC, nous croyons que l'intelligence artificielle (IA) excelle lorsqu'elle est guidée par l'expertise humaine. Notre parcours avec l'IA est un partenariat où les idées et les valeurs des professionnels des bibliothèques façonnent la manière dont l'IA sert les communautés. Un élément essentiel de nombreux systèmes d'IA est l'apprentissage par machine qui consiste à éduquer des algorithmes pour leur permettre de faire des prédictions ou de prendre des décisions sans programmation explicite.
En août 2023, nous avons implanté notre premier modèle d'apprentissage automatique pour détecter les notices bibliographiques en double dans le cadre de nos efforts continus pour réduire leur présence dans WorldCat. Auparavant, nous avions invité la communauté de catalogage à participer à des exercices d'étiquetage des données, à partir desquels nous avons reçu des commentaires de plus de 300 utilisateurs sur environ 34 000 doublons pour nous aider à valider notre modèle pour les notices en double dans WorldCat. Cette initiative a mené à la suppression d’environ 5,4 millions de doublons dans WorldCat pour les livres imprimés en anglais et dans d’autres langues comme le français, l’allemand, l’italien et l’espagnol.
Nous avons maintenant amélioré et étendu notre modèle d'IA pour dédupliquer tous les formats, langues et jeux de caractères dans WorldCat. En utilisant les données étiquetées recueillies grâce à la participation de la communauté, nous avons perfectionné et optimisé l'algorithme d'apprentissage automatique de l'IA, effectué des tests internes approfondis, et mobilisé des bibliothèques membres du programme de fusion WorldCat pour qu'elles procèdent à une vérification externe des performances de l'algorithme.
Le 11 février 2025, nous allons procéder à un essai avec 500 000 paires de notices, en ciblant uniquement les livres imprimés en anglais dans WorldCat, et fusionner 500 000 notices en double. Les livres imprimés en anglais représentent la plus grande catégorie de doublons dans WorldCat et constituent le format qui a été le plus rigoureusement testé et amélioré dans nos activités de déduplication par apprentissage automatique à ce jour. Après cet essai initial, nous prendrons une pause pour évaluer les résultats avant d'effectuer d'autres déduplications dans WorldCat afin de traiter les paires de doublons restantes pour les livres imprimés en anglais. Une fois cette catégorie de documents traitée, des opérations de déduplication seront effectuées pour tous les documents autres que les livres et dans d'autres langues que l'anglais. Nous fournirons des mises à jour au fur et à mesure que nous procéderons à d'autres opérations de déduplication.
Nous recommandons aux bibliothèques qui n'utilisent pas les Services de gestion WorldShare d'activer les mises à jour WorldCat dans Gestion des collections WorldShare pour s'assurer qu'elles reçoivent le Numéro OCLC mis à jour pour les notices conservées qui ont été fusionnées. Si vous soupçonnez qu'une fusion est incorrecte, signalez-la à bibchange@oclc.org. Le personnel de l'équipe de Qualité des métadonnées WorldCat peut consulter l'historique des notices fusionnées et les récupérer si nécessaire.
Le nettoyage des notices en double est l'un des moyens les plus efficaces d'améliorer la qualité de WorldCat. L'étendue de WorldCat présente des défis, avec des données provenant de diverses sources, pratiques de catalogage et langues. L'augmentation des efforts manuels des professionnels de métadonnées avec les dernières technologies de l'IA a été fructueuse dans la réduction du nombre de doublons. Cette approche renforce notre engagement envers la qualité avec la possibilité pour l'IA d'aider les bibliothèques à fournir des données précises aux utilisateurs.
Nous remercions les membres de notre communauté qui ont participé à cet effort jusqu'à présent. Votre collaboration fait progresser la profession et la mission des bibliothèques à travers le monde en nous aidant à perfectionner et augmenter le traitement automatisé des notices en double dans WorldCat, ce qui permet de gagner un temps fou et améliorer les services de la grande communauté des bibliothèques.