Détection des notices en double et résolution
Le logiciel DDR (Duplicate Detection and Resolution) est maintenant entièrement opérationnel. Une opération visant la totalité de la base de données WorldCat (à partir d'OCLC 1) a commencé le 2 février 2010 est s'est terminée le 30 septembre 2010. Au total, 166 422 941
notices ont été traitées et 5 126 132 doublons ont été éliminés.
De plus, un processus distinct qui examine les nouvelles notices sélectionnées et les notices remplacées dans les fichiers journaux d'un jour donné a démarré le 26 janvier 2010. Ce processus est encore en cours.
Historique
En 1991, OCLC lance son logiciel de détection et d'élimination des doublons (Duplicate Detection and Resolution, DDR), qui permet de supprimer les doublons par une mise en correspondance des notices bibliographiques de WorldCat pour le format Poche avec ses propres notices.
À l'été 2005, lors de la migration de WorldCat vers sa nouvelle plate-forme, seize analyses avaient déjà été réalisées, permettant ainsi l'élimination d'1,6 million de doublons.
L'année 2005 vit également le lancement d'un projet visant à réinventer le logiciel DDR afin de l'adapter au nouvel environnement et d'étendre ses fonctionnalités à tous les types de notices bibliographiques. Ce grand projet, prévu sur plusieurs années, porte aujourd'hui ses fruits. Des améliorations significatives ont été apportées régulièrement aux processus de chargement par lots de notre logiciel de mise en correspondance DDR et constituent désormais une composante clé de sa nouvelle version. Cela permet d'utiliser pour la première fois les processus de détection et d'élimination des doublons avec les processus de chargement par lots pour régler le problème des doublons dans les notices de WorldCat.
En mai 2009, le nouveau logiciel a été mis en production après des phases de planification, de développement et de test rigoureuses. Outre sa capacité à gérer en continu ressources, partitions musicales, enregistrements sonores, documents visuels, cartes et autres ressources électroniques en plus des livres, ce nouveau logiciel de détection et d'élimination des doublons est nettement plus sophistiqué que son prédécesseur, puisqu'il est désormais capable de distinguer les correspondances légitimes des doublons superflus. Il permet par ailleurs de sélectionner de manière flexible certaines catégories de notices bibliographiques pour la recherche et l'élimination des doublons. Le traitement de petits sous-ensembles de WorldCat par mise en correspondance avec la base de données en ligne a débuté. Une analyse complète de la base de données WorldCat a commencé en février 2010 et s'est achevée en septembre 2010.
La mise en production du nouveau logiciel DDR permet de fusionner un grand nombre de notices bibliographiques. Les bibliothèques pourront noter la diminution du nombre de doublons dans WorldCat. Cela devrait être particulièrement visible dans le cas des partitions musicales, des enregistrements sonores et des documents audiovisuels, étant donné que la précédente version du logiciel DDR ne prenait pas en charge ces types de doublons. Grâce à l'élimination régulière des doublons, les utilisateurs bénéficient d'une base de données WorldCat optimale. |
Statistiques DDR
Entre mai 2009 et 2 mars 2011 :
-
275 661 237
enregistrements ont été traités par DDR
-
9 568 470
doublons ont été éliminés
Fusion inappropriée
Tous les efforts ont été déployés pour éviter des fusions inappropriées. Étant donné que le processus de détection et d'élimination des doublons est entièrement automatisé, il se peut qu’il y ait une fusion inappropriée à l’occasion. Si vous remarquez des notices qui semblent avoir été fusionnées incorrectement, veuillez en aviser bibchange@oclc.org. Le personnel d’OCLC examinera les notices en question et, si possible, renversera la fusion si celle-ci est inappropriée. |