Skip to page content

Détection et élimination des doublons : acte II

En 1991, OCLC lance son logiciel de détection et d'élimination des doublons (Duplicate Detection and Resolution, DDR), qui permet de supprimer les doublons par une mise en correspondance des notices bibliographiques de WorldCat pour le format Poche avec ses propres notices.

À l'été 2005, lors de la migration de WorldCat vers sa nouvelle plate-forme, seize analyses avaient déjà été réalisées, permettant ainsi l'élimination d'1,6 million de doublons.

L'année 2005 vit également le lancement d'un projet visant à réinventer le logiciel DDR afin de l'adapter au nouvel environnement et d'étendre ses fonctionnalités à tous les types de notices bibliographiques. Ce grand projet, prévu sur plusieurs années, porte aujourd'hui ses fruits. Des améliorations significatives ont été apportées régulièrement aux processus de chargement par lots de notre logiciel de mise en correspondance DDR et constituent désormais une composante clé de sa nouvelle version. Cela permet d'utiliser pour la première fois les processus de détection et d'élimination des doublons avec les processus de chargement par lots pour régler le problème des doublons dans les notices de WorldCat.

En mai 2009, le nouveau logiciel a été mis en production après des phases de planification, de développement et de test rigoureuses. Outre sa capacité à gérer en continu ressources, partitions musicales, enregistrements sonores, documents visuels, cartes et autres ressources électroniques en plus des livres, ce nouveau logiciel de détection et d'élimination des doublons est nettement plus sophistiqué que son prédécesseur, puisqu'il est désormais capable de distinguer les correspondances légitimes des doublons superflus. Il permet par ailleurs de sélectionner de manière flexible certaines catégories de notices bibliographiques pour la recherche et l'élimination des doublons. Le traitement de petits sous-ensembles de WorldCat par mise en correspondance avec la base de données en ligne a débuté. Une analyse complète de la base de données WorldCat sera lancée plus tard dans l'année.

La mise en production du nouveau logiciel DDR permettra de fusionner un grand nombre de notices bibliographiques. Grâce à l'élimination régulière des doublons, les utilisateurs pourront bénéficier d'une base de données WorldCat optimale.

(2009 06 23)


Save this to your preferred bookmarking service using AddThis