Duplicate Detection and Resolution
De software van Duplicate Detection and Resolution (DDR) is volledig in bedrijf. De WorldCat-database is tussen 2 februari 2010 en 30 september 2010 (vanaf OCLC record nr. 1) volledig doorgewerkt. In totaal zijn er 166.422.941
records verwerkt en 5.126.132 dubbele records verwijderd.
Daarnaast is op 26 januari een afzonderlijk proces gestart waarmee specifieke nieuwe records en vervangen records uit tijdschriftenbestanden van elke dag worden onderzocht. Dit proces loopt nog steeds.
Overzicht
Sinds 1991 heeft OCLC zijn DDR-software (Duplicate Detection and Resolution) ingezet om bibliografische records van boeken in WorldCat onderling te vergelijken om duplicaten op te zoeken en samen te voegen.
Halverwege 2005, toen WorldCat naar het nieuwe platform werd gemigreerd, was WorldCat zestien keer met het programma doorlopen. Dit heeft geresulteerd in de verwijdering van in totaal 1,6 miljoen dubbele records.
In 2005 is een project gestart om de DDR-software te herontwikkelen voor werken in de nieuwe omgeving en om de mogelijkheden ervan uit te breiden, zodat alle soorten bibliografische records kunnen worden afgehandeld. Dit omvangrijke, meerjarige project werpt nu zijn vruchten af. Aan het proces voor batchgewijs laden zijn regelmatig geweldige verbeteringen toegevoegd aan onze vergelijkingssoftware, die een kernonderdeel vormt van de nieuwe DDR. Dit helpt om DDR en processen voor batchgewijs laden als nooit tevoren op elkaar af te stemmen om het probleem van dubbele records in WorldCat op te lossen.
In mei 2009 is de nieuwe software na grondig plannen, ontwikkelen en testen in productie genomen. Deze nieuwe DDR heeft niet alleen de mogelijkheid om voortdurend informatiebronnen, bladmuziek, geluidsopnamen, visueel materiaal, kaarten en elektronische bronnen te verwerken, maar is ook veel geavanceerder dan zijn voorganger vanwege de kracht om werkelijk overeenkomende gegevens te onderscheiden van gegevens die slechts lijken overeen te komen. De software beschikt ook over de flexibiliteit om een bepaalde categorie van bibliografische records te selecteren om deze op duplicaten te controleren. De verwerking van kleine subsets van WorldCat met de live database is begonnen. Tussen februari 2010 en september 2010 is een volledige controle van de WorldCat-database uitgevoerd.
Het in productie nemen van de nieuwe DDR-software leidt nu tot het samenvoegen van een groter aantal bibliografische records. Bibliotheken zullen merken dat er minder dubbele records in WorldCat voorkomen. Dit is waarschijnlijk voornamelijk zichtbaar voor bladmuziek, geluidsopnamen en AV-materiaal, aangezien de vorige DDR-software niets deed aan deze dubbele records. Het regelmatig verwijderen van duplicaten levert een beter WorldCat op voor alle gebruikers. |
DDR-statistieken
Tussen mei 2009 en 2 maart 2012:
-
275.661.237
records verwerkt via DDR
-
9.568.470
dubbele records verwijderd
Overweegt u een samenvoeging?
Wij doen er alles aan onjuiste samenvoegingen te voorkomen. Aangezien DDR een geautomatiseerd proces is, kan soms een onjuiste samenvoeging plaatsvinden. Als u een record ziet dat onjuist samengevoegd lijkt, meld dit dan aan bibchange@oclc.org. OCLC medewerkers zullen de records in kwestie dan bekijken en, indien mogelijk, de samenvoeging ongedaan maken indien ze onjuist blijkt. |