Duplicate Detection and Resolution
O software DDR (Duplicate Detection and Resolution) agora está em plena operação. A verificação do banco de dados inteiro do WorldCat (começando pelo OCLC nº 1) foi iniciada em 2 de fevereiro de 2010 e concluída em 30 de setembro de 2010. Um total de 166.422.941
registros foram processados e 5.126.132 registros duplicados foram eliminados.
Além disso, um processo separado, que examina registros novos e substituídos selecionados dos arquivos de periódicos diariamente, começou a ser executado em 26 de janeiro de 2010. Esse processo irá continuar.
História
No início de 1991, a OCLC utilizou seu software DDR (Duplicate Detection and Resolution) para comparar os registros bibliográficos em formato de livro do WorldCat com os da OCLC, podendo assim identificar e eliminar as duplicatas.
Até meados de 2005, quando o WorldCat migrou para sua nova plataforma, foram executadas dezesseis verificações no WorldCat que resultaram na eliminação de um total de 1,6 milhão de registros duplicados.
Em 2005, foi iniciado um projeto de renovação do software DDR para adaptá-lo ao novo ambiente e ampliar seus recursos para que oferecesse suporte a todos os tipos de registros bibliográficos. Agora, este grande e demorado projeto está dando frutos. Grandes melhorias – que são um grande diferencial do novo DDR – estão sendo regularmente incorporadas ao recurso de processamento de lotes do nosso software de localização de correspondências. Isso ajuda como nunca a promover o alinhamento do DDR e dos processamentos de lotes para eliminar o problema de registros duplicados do WorldCat.
Em maio de 2009, o novo software começou a ser produzido atendendo a um rigoroso processo de planejamento, desenvolvimento e teste. Além de suportar recursos continuados, partituras, gravações de som, materiais visuais, mapas, recursos eletrônicos e também livros, o novo DDR é muito mais sofisticado que seu antecessor no que se refere à capacidade de distinguir correspondências legítimas de falsas suspeitas. Ele também possui flexibilidade para permitir a seleção de determinadas categorias de registros bibliográficos para eliminação de duplicatas. O processo de comparação entre pequenos subconjuntos do WorldCat e todo o nosso banco de dados já começou. O banco de dados do WorldCat começou a ser verificado na íntegra em fevereiro de 2010 e o processo terminou em setembro de 2010.
Com o novo software DDR, estamos eliminando um grande número de registros bibliográficos duplicados. As bibliotecas perceberão menos registros duplicados no WorldCat. Isso deve ser visível especialmente para partituras, gravações sonoras e materiais de AV, já que o software DDR anterior não abrangia essas duplicatas. A remoção regular de duplicatas proporciona um WorldCat melhor a todos os seus usuários. |
Estatísticas do DDR
Entre maio de 2009 e 2 de março de 2011:
-
275.661.237
registros foram processados pelo DDR
-
9.568.470
registros duplicados foram removidos
Questionando sobre uma fusão?
Todo esforço tem sido feito para evitar fusões inadequadas. Como o DDR é um processo automatizado, pode haver uma eventual fusão inadequada. Se você notar um registro que parece ser uma mesclagem inadequada, por favor, denuncie para bibchange@oclc.org. A equipe da OCLC irá examinar os registos em questão e, se possível, inverter a fusão se a mesma for inadequada. |