Latin America and Caribbean

Detección y resolución de duplicados

El software de Detección y resolución de duplicados (DDR) ya funciona completamente. El 2 de febrero de 2010 comenzó una ejecución de la base de datos completa de WorldCat (empezando con OCLC N.° 1), que finalizó el 30 de septiembre de 2010. Se procesó un total de 166 422 941 registros y se eliminaron 5 126 132 registros duplicados.

Además, el 26 de enero de 2010 comenzó a funcionar un proceso independiente que examina registros nuevos seleccionados y registros sustituidos de los archivos de una revista cada día. Seguiremos adelante con este procesamiento.

Historia

A partir de 1991, OCLC utilizó su software de Detección y resolución de duplicados (Duplicate Detection and Resolution, DDR) para comparar los registros bibliográficos de WorldCat en el formato de libros entre sí a fin de detectar y fusionar duplicados.

A mediados del año 2005, cuando WorldCat migró a su nueva plataforma, se habían completado dieciséis ejecuciones a través de WorldCat, con lo cual se eliminó un total de 1,6 millones de registros duplicados.

En 2005, se inició un proyecto de reinvención del software de DDR con el objeto de que funcione en un nuevo entorno y de ampliar sus capacidades para admitir todos los tipos de registros bibliográficos. Este gran proyecto de varios años ahora está dando sus frutos. En el proceso de carga por lote, se han incorporado importantes mejoras a nuestro software de comparación, que son un componente clave del nuevo software de DDR. Esto ayuda a que la DDR y los procesos de carga por lote estén más alineados que nunca para resolver el problema de los registros duplicados de WorldCat.

En mayo de 2009, el nuevo software pasó a la etapa de producción a continuación de las etapas rigurosas de planificación, desarrollo y prueba. Aparte de su capacidad de operar con recursos continuos, partituras, grabaciones sonoras, materiales visuales, mapas y recursos electrónicos, así como libros, este nuevo software de DDR es mucho más sofisticado que el anterior en su capacidad para distinguir entre resultados coincidentes legítimos e incorrectos. Además, tiene la flexibilidad de permitir la selección de determinadas categorías de registros bibliográficos para detectar deduplicación. Ha comenzado el procesamiento de pequeños subconjuntos de WorldCat contra la base de datos en tiempo real. Entre febrero y septiembre de 2010, se realizó un recorrido total por la base de datos de WorldCat.

Con el nuevo software de DDR en la etapa de producción, se logra la fusión de una mayor cantidad de registros bibliográficos. Las bibliotecas notarán que hay menos registros duplicados en WorldCat. Esto será visible particularmente para partituras, grabaciones sonoras y materiales audiovisuales debido a que el anterior software de DDR no se ocupaba de estos duplicados. La eliminación regular de los duplicados proporciona un mejor servicio de WorldCat para todos los usuarios.

Estadísticas de DDR

Entre mayo de 2009 y 30 de junio 2013:

  • 342.080.141registros procesados mediante DDR
  • 11.294.384 registros duplicados eliminados

¿Está pensando en una fusión?

Se ha hecho todo lo posible por impedir fusiones inadecuadas. Dado que la DDR es un proceso automatizado, es posible que exista alguna fusión inadecuada ocasional. Si detecta algún registro que parece ser una fusión inadecuada, infórmelo a bibchange@oclc.org. El personal de OCLC examinará los registros en cuestión y, de ser posible, dará marcha atrás a la fusión, si es inadecuada.