Detección y resolución de duplicados
El software de Detección y resolución de duplicados (DDR) ya funciona completamente. El 2 de febrero de 2010 comenzó una ejecución de la base de datos completa de WorldCat (empezando con OCLC N.° 1), que finalizó el 30 de septiembre de 2010. Se procesó un total de 166 422 941
registros y se eliminaron 5 126 132 registros duplicados.
Además, el 26 de enero de 2010 comenzó a funcionar un proceso independiente que examina registros nuevos seleccionados y registros sustituidos de los archivos de una revista diaria. Seguiremos adelante con este procesamiento.
Historia
Desde 1991, OCLC ha utilizado su software de Detección y resolución de duplicados (Duplicate Detection and Resolution, DDR) para comparar los registros bibliográficos de WorldCat en el formato de libros entre sí a fin de detectar y fusionar duplicados.
A mediados del año 2005, cuando WorldCat migró a su nueva plataforma, se habían completado dieciséis ejecuciones a través de WorldCat, con lo cual se eliminó un total de 1,6 millones de registros duplicados.
En 2005, se inició un proyecto de reinvención del software DDR con el objeto de que funcione en un nuevo entorno y de ampliar sus capacidades para admitir todos los tipos de registros bibliográficos. Este gran proyecto de varios años ahora está dando sus frutos. En el proceso de carga por lote, se han incorporado importantes mejoras a nuestro software de comparación, que son un componente clave del nuevo DDR. Esto ayuda a que el DDR y los procesos de carga por lote estén más alineados que nunca para resolver el problema de los registros duplicados de WorldCat.
En mayo de 2009, el nuevo software pasó a la etapa de producción luego de planificación, desarrollo y prueba rigurosos. Aparte de su capacidad de operar con recursos continuos, partituras, grabaciones sonoras, materiales visuales, mapas y recursos electrónicos, así como libros, este nuevo DDR es mucho más sofisticado que los anteriores en su capacidad de distinguir entre resultados coincidentes legítimos e incorrectos. Además, tiene la flexibilidad de permitir la selección de determinadas categorías de registros bibliográficos para la deduplicación. Ha comenzado el procesamiento de pequeños subconjuntos de WorldCat con la base de datos en tiempo real. Entre febrero y septiembre de 2010 se realizó un recorrido total por la base de datos de WorldCat.
Con el nuevo software DDR en la etapa de producción, se logra la fusión de una mayor cantidad de registros bibliográficos. Las bibliotecas notarán que hay menos registros duplicados en WorldCat. Esto será visible particularmente para partituras, grabaciones sonoras y materiales audiovisuales debido a que el anterior software de DDR no se ocupaba de estos duplicados. La eliminación regular de los duplicados proporciona un mejor servicio WorldCat para todos los usuarios. |
Estadísticas de DDR
Entre mayo de 2009 y el 2 de marzo 2011:
-
275.662.237
registros procesados a través de DDR
-
9.568.470
registros duplicados eliminados
¿Cuestionando acerca de una fusión?
Cada esfuerzo se ha hecho para evitar fusiones inadecuadas. Siendo el DDR un proceso automatizado, puede haber una fusión inadecuada de vez en cuando. Si usted nota un registro que parece ser una fusión inadecuada, por favor, repórtelo a bibchange@oclc.org. El equipo de OCLC va a examinar los registros en cuestión y, si es posible, revertir la fusión si la misma no es apropiada. |