重复记录检测与解析
重复记录检测与解析 (DDR) 软件现已全面运行。于 2010 年 2 月 2 日开始运行完整的 WorldCat 数据库(从 OCLC #1开始),并于 2010 年 9 月 30 日结束,运行期间一共处理了 166,422,941
条记录,并删除了 5,126,132 条重复记录。
另外,2010 年 1 月 26 日开始运行一个独立程序,以检查每天的日志文件中选定的新纪录和替换的纪录。此程序将继续运行。
发展过程
从 1991 年开始,OCLC 采用其重复记录检测与解析 (DDR) 软件来针对图书格式中的 WorldCat 书目记录进行自我匹配,以便查找和合并重复记录。
到 2005 年中期,WorldCat 迁移到了新的平台,在整个 WorldCat 内进行了 16 次运行,共删除了 160 万条重复记录。
于 2005 年启动一个新项目,旨在重新开发在新环境中使用的 DDR 软件并拓展其性能,以处理各种类型的书目记录。这个历时多年的大项目现在有所收获。在新 DDR 关键组成部分之一的匹配软件方面的重大改进已正式合并到成批载入过程中。这将有助于在处理 WorldCat 重复记录方面将 DDR 和成批载入过程带入前所未有的一致高度。
经过严格的规划、开发和测试后,新的软件于 2009 年 5 月投入使用。除了能够处理连续性资源、乐谱、录音、可视资料、地图、电子资源和图书外,在从不正确匹配中区分出合理匹配的能力方面,新的 DDR 也比旧版软件出色许多。它还能灵活选择特定类别的书目记录作为删除重复的目标。对 WorldCat 现有数据库的小子集的处理也已经开始了。对WorldCat 数据库进行全面测试于 2010 年 2 月开始,并于 2010 年 9 月结束。
投入使用的新 DDR 软件将合并更多的书目记录。图书馆会发现 WorldCat 中的重复记录少了许多。对于印刷乐谱、录音和视听材料,这一变化特别明显,因为先前的 DDR 软件没有处理这类重复记录。定期删除重复记录将让所有用户享受到性能更为出色的 WorldCat。 |
DDR 统计数据
(从 2009 年 5 月到 2012 年 3 月 2 日 ):
-
275,661,237
条记录已经过 DDR 处理
-
9,568,470
条重复记录已被删除
是否对某些合併有所看法?
我们尽力避免不合适的合併,但是由於DDR 是自动进行的程,难免偶尔会产生一些不合适的合併。在看到某条记录的合併似乎不太合适时,请转告 bibchange@oclc.org。OCLC的工作人员会对这些有问题的记录加以审核。如果确实不合适,只要有可能,就会加以逆转。 |