重複偵測和解析
重複偵側和解析 (DDR) 軟體現在已全面運作。從 2010 年 2 月 2 日開始對全部的 WorldCat 資料庫 (開頭為 OCLC #1)進行偵側和解析,並於 2010 年 9 月 30 日完成,總共處理 166,422,941
筆記錄,清除 5,126,132 筆重複的記錄。
此外,從 2010 年 1 月 26 日起,執行了另外的程序來檢查從每日日誌檔中選取的新記錄與已取代的記錄。此處理將繼續。
發展過程
OCLC 從 1991 年開始使用其重複偵側和解析 (DDR) 軟體,將書籍形式的 WorldCat 書目記錄與記錄本身比對,以找出重複的記錄並加以合併。
到了 2005 年中 WorldCat 移轉到新的平台時,已透過 WorldCat 完成了 16 回合的比對,總共消除了 160 萬筆重複的記錄。
2005 年展開了一個專案,就是重新研發 DDR 軟體,讓軟體在新環境中運作,並擴大其功能以處理所有類型的書目記錄。這個為期多年的大型專案現在已經開花結果;我們的比對軟體有了明顯的改善 (它是新版 DDR 很重要的一部分,這些改善已定期納入批次載入程序中。這有助於讓 DDR 和批次載入程序在處理 WorldCat 中重複記錄的問題時,能夠保持前所未有的一致。
在 2009 年 5 月,經過嚴格的規劃、開發與測試之後,新軟體已進入生產來發揮效能。除了能夠處理連續的資源、樂譜、聲音記錄、可視資料、地圖、電子資源與圖書之外,此新版 DDR 在錯誤的比對中區分出合理的比對上,比其前身更加精密。此外它也十分的有彈性,能夠選擇書目記錄的某些種類,以鎖定重複記錄的刪除。目前已開始比對即時資料庫處理 WorldCat 的小子集。已於 2010 年 2 月開始對全部的 WorldCat 資料庫進行偵側,並於2010 年 9 月結束。
進入生產中的新 DDR 軟體將能合併大量的書目記錄。圖書館將會發現 WorldCat 的重複記錄減少許多。特別是紙本的樂譜、聲音記錄與視聽資料更為明顯,因為舊版的 DDR 軟體並末處理這些重複項目。定期移除重複的記錄,讓所有的 WorldCat 使用者都能有更好的使用經驗。 |
DDR 統計資料
2009 年 5 月到 2012 年 3 月 2 日 之間:
-
275,661,237
記錄已透過 DDR 處理
-
9,568,470
重複記錄已移除
是否對某些合併有所看法?
我們盡力避免不合適的合併,但是由於DDR 是一個自動流程,難免偶爾會有一些不合適的合併。若注意到某筆記錄的合併看上去似乎不合適,請告訴 bibchange@oclc.org。OCLC的工作人員會檢視這些有問題的記錄。若確實不合適,在可能的情況下會加以逆轉。 |