亚太地区

OCLC 完成 WorldCat 核心基础设施的主要技术升级

Move to HBase and Hadoop brings performance improvements and new technical opportunities for the world’s largest bibliographic database

俄亥俄州都柏林市,2013 年 6 月 10 日 — OCLC 于 6 月 6 日完成了将 WorldCat 数据库基底结构转化为 Apache HBase 的开发工作,后者是全球众多信息提供商,包括 Facebook、Adobe 和 Salesforce.com 采用的一个分布式平台。这意味着完成了一次对 WorldCat 数据库意义重大的技术升级,该数据库收藏了 3 亿条图书馆记录和 20 多亿份图书馆馆藏,将为数据分析提供新的选择,为图书馆及其用户提供更快速的服务。

Apache Hadoop 软件套件是允许分布式处理分散在计算机组中的大型数据的框架。 HBase 是阿帕奇软件基金会 (Apache Software Foundation) 建立在 Hadoop 基础上的一个高端项目。Hadoop 为非常大型的数据集提供主要数据处理的改进方法。 OCLC WorldShare 的各种应用程序用于图书馆管理、资源共享、元数据和依赖访问多种大型和不断增长的数据集的搜索,其中包括 WorldCat 数据库。

“这是非常令人兴奋的技术更新和服务升级,”OCLC 全球工程部副主席 Greg Zick 说道。 “我们可以将 OCLC 的诸多项服务移至 WorldShare 平台的云端,我们需要想办法优化像本地和全国性编目和权威数据集等大型数据集的运营绩效。 这次升级也帮助我们不断增强在提高质量方面的努力、进行记录匹配和合并、以新的方式再现并为合作机制的数据提供新的用途。

OCLC 会员合作性数据庞大的范围促成了这一改变,而 HBase 提供了更好的办法处理大型数据集。 此外,HBase 和 Hadoop 还允许 OCLC 以新的方式再现图书馆信息,用于电子内容和链接数据系统,同时还为各图书馆及用户提供更一致、更可靠、更快速的服务。

Ron Buckley 是 OCLC 的高级技术经理兼 Hadoop 迁移团队的负责人,他在 2013 年 6 月 13 日在旧金山召开的 2013 届 HBaseCon 会议上与数据库管理领域的领导者讨论了这一举措。

Buckley 先生说:“我们的讨论结果意义非凡。现在我们的硬件存储需求大大降低,整体馆藏的覆盖面积得到精简,这一切将促进我们的增长。 我们某些主要数据运营的绩效大有改进,现在运营的执行时间已经从几天缩减到几小时。 这次升级让我们开辟了新的领域,比如详细的分析和关系巩固,这些都将提升合作机制中所有图书馆数据的价值。”

Hadoop 提供诸多增强功能,部分是通过衡量分布在成百上千台计算机(每台均配备数个处理器核心)中的数据服务。 这有效地将大量的工作分布在计算机组中,获得了更大的灵活度、更快的速度和更高的可靠性。 OCLC 在三个计算机组的 150 台服务器上运行 Hadoop。

Michael Stack 是 Cloudera 的软件工程师,同时也是 Apache HBase 项目管理委员会的主席,他在 HBaseCon 会议上做过主旨发言。他对 OCLC 在这方面的工作非常感兴趣。 他评论说:“我和 Ron Buckley 讨论过多次,了解到 OCLC 经过审慎的研究和大量的准备工作之后,已经实现了一次顺利过渡。 这是我最赞成的 HBase 部署。 它跟图书馆有关,而图书馆是我最喜欢的组织,也关乎 Apache HBase 这一强大的技术,OCLC 才能进行更多的发挥。 这真是精彩极了。”

这项技术已经对 OCLC 的功能和服务产生了影响。 最近向 WorldCat.org 新增的链接数据元素就是依赖 Hadoop 的多项功能实现的。 同样的,新的 WorldShare 元数据收藏管理器服务也是利用了其分布式基础结构的数据处理优势。

Zick 先生表示:“我们将这次行动的成功归功于我们卓越的迁移团队。因为他们的智慧和勤劳的工作,这次重要的过渡对我们的成员使用现有 OCLC 服务所造成的影响小之又小。 这个团队在将损坏的可能性降至最低的情况下,顺利地复制 HBase 中的 WorldCat 生产版本,编写全新的访问层,然后渐渐地将现有产品和服务移至新的基础结构中。

OCLC 简介

OCLC 成立于 1967 年,是一家提供计算机图书馆服务的非营利性会员制研究机构,其宗旨是实现促进世界信息访问和减少图书馆成本这一公共目标。 170 个国家的 74,000 多家图书馆已经采用 OCLC 服务对图书馆资料进行定位、获取、编目、出借、保存和管理。 无论何时何地,只要需要,研究人员、学生、教师、学者、图书馆专员以及其他寻找信息的人士都可使用 OCLC 服务获得书目、摘要和全文信息。 OCLC 及其成员图书馆相互协作,建立并维护 WorldCat 这一世界上最大的在线图书馆资源搜索数据库。 请在网络上搜索 WorldCat.org 。 如需了解更多信息,请访问 OCLC 网站

OCLC、OCLC WorldShare、WorldCat、WorldCat.org 与 WorldCat.org 是 OCLC 在线计算机图书馆中心的商标和/或服务标志。第三方产品、服务和业务名称是其各自所有者的商标和/或服务标志。

联系人

  • Bob Murphy

    Manager, Media Relations

    O: 614-761-5136