Latin America and Caribbean

OCLC conclui importante upgrade técnico na infraestrutura principal do WorldCat

Move to HBase and Hadoop brings performance improvements and new technical opportunities for the world’s largest bibliographic database

DUBLIN, Ohio, 10 de junho de 2013 — Em 6 de junho, a OCLC concluiu o trabalho de desenvolvimento de conversão da estrutura subjacente da base de dados do WorldCat para a Apache HBase, uma plataforma distribuída usada por muitos provedores de globais informações, como Facebook, Adobe e Salesforce.com. Isso marca a conclusão de uma atualização técnica significativa na base de dados do WorldCat, de mais de 300 milhões de registros e mais de 2 bilhões de acervos de bibliotecas, que oferecerá novas opções de análise de dados e serviço mais rápido para bibliotecas e seus usuários.

A coleção de software Apache Hadoop é uma estrutura que permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores. HBase é um projeto de alto nível da Apache Software Foundation com base no Hadoop que oferece importantes aprimoramentos para manipulação de dados desses conjuntos de dados muito grandes. Os aplicativos WorldShare da OCLC para gerenciamento de bibliotecas, compartilhamento de recursos, metadados e descoberta dependem do acesso a vários conjuntos de dados grandes que continuam a crescer, incluindo a base de dados do WorldCat.

“Este é um processo de transição tecnológica e atualização de serviço muito animador”, disse Greg Zick, vice-presidente de Engenharia Global da OCLC. “À medida que passarmos os serviços da OCLC para a nuvem na plataforma WorldShare, precisaremos encontrar maneiras de otimizar o desempenho de nossas operações em grandes conjuntos de dados, como catálogos locais e nacionais e conjuntos de dados de autoridade. Essa atualização também ajudará os esforços contínuos de melhoria de qualidade, correspondência e mescla de registros e permitirá novas representações e usos dos dados da cooperativa.”

O enorme escopo dos dados cooperativos de membros da OCLC é um motivador dessa mudança, à medida que a HBase fornece uma manipulação melhor de grandes conjuntos de dados. Além disso, a HBase e o Hadoop permitem que a OCLC represente as informações de bibliotecas de novas maneiras para uso em conteúdo eletrônico e sistemas de dados vinculados, ao mesmo tempo em que fornecem um serviço mais consistente, confiável e rápido para bibliotecas e seus usuários.

Ron Buckley, gerente sênior de Tecnologia da OCLC e líder da equipe de migração do Hadoop, discutirá esse esforço com líderes do setor de gerenciamento de base de dados na conferência HBaseCon 2013, em São Francisco em 13 de junho de 2013.

“Nossos resultados foram significativos”, disse Buckley. “Nossos requisitos de armazenamento de hardware se reduziram consideravelmente, e nossa estrutura geral foi simplificada para fornecer suporte ao crescimento. Vimos grandes ganhos no desempenho de algumas das principais operações de dados, em que o tempo de execução se reduziu de dias para horas. Esta atualização permite explorar novas áreas, como análise detalhada e relacionamentos enriquecidos, que aumentarão o valor dos dados da cooperativa para todas as bibliotecas.”

O Hadoop proporciona essas melhorias, em parte, por meio do escalonamento dos serviços de dados em centenas ou mesmo milhares de computadores, cada um deles com diversos processadores. E distribui com eficiência grandes quantidades de trabalho por um conjunto de máquinas, permitindo mais flexibilidade, velocidade e confiabilidade. A OCLC está executando o Hadoop em mais de 150 servidores em três clusters.

Michael Stack, engenheiro de software da Cloudera, presidente do Comitê de Gerenciamento de Projetos Apache HBase e principal palestrante do evento HBaseCon, está entusiasmado com o trabalho da OCLC nesta área. “Tive diversas conversas com Ron Buckley e sei que, depois de um estudo cuidadoso e muito trabalho preparatório, a OCLC conseguiu fazer uma transição suave”, Stack comentou. “Esta é minha implementação favorita do HBase. Trata-se de bibliotecas, minha instituição favorita, e do Apache HBase como uma tecnologia estimuladora que permite que a OCLC faça mais. É uma ótima história.”

Essa tecnologia já teve impacto na funcionalidade e nos serviços da OCLC. O recente adição de elementos de dados vinculados ao WorldCat.org depende dos recursos disponíveis no Hadoop. Além disso, o novo serviço WorldShare Metadata Collection Manager utiliza os benefícios do manuseio de dados de sua infraestrutura distribuída.

“Creditamos o sucesso dessa iniciativa à nossa extraordinária equipe de migração”, observou Zick. “Devido ao seu trabalho duro e inteligente, essa transição significativa teve um impacto mínimo sobre o uso dos serviços existentes da OCLC pelos membros. A equipe conseguiu replicar a versão de produção do WorldCat no HBase, gravar uma camada de acesso completamente nova e gradualmente mover os produtos e serviços existentes para a nova infraestrutura com o mínimo de interrupção.”

Sobre a OCLC

Fundada em 1967, a OCLC é uma organização sem fins lucrativos, baseada em membresia, dedicada à prestação de serviços bibliotecários computadorizados e de pesquisa, com o propósito público de facilitar o acesso a informações mundiais e reduzir os custos associados. Mais de 74.000 bibliotecas de 170 países usam os serviços da OCLC para localizar, adquirir, catalogar, emprestar, preservar e gerenciar materiais de biblioteca. Pesquisadores, estudantes, professores, acadêmicos, bibliotecários profissionais e outras pessoas que buscam informações usam os serviços da OCLC para obter informações bibliográficas, resumos e textos completos quando e onde for necessário. A OCLC e suas bibliotecas associadas produzem e mantêm de forma cooperativa o WorldCat, o maior banco de dados on-line do mundo para a descoberta de recursos de biblioteca. Pesquise WorldCat.org na Web. Para obter mais informações, viste o site da OCLC.

OCLC, OCLC WorldShare, WorldCat, WorldCat.org e WorldShare são marcas comerciais e/ou marcas de serviço da OCLC Online Computer Library Center, Inc. Os nomes de produtos, serviços e empresas de terceiros são marcas comerciais e/ou marcas de serviço de seus respectivos proprietários.

Contato

  • Bob Murphy

    Manager, Media Relations

    O: 614-761-5136