亚太地区

杜威摘要作为关联数据

长期以来,OCLC 的杜威团队一直希望做一些与关联数据有关的工作。 这就是,在杜威十进分类中应用关联数据原则,并将数据作为小的“术语服务”提供。 此服务应该通过机器或人类可读的杜威分类表现法对常规 HTTP 请求进行响应。 每个杜威概念(而不是只有单个分类)都应该有一个 URI,更理想的情况是通过一个网页提供有用的说明。 数据应该以一种能够处理丰富语义信息的格式表示,并且数据的表示方法要让用户或用户代理能够“一目了然”地探索数据。 对于更复杂的数据,该服务应该提供类似 API 的查询访问。 最后,所提供的数据应该可由任何人出于非商业目的进行重复使用。

随之而来的就是 dewey.info

Tim Berners-Lee 全新开创的关联数据 Meme“Raw Data Now!”或许使其看起来很容易在语义网中实际公布可互操作的数据。在 Raw Data Now! 中,您可能会惊奇于关联(开放)数据成为了子集,并可交叉利用蹩脚的语义网“夹心层”中的各类工具。 造成这种情况的原因之一,可能是没有足够的特定类型数据,例如,大型多语言通用分类系统。 对于这类语义丰富的数据,您可以实际利用一项恒定的扩展功能,前提是: 首先利用严格的本体建模中的大写“O”或只是轻微语义增强的已发布数据集中的小写“o”(在其中参杂应用些许本体方法),但具有横跨多个可能领域的适用性。

就目前而言,后一种方法似乎是一种更有效的驱动力,促使我们面对与其中任一方法相关的几个不同问题。 我们不得不为 DDC 设计一种 URI 模式,在分布式环境中作为 DDC 概念的固定标识符。 其次,我们还需要测试 RDF 词汇表 SKOS,以便创建一个代表性的模型来表示从 DDC 数据中提取的部分重要信息(与语言无关的标识符、多语言术语和语义关系)。 最后,关联的开放数据并非真正地开放,因为这些数据需要他人提供您才能使用,因此我们需要测试创作共用许可证,以便用户能够出于非商业目的,更轻松地重复使用 DDC 数据。

为了测试是否能够以及如何才能实现其中的部分目标,我们选择了杜威摘要作为合适的数据集,根据关联数据原则进行发布。 最新版本的摘要,即 DDC 22 的前 1110 个分类,已经作为 Web 文档提供了一段时间。 为了扩大现在基本只是 tag soup(只使用一种语言)的分类的可能应用,必须由一个 URI 标识每个分类,并且以一种可重复使用的方式表示数据。

那么它是如何工作的呢?

您是否曾遇到过一个叫 641 的杜威编号,并且想知道(或让您的用户知道)这个编号代表什么意思? 现在,您可以使用普通的浏览器和下面的 URL: http://dewey.info/class/641/。 此 URL 作为标识符代表 DDC 中的“641”分类,它会自动将普通的互联网浏览器重新定向到HTML 的显示中,内有此分类在所有可用语言中的所有可用版本 (http://dewey.info/class/641/about)。 “/about”部分表示此 URL 代表抽象概念(即杜威分类 641)的一般描述而不是代表此概念本身。 概念本身是一个抽象的事物或想法,不具可以通过网络发送的表现形式,因此网络服务器会将用户代理指向网络上能够找到概念描述的位置。

此描述中使用的特定格式由用户代理和服务器在后台协商确定。 Opera 或 Firefox 等普通互联网浏览器会提供页面的 HTML 版本,或者用户也可以直接在 http://dewey.info/class/641/about.html 访问该页面。Zitgist 等关联数据浏览器将通过数据(用于构建自己的视图)的 RDF(资源描述框架)版本表示。

拥有与语言无关的主题表示方法(即杜威编号)的主要好处之一就在于,在显示与语言相关的内容(如类别描述或其他相关术语)时,可以非常轻松地在语言之间切换。 通过为通用资源的 URI(以“/about”结尾)附加语言标记,可以将范围缩小到特定语言版本: http://dewey.info/class/641/about.fr。(具有其他语言版本的单一类别的 HTML 视图也会显示这些版本的链接。) 以下地址仍然提供了通过直接指定所需格式来跳过内容协商的功能: http://dewey.info/class/641/about.fr.rdf

最后,该服务还允许指定应该标识或检索的版本的日期。 为服务添加更新后,此功能的作用将变得更加显而易见。 通过在 URI (http://dewey.info/class/641/2009/08/) 中指定年份和/或月份,该服务将只显示该时段(在本例中为 2009 年 8 月)内的概念。将所有这些元素组合起来,就得到了杜威分类的完整描述: http://dewey.info/class/641/2009/08/about.ar.html。(杜威 URI 的原始计划在指定版本的“时间片”时,要求做到更精确,需要精确到分和秒。 此要求应该是未来版本的一部分。)

其他一些提高服务价值的功能,技术性太强,不适合在这里详细介绍,但可以简单地说明一下。 HTML 视图事实上已经通过一个称为 RDFa 的 W3C 标准进行了语义扩充。 使用能够识别 RDFa(即 RDFa 提取器)的浏览器,为提取、收集和连接杜威数据开创了新的可能性。

其次,dewey.info 通过对语义网应用 SPARQL 标准搜索技术,建立了一个简单的 API。 敢于冒险的人可能会对这个使用法语检索杜威分类法的示例查询感兴趣。

到底有什么好处呢?

dewey.info 的主要目的就是帮助利用不断增长的关联数据网络,因此大多数适用于关联数据的使用案例都将适用于 dewey.info。世界数字图书馆对于杜威摘要数据的使用方式,使得在 dewey.info 上提供数据之前,可以完成一些类似的操作,而不会增加数据获取和精处理的复杂性。

如果在元数据中已经有杜威编号,您可能需要考虑构建 dewey.info URI,并在可能已经存在的纯杜威编号之外,额外添加这些 URI。 您可以立即利用目前已提供的全部九种语言。此外,您还可从未来为数据添加的其他语言及更新获益。 这些数字将充满活力,并开始具有意义,让您能够更充分地对杜威进行一般性利用,因为实用的描述性数据与您只有超链接这一步之遥。 与此同时,通过在 URI 中规定一个指派的日期,可以可靠、持久地指向这一特定的资料、版本、语言和内容格式,即使此杜威编号已经更新并同时改变了含义也不影响。

将来会是什么样子?

您现在看到的仅仅是第一步。 dewey.info 的目的是成为网络上的杜威数据平台。 摘要可能并不是以这种方式公布的最具挑战性或最复杂的数据集,其更大的意义在于语言、更深入的数据以及与其他数据集的关联。 如果您认为这种数据过于孤立(现在是这样),那就开始以关联数据的方式添加自己的一些链接。您只需在资源数据中使用杜威 URI 即可完成添加。 记住,链接是双向的!

我们是全球性的图书馆合作组织。从1967年以来,一直为会员所拥有,并受其管理以及维护。我们推崇的宗旨是以公益为己任,共同合作,改进对全球图书馆拥有信息的访问以及设法通过相互协作降低成本。 了解更多 »