书目探勘
书目探勘(bibliomining),就是将资料探勘技术运用于图书馆。它是资料探勘、书目计量学、统计学、报表工具的结合,以求从图书馆系统的大量资料中,粹取并了解读者的行为模式,进而支援决策、改进服务。
起源
编辑“书目探勘”(bibliomining)一词是由学者Scott Nicholson提出,最早见于2003年Nicholson的“The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making.”文章中。“书目探勘”早期在英文中,是以“Data mining in library”统称,但Nicholson认为,多数包含“data mining” + “library”的文章, “library” 纯粹指在资料探勘中的工具库,而非讨论“资料探勘应用于图书馆”,因此另创词汇“bibliomining”予以区隔。
过程
编辑在2003年Nicholson的“The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making.”文章中,介绍了书目探勘的过程如下:
- 确定主题(determining areas of focus);
- 决定图书馆内部与外部的资料来源(identifying internal and external data sources);
- 建立资料仓储,并予以收集、清理、与匿名化资料(collecting, cleaning, and anonymizing the data into a data warehouse);
- 选择适当的分析工具(selecting appropriate analysis tools);
- 从探勘与分析的结果发掘资料样态(discovery of patterns through data mining and creation of reports with traditional analytical tools);
- 分析与实做(analyzing and implementing the results.)
应用
编辑至于书目探勘在图书馆领域之应用,林涌顺在其硕士论文“以资料探勘技术探讨高中生使用图书馆之行为模式─以国立台湾师范大学附属高级中学为例”中,有做出如下的归纳:
资料探勘技术 | 技术应用 |
关联规则分析 |
|
分类分析 |
|
群集分析 |
|
次序相关分析 |
|
书目探勘的资料仓储
编辑要进行书目探勘,必须先建立资料仓储(data warehouse)。在2005年Nicholson的“The Basis for Bibliomining: Frameworks for Bringing Together Usage-Based Data Mining and Bibliometrics through Data Warehousing in Digital Library Services.”文章中,对图书馆的资料仓储所应包含的内容,分为三大类别:作品(work)、使用者(user)、服务(service),有以下分别简介:
- 作品(work):
- 来自作品本身的资讯:如作者、题名等。
- 作品的诠释资料:如subject heading。
- 标释出作品位置的资讯:如URL、索书号。
整体的资料仓储概念图,可以下图表示: