分析分布式网络信息资源重构系统实现模式

来源:期刊VIP网所属分类:土木工程发布时间:2013-12-09浏览:

  【内容提要】网络信息资源在数量和复杂程度上的同步增长使机械遍历式的信息搜集和检索技术越来越难以满足大部分用户的信息需求。这些信息的最终用户需要对信息个体的准确定位,对信息源的权威导航和评估,个性化的主动信息提供服务以及基于信息内容的跨平台链接,而且实现这一切是以一个繁复、无序和庞大的信息世界为基础和前提的。任何纯粹基于人工智能的软件或算法都难以提供一个完美的解决,本文试图提出一个由分布式人机交互环境组成的网络信息资源收集、组织和发布机制,通过这个机制,人的知识和智慧在被用来使纷繁复杂的网络信息资源有序化的同时,又成为其中不可或缺的组成部分。

  一、网络信息资源重构的概念和方法

  网络信息资源是由信息组织或个人建立的以网络为传播媒体的数字信息生成、管理和发布系统,是微观有序化和宏观无序化的有机统一体。每一个网络信息资源个体都是有序的,其所含信息内容是有组织和可访问的;而作为一个整体,网络信息资源又具有高度的系统复杂性,难以从整体上加以充分的利用。这就是要对网络信息资源进行重新组织的主要原因。

  所谓网络信息资源的重构就是针对网络信息源及其内容,按照特定的线索化方式,由人工或计算机软件实施的信息收集、组织、整理和传播工作的总和。经过重构后,网络信息资源整体(或某个局部)上成为有序化结构,并且为访问者提供获得其所需信息的充分检索手段,同时,在一定程度上,不同信息源之间的物理界限在逻辑上被屏蔽。

  如果说网络信息资源宏观的无序化是实施其重构的主要原因的话,网络信息资源微观的有序化则是实施其重构的必要条件。换句话说,网络信息资源个体有序化程度和水平,尽管不能直接导致网络信息资源整体的有序化,但却可以影响通过重构以实现其有序化的方式和难易。例如,一个信息源如果在信息描述、数据库定义和访问方式等方面遵守一定的国际标准,它就更容易成为一个网络信息资源集合的有机组成部分。

  一个网络信息资源集合是由若干信息源组成(如数据库),而一个信息源又是由若干同序的信息实体组成(如数据库记录)。[1]因此,对于网络信息资源的重构可以分为两个层次:针对信息源的重构和针对信息实体的重构。针对信息源的重构将导致一种导引性的信息组织及相应的服务方式,其功能是满足用户对于获知信息存放位置或信息来源的需求。针对信息实体的重构将导致一种实体性的组织方式和推送式的服务方式,其功能是直接满足用户对获得信息本身的需求。前者的实例包括一些网络资源导航、资源链接目录和信息源数据库等。而后者则正是我们正在或将要实现的。在本系统中,逻辑上信息源和信息实体被统一视为某个信息对象来加以描述、整序和管理。

  利用人工和计算机是实现网络信息资源重构的主要手段,尤其是后者,由于其高效率和全面的信息覆盖能力而在近几年逐渐成为主流。[2]大型的信息导航网站(如Yahoo等)和检索引擎(如Google等)都是利用软件自动搜索网上的信息资源并加以组织和整理,然后供用户检索和使用的。人工的手段由于成本、规模和效率的限制被迫处于辅助性地位,只能应用在一些局部性的系统中。然而,由于人工智能技术的局限,计算机软件在对信息形式和内容(尤其是内容)进行辨别、理解、描述和分析时所能达到的质量还远远不能和人的智力相提并论[3],特别是计算机软件无法对信息内容的学术质量加以权威性的鉴定和评估(显然,只有人,而且是具有一定学术背景的人才能完成这个工作)。[4]

  于是,问题被归结为:如何在网络信息资源的重构过程中使人的智力与计算机技术有效的结合起来。这里的“有效”应该包含三个方面的意义:可以接受的成本;足够大的规模;充分满足特定用户群的信息需求。而本文提出的解决方案则可以归结为:通过建立具有分布式网络信息资源组织和管理功能的技术平台,为专业学术研究人员收集、整理、组织和发布其相关学科的信息资源提供方便、科学和高效的技术手段,从而实现人的智力和计算机技术在网络信息资源重构过程中的有机结合。

  二、分布式信息收集、组织和管理模式的实现

  分布式的网络信息资源重构模式由三个层次组成:(1)第一层次是按学科分类组织和发布信息资源内容的学科信息服务网站群平台,它是由信息服务中介机构(如图书馆)实施组织和管理的集中式网络学科信息资源目录体系和系统技术支持机制。(2)第二层次是实施分布式信息收集、组织和管理的内容管理员群体及其工具平台,它是由具有较高学术背景和网络信息资源获取能力的专业研究人员,如高校教师或在读博士生组成内容管理员群体,利用相关工具平台建设各自专业的学科信息服务网站。(3)第三层次是提供信息交互和反馈功能的信息用户应用平台,它是用户获得由内容管理员收集、组织和发布的信息的渠道,同时用户可以通过该平台向相应内容管理员推荐信息资源、进行学术咨询和其他信息交互。

  其中支持分布式内容管理的内容管理员工作平台,即网络资源管理系统是实现该模式主要功能的关键。

  网络资源管理系统是由图书馆实施建设和管理的一个通过Web发布和展示信息资源的服务体系,由图书馆所属高校相关教学科研人员负责收集、整理、组织和管理Internet上相应学科、专业领域的信息资源,加以评估、介绍和研究并通过图书馆的信息服务系统在网上发布,从而共同构成具有学科特点的专业信息服务网站群。

  内容管理员是在网络资源管理系统中具有学科背景的信息收集者、组织者和发布者,对某个学科领域具有一定学术背景和兴趣(最好在该领域正在从事相关教学或科研工作),具有一定的图书馆学和信息处理的学术水平,熟练掌握网络信息搜索和获取的技术,具有一定的协调和管理能力,并且能够随时监测相关信息源的信息更新情况。内容管理员是分布式内容管理机制的核心。他们把信息收集、组织和整理作为其教学科研工作的一个部分来完成,这决定了他们与一般的图书馆学科馆员的主要区别。

  信息资源重构的质量很大程度上取决于对构成它的诸信息源内容的理解深度,或者使用程度。学科信息资源服务不必刻意去追求所选信息源的数量的众多和种类的齐全,而更看重这些信息源是否最适合相关学术领域的使用需要,并具有足够的权威性。而能够对信息源的质量进行可靠的判断的人,必须具有足够的学术背景,并且在相关学科的研究前沿具有一定的活跃程度。这就对选择和组织内容管理员队伍提出了较高的要求。

  内容管理员介入信息收集、组织和整理工作的方式是把它作为其教学科研工作的一个部分(尽管很可能是一个从属的部分)来完成。之所以要实现分布式的内容管理模式的主要原因也正在于此,不如此就无法充分而有效地利用高校学科专业人员从事信息服务工作的潜力。在教学科研工作过程中,信息的收集和组织本来就是一项必不可少的工作,对于本学科相关网络信息资源的了解和使用水平也越来越成为高校教师研究能力的重要标志之一。利用分布式的内容管理机制,把分散于学校各个角落的学科信息服务力量组织起来,无疑是高校图书馆建设网络信息资源的有效途径。

  传统图书馆(包括高校图书馆)在信息服务过程中主要起到信息资源指引中介的作用,而较少起到信息咨询中介作用,尤其是当这种咨询具有较强的学科特点和学术深度时。而在本文所构建的模式中,内容管理员利用其优越的学术背景和分布式、交互式的信息组织和发布工具,可以最大限度地将其智力和学科知识体现在相关学科的信息服务中。这种体现既表现为对静态的和外部的信息资源收集、组织和评价的质量与深度,还表现为内容管理员可以通过系统的信息交互平台直接解答读者的学术问题,也就是将其大脑中的智力和知识动态化地提供给读者。这也就是前文中提到过的通过这个机制,人的知识和智慧在被用来使纷繁复杂的网络信息资源有序化的同时,又成为其中不可或缺的组成部分。在这里,内容管理员既是学科信息的收集者和组织者,很可能同时又是某些信息的生成者。

  网络应用的日益普及为分布式内容管理提供了技术上的可行性,而网络资源管理系统则为它的实施提供了管理上的可行性。[5]同时,随着电子文献在数量和质量上的迅速增长,人们在教学科研过程中对电子信息资源的依赖程度和掌握能力也同步地增长,这就为内容管理员群体提供了越来越充分的人力资源背景。

  三、网络资源管理系统的设计和开发网络信息资源重构的工具平台

  设计和开发网络资源管理系统是实现分布式网络信息资源重构模式的核心任务,一个功能完善的网络资源管理系统能够起到以下作用:

  ·向读者提供网络信息资源的宏观和微观视图以及相应的访问方式;

  ·向内容管理员提供便利、高效的信息收集、组织和发布工具平台;

  ·向系统管理员提供用户管理、资源监测、资源评估等系统管理功能。

  以下笔者将根据在主持清华大学图书馆“985”电子图书馆建设项目的课题“网络资源管理系统的开发和应用”过程中的思路和经验,对网络资源管理系统的结构和功能加以概括。如图1所示:

  附图

  图1 网络资源导航系统总体结构

  网络资源管理系统包括5个方面的内容:

  (一)网络资源的描述。网络资源的描述是通过对相关元数据的制订来实施的,经过调研,确定以专门用来组织网络资源并且易于操作的都柏林元数据核心元素集(Dublin Metadata Core Element Set,简称DC)为基本集合,结合用户的检索要求、网络资源的特点以及系统的信息挖掘、资源监测和评估等高级功能,增加了相应的属性,制定出一套用以帮助识别、描述、定位、组织和管理网络资源的元数据集合:网络资源管理元数据(Network Resource Management Metadata,简称NRMM)。

  (二)网络资源收集、整理、组织和发布工具。工具平台包括各级用户注册模块、内容管理员资源添加、管理和维护模块、内容管理员站务管理模块和普通用户推荐资源模块。在网络信息导航系统平台上,系统的功能分为两种:

  第一种是需要人工参与的,包括面向系统管理员、内容管理员和普通用户等三种参与者的相应功能。其中,系统管理员具有最高权限,包括管理内容管理员和用户的属性信息、设置学科等;内容管理员负责分布式地收集、标引、组织和发布网络信息资源,以及审查由用户推荐的资源;普通用户可以浏览系统内现有资源和推荐新资源供内容管理员审查,同时还可进行信息反馈和交互。

  另一种系统功能是由系统自动执行的,具体包括网络信息源的自动监测和质量评估、网络信息挖掘和提供。

  (三)网络信息源的自动监测和质量评估。网络信息导航库的资源质量控制是通过人工审核和自动监测相结合来实现的,网络资源管理系统主要提供自动监测和基于自动获取指标数据的质量评估机制。[6][7]由于网上资源的变动性很大,因此,为了保证系统中资源的可用性和新颖性,这种定期监测评估是必需的。

  针对学术性资源,主要着眼于网站的内容和它的结构与系统机能进行评估。由于本系统所收集的网站信息资源已经十分庞杂,采取人工方式进行评估耗时耗力,因此,采取软件实时测试的自动评估方式。目前,将测试指标定为网站的链接状态和特征页面信息提取等几项,同时会记录每一个被监测对象的监测时间和监测周期,通过系统定时执行监测程序并保存监测结果。监测结果最终会向系统的内容管理员发出监测报告的通知,从而起到保持和维护信息资源系统的监督作用。

  (四)网络信息挖掘和提供。采用内容管理员模式来收集专业网络资源,提高了资源的精度和深度,但是,网络资源浩如烟海,光靠内容管理员人工查找是无法达到广度要求的。因此,采用自动抓取和人工过滤相结合的方式,即用非结构化的数据挖掘技术获取更有价值的信息。

  数据挖掘一般包含如下几个步骤:(1)理解相应的问题领域;(2)准备相关数据子集;(3)发现模式(数据挖掘);(4)所发现模式的后处理;(5)应用发现结果。本系统中数据挖掘部分的工作流程主要分以下几步:建立关键词表、源文档采集、信息过滤、用户浏览信息。[8]

  数据挖掘部分是一个人机结合的部分,它通过分工使人和计算机的特长都得到了充分的发挥。数据挖掘功能大大减轻了内容管理员的工作负担,增加了系统中网络资源的深度和广度,并且有一定智能性,可以对搜索到的数据进行剔重、加权等处理。

  (五)读者信息反馈和交互。网络信息资源导航的最终目的是帮助网络信息用户更充分,更有效地利用各种网络信息资源,服务于用户的学术研究、教学和学习。用户与系统之间、用户与用户之间的信息交互会在达成上述目的的过程中起到重要的作用。网络资源管理系统主要提供以下5种信息交互模式:用户网上调查、用户留言、电子公告版、网上传呼和在线讨论区。除了上述用户主动信息提供方式外,系统还会在用户使用系统各种功能和资源的过程中自动收集、整理和分析用户的操作信息,如点击页面、链接选择、输入检索词等,从中了解用户的需求和学科兴趣,为向用户提供个性化服务收集相关信息。

  用户信息反馈和交互是网络资源管理系统的重要功能,它的实现被分散在系统的各种模块中,使系统更加友好和智能化。

期刊VIP网,您身边的高端学术顾问

文章名称: 分析分布式网络信息资源重构系统实现模式

文章地址: http://www.qikanvip.com/tumugongcheng/10652.html