• 网络信息资源论文 > 网络信息资源自动标引
  • 网络信息资源自动标引

    免费下载 下载该文档 文档格式:DOC   更新时间:2008-12-01   下载次数:0   点击次数:1
    文档基本属性
    文档语言:Simplified Chinese
    文档格式:doc
    文档作者:linda
    关键词:
    主题:
    备注:
    点击这里显示更多文档属性

    网络信息资源自动标引
    ——面向中文网络文本信息的研究
    附注:
    网络信息资源自动标引
    ——面向中文网络文本信息的研究
    信息管理系 朱琳,杨梁彬
    摘要
    摘要:面对以指数级速度增长的海量网络信息资源和迅速增加的网民,如何有效的利用Internet信息资源成为一个急待解决的问题.本文正是针对这一点,面向中文网络文本信息资源,着重以网络中文信息资源的自动标引为切入点进行研究.
    一,引言
    Internet的信息资源对局域网信息资源的空间拓展是革命化的,它具有数量巨大,增长迅速,形式多样,变化频繁,分布广泛,结构复杂等特点.
    目前全球有3.2亿人上网,并每天有超过4000台计算机入网,每年以15~20%的速度增长.到2000年,超过100万个网站,1亿台计算机和10亿个用户上网.在中国,从90年代中后期开始,Internet的发展更是日新月异.根据中国互联网络信息中心(CNNIC)公布的第十二次中国互联网络发展状况调查报告(2003年7月),目前我国上网计算机数达2572万台,上网用户达6800万人.
    在传统的信息组织工作中,人们主要采用的是人工标引,这种标引方法由于人为控制因素的加入,所以标引深度比较高,也比较准确.但是完全人工的做法使得这种标引的成本很高,而且由于人的精力是有限的,所以标引的速度,数量,质量也只能勉强满足传统信息源的新增水平,此外,由于主要是人工完成,因此一些外界影响因素的干扰十分明显,比如:标引人员本身的素质,标引内容是否是他们比较熟悉的内容,甚至标引人员的心情都会极大的影响标引结果.网络信息资源不同于以往的那些书本,报刊等传统信息源,它的数量极大,并且每天都在不断的膨胀中,而且其内容变化更新频繁,发布的机构复杂,来源混乱,仍然采用人工标引的方法显然是不适应的了,我们对网络资源的加工整序,就不得不考虑一些新的方法.当前,最可行的就是引入机器,实现自动化处理.其一,是对网络资源,主要是网页的文本信息进行自动标引处理;其二,则是考虑从文本检索的角度实现网络资源的整序与应用.
    对于自动标引,其优势是显而易见的.首先,自动标引可以实现较高的速度和质量赋词,这样就可以从容地处理高速膨胀的网络资源,同时,也可以适应网络资源更新快,不稳定的特点.其次,自动标引的费用比较低,在投入了初期的系统建设,硬件购买的固定成本后,其边际成本增长是比较低的,更适合标引数量大的信息源.而人工标引的成本却只会随着标引数量的增加而相应增加,在网络时代显得不够经济.再次,自动标引的质量随着现有技术的提高更加符合人们的需要,它的标引能力,处理稳定性都大大的超过了人工标引.美国学者伦兹曾做过两实验,6名标引人员在不同时间标引同一文献,标引一致率为 0 . 1 58(假定完全一致为 1 . 0);由同一标引人员在不同时间标引同一文献,标引一致率为 0 . 1 6 1 9;若采用计算机自动标引,不论何时对同一篇文献总能标引出相同的主题词.美国学者 Salton对 MEDLARS和SMART作一些比较,前者是受控人工标引系统,后者是自动标引与检索系统.其结论是:相对简单的自动文本分析系统在文献检索环境中产生的检索结果,其质量不亚于受控标引通常所能达到的水平.
    而文本检索的介入则是网络环境下特有的产物.在传统的信息组织过程中,标引和检索是两个相对比较独立的过程,一篇文献的处理顺序是首先进行人工的标引,然后面对用户的检索提问采取相应的策略完成信息检索.而在网络环境下,这两者的分歧就要小的多,一些国外的学者甚至认为自动标引可以由文本检索替代,而且其效果会更好.在我们看来,这样的结论过于武断.文本检索和自动标引的确是有一定的相似之处的,它们都是以语词匹配为基础的,其差异在于文本检索系统是后组式的,对信息资源不进行比较深的加工处理,因此在输入检索式之后系统负担较重,等待时间可能会比较长;而自动标引则有一个完备的标引结果的,在输入检索式之后,实质上是在一个先组的环境下检索,因此系统的负担比较,等待时间可以大大缩短.
    所以,这两种方法各有优势,不能片面的说哪种更好.本文着重从自动标引角度出发,面向中文网络文本信息资源,通过对现有自动标引系统的研究以及相关理论的探索,关注中文网络文本信息资源的整序和组织,借此来提高自己的专业素养和理论水平.
    二,网络资源概况
    中国互联网络发展简况
    截止到2003年6月30日,我国的上网计算机总数已达2572万台,同上一次调查结果相比,我国的上网计算机总数半年增加了489万台,增长率为23.5%,和去年同期相比增长59.5%,是1997年10月第一次调查结果29.9万台的86倍,可见我国上网计算机总数呈现出比较快的增长态势,具体增幅可见图表1:

    下一页

  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 DOC格式下载
  • 您可能感兴趣的
  • 网络信息资源管理论文  网络学习资源的论文  信息资源管理毕业论文  人力资源管理信息论文  信息是一种资源论文  信息资源规划论文  企业信息资源管理论文  网络信息资源  网络资源与信息检索