• wing1.0 > 控制词汇之自动索引
  • 控制词汇之自动索引

    免费下载 下载该文档 文档格式:PDF   更新时间:2002-09-09   下载次数:0   点击次数:2
    文档基本属性
    文档语言:
    文档格式:pdf
    文档作者:Alex
    关键词:
    主题:
    备注:
    点击这里显示更多文档属性
    控制词汇之自动索引
    Automatic Indexing for Controlled Vocabularies
    陈光华 Kuang-hua Chen
    台湾大学图书资讯学系助理教授 khchen@ccms.ntu.edu.tw
    伍健廷 Chien-ting Wu
    台湾大学图书资讯学系硕士 jtwu@steelman.lis.ntu.edu.tw
    【摘要 Abstract】 摘要
    本论文於词汇频率统计的基础下,利用大量经人工控制词汇索引的文件,配合控制词汇所提供 的语意讯息,设计一个自动索引模型.索引模型使用新的词汇显著性计算公式 TF×OSDF×CSIDF 修 正传统以 TF×IDF 无法将主题专指性词汇从主题相近的文件集合中分离出来的问题.实验针对 100 个 MeSH 标题,利用总数 60,400 篇文件的摘要与题名进行训练与测试,结果显示索引模型的表现相 当优良.摘要部份的索引精确率与索引回现率可同时到达 90%以上,题名部份则在索引精确率 90% 的要求下,维持索引回现率於 70%.透过索引模型产生大量的控制词汇建议名单,将可以减轻索引 一致性的问题,提高文件的控制词汇索引数量,改善传统控制词汇索引因为产量过少,导致检索时 精确率虽高,但回现率却不如自然语言索引的现象. Based on statistics of word frequency and supported by semantic information of controlled vocabularies, a new model for automatically controlled-vocabulary indexing is proposed in this paper. In the proposed model, a new formula of term significance, TF×OSDF×CSIDF, amends the flaw of TF×IDF, in which subject-specific words with high benefit to subject identification cannot be distinguished from other words in the document collection of the same or close subject. Involving with 100 MeSH subject heading and 60,400 abstracts and titles, results of the experiment achieve high performance, whereas indexing precision and recall exceed 90% concurrently in abstract part. In title part, the indexing precision reaches 90% and indexing recall keeps 70% at the same time. By consulting plentiful candidates of controlled vocabularies generated by the model, problem of indexer's consistency could be alleviated. Besides, much time and cost saved will directly prompt quality and quantity of controlled-vocabulary index terms, and finally improve retrieval performance indirectly. 【关键字 Keywords】 : 自动索引;控制词汇;主题分析 Automatic Indexing; Controlled Vocabulary; Subject Analysis
    一,前言
    索引是传统图书馆学的核心之一,不但累积 丰富的研究成果 而且是图书馆组织资讯的主要方 , 法 索引工作不仅有赖於图书馆员专业的学识与经 . 验才能达成 而且索引者必须花费大量的时间和精 , 力才能维持索引品质 在索引专家与学科专家难寻 . 的背景下,日益严重的资讯爆炸现象,对於人力普 遍不足的图书馆来说,无异是雪上加霜.除了人力 不足的难题外,传统索引关於索引一致性的争议, 仍是索引工作中一直无法有效解决的问题.从 1950 年代开始,伴随著计算机技术的进步,学者

    下一页

  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 PDF格式下载
  • 您可能感兴趣的
  • 拳皇wing1.0神大蛇  拳皇wing1.0体验版  拳皇wing1.0迅雷下载  拳皇wing1.0隐藏人物  拳皇wing1.0  拳皇wing1.0下载  拳皇wing1.0无敌版  拳皇wing1.0出招表  拳王wing1.0