• 计算机系毕业设计 > 汉语事件描述小句自动识别
  • 汉语事件描述小句自动识别

    免费下载 下载该文档 文档格式:PDF   更新时间:2009-10-02   下载次数:0   点击次数:2
    文档基本属性
    文档语言:
    文档格式:pdf
    文档作者:
    关键词:
    主题:
    备注:
    点击这里显示更多文档属性
    汉语事件描述小句自动识别 *
    陈丽欧 1,周强 2
    1. 2.
    清华大学计算机系,北京 100084
    清华大学信息技术研究院语音和语言技术中心,北京 100084
    1.
    chouou@foxmail.com,2zq-lxd@mail.tsinghua.edu.cn
    摘 要:本文提出了一种汉语事件描述小句的自动识别方法,通过对事件描述小句边界分布情况的分析,将该识 别任务转化为对句中特殊符号分类的任务.利用最大熵分类器,选择两类有效的特征,重点解决对非结句点号的 分类,并在后处理阶段中总结了对提高识别性能有帮助的规则,最终在测试集上获得了 79.98 的 F1 值.最后,总 结了识别方法的思想,分析现有处理系统的不足之处,并提出了一些展望. 关键词:点号,分类,后处理
    Automatic Identification of Chinese Event Descriptive Clause
    Chen Liou1
    1 2
    Zhou Qiang2
    Department of Computer Science and technology,Tsinghua University,Beijing 100084,China
    Center for Speech and Language Technologies, Tsinghua National Laboratory for Information Science and Technology, Beijing 100084,China
    1.
    chouou@foxmail.com,2zq-lxd@mail.tsinghua.edu.cn
    Abstract: We propose an automatic method to identify Chinese Event Description Clause. By analyzing the boundary distribution of clauses, we formulate this identification task as a classification of special symbols. The maximum entropy classifier is trained and two kinds of useful features and their combinations are used to classify the Non-End Symbol. After identifying all clauses, a rule-based post-processing phase for improving the clause recognition performance is included, and ultimately F1=79.98 result is obtained on the test set. Finally, we summarize the method, analysis some deficiencies in current system and give the future research directions. Key words: punctuation mark, classify, Post-processing
    1 概述
    汉语事件描述小句(EDC)定义为以逗号,分号,句号,问号等点号分隔而形成的词语序 列,它是包含完整事件内容信息的最小单元.在 EDC 的基础上可以做进一步的句法分析和语义 理解,对自然语言处理具有重要的意义,因此迫切需要对 EDC 识别做深入的研究.同时,由于 汉语 EDC 平均长度较长(9 个词以上) ,内部组成复杂,且点号的使用非常灵活,又导致 EDC 的识别具有一定的挑战性. Leffa 对EDC的自动识别, 国内外的相关研究不多. Steven Abney[1] 提出了一种子句过滤器; [2] 实现了一种基于规则的英语及葡萄牙语文本中子句识别方法; Orasan[3]在Susanne语料库上完成一
    *
    本项研究得到国家自然科学基金项目(编号:60573185,60873173)和国家高科技研究发展计划(编号 2007AA01Z173)资助.
    种基于记忆学习方法的子句识别系统, 该系统还包括一个基于规则的后处理阶段; CoNLL-2001[4] 也对英语子句识别任务进行过评测. 英语子句识别基本包括三个阶段,子句起点识别,终点识别和完整嵌套结构识别.本文的 EDC 识别不考虑小句内的嵌套结构,仅从输入的经过分词及词性标注的句子当中识别出所有上 层 EDC 的边界(起点,终点) . 现有的英文子句识别方法通常是基于子句间具有比较明显的先行词这一特征的,而汉语 EDC 则是以点号作为分隔, 子句间没有明显的标记. 考虑到汉语 EDC 的特殊结构, 本文将 EDC 识别任务转化为对句子中可充当 EDC 边界的符号的识别问题,通过选取分类特征,构造对符号 进行分类的分类器,从而识别出相邻两个自由符号之间的 EDC,并加入基于规则的后处理步骤, 进一步提升识别性能.实验结果表明,这种做法有效可行.

    下一页

  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 PDF格式下载
  • 您可能感兴趣的
  • 计算机毕业设计  计算机毕业设计题目  计算机毕业设计下载  计算机专业毕业设计  计算机系毕业论文  计算机本科毕业论文  计算机网络毕业论文  计算机毕业论文下载  计算机专业毕业论文