1、 本科生毕业论文(设计)本科生毕业论文(设计) 论文(设计)题目:论文(设计)题目: 汉语分词技术汉语分词技术初探初探 学学 院、院、 系:系: 信信息工程学院息工程学院 计算机科学与技术系计算机科学与技术系 专专 业业 ( (方方 向向) ): 计算机科学与技术计算机科学与技术 年年 级、级、 班:班: 学学 生生 姓姓 名:名: 指指 导导 教教 师:师: 2011 年 5 月 18 日 I 汉语分词技术汉语分词技术初探初探 摘摘 要要 所谓汉语分词,就是将中文语句中的词汇切分出来的过程。由于汉语 的书写习惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单词 之间有空格,所以不存在分词
2、问题。而中文的每一句中,词与词之问是没 有空格的,因而必须采用某种技术将其分开。 分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它 的质量好坏直接影响到后续处理步骤的效果。汉语分词工作看似细微,但 作为计算机自然语言处理的第一步,它的关键作用是不容忽视的。如今汉 语分词己成为自然语言处理的研究热点与难点。 本文讨论了中文分词的概念、目标及其所面临的一些基本问题,详细 介绍了三种基本中文分词算法,并对中文分词词典的索引及常用词典结构 进行了介绍,最后说了正向最大算法的实现及测试结果。 关键词关键词 中文分词中文分词 最大匹配最大匹配 分词词典分词词典 自然语言处理自然语言处理 II
3、ABSTRACT Chinese word segmentation,is to cut the sentence in the Vocabulary subout process Since the writing habits of Chinese,Chinese sentence symbol between words is impliedthe English words have the spaces between the words,So there is easy to separateThe Chinese word for each sentence, there is
4、no space between words, and therefore must be some kind of technology to separate sentence Chinese sentence segmentation algorithm from the 20th century, since the 80S has been a research focus,due to the complexity of the Chinese language has been in a stage of development Segmentation of natural l
5、anguage processing technology as the basic link,but also one of the key links,and its direct impact on the quality of the subsequent processing steps resultsChinese word segmentation the first step in natural language processing,and its importance can not be ignored Key Words Chinese Word Segmentati
6、on,Maximum match,Segmentation Dictionary, Chinese Information Processing III 目目 录录 一、引言 1 二、中文分词简介 3 (一)中文分词的概念 . 3 1、什么是中文分词 . 3 2、中文分词的应用 . 4 (二)中文分词的目标 . 5 1、准确性 . 6 2、运行效率 . 6 3、通用性 . 6 4、适用性 . 7 (三)中文分词的基本问题 . 7 1、分词规范 . 8 2、歧义识别 . 10 3、未登录词 . 11 三、基本中文分词算法 12 (一)中文分词算法介绍 . 12 1、基于字符串匹配的分词算法 . 12 2、基于理解的分词算法 . 14 3、基于统计的分词算法 . 14 (二)根据具体应用使