|本期目录/Table of Contents|

蒙古文词性标注研究(PDF)

《内蒙古大学学报(社会科学版)》[ISSN:1000-9035/CN:22-1262/O4]

期数:
2015年02期
页码:
26-32
栏目:
蒙古学研究
出版日期:
2015-04-10

文章信息/Info

Title:
A Study of Mongolian POS-tagging
作者:
那日松1 淑琴2
1. 杭州师范大学国际教育学院, 浙江 杭州 311121;
2. 内蒙古大学图书馆, 内蒙古 呼和浩特 010021
Author(s):
Narisong1 SHU Qin2
1. School of International Education, Hangzhou Normal University, Hangzhou 311121, China;
2. Library of Inner Mongolia University, Hohhot 010021, China
关键词:
蒙古文词性标注CRF模型SVM模型
Keywords:
MongolianPart Of Speech (POS) taggingCRF modelSVM model
分类号:
TP391
DOI:
-
文献标识码:
-
摘要:
笔者基于条件随机场(Conditional Random Field, CRF)和支持向量机(Support Vector Machine, SVM)模型,通过增加上下文、附加成分和蒙古文字母等特征,对蒙古文句长为8到25的将近4万个句子进行了词性标注的研究。研究表明,CRF模型和SVM模型在标注蒙古文词性方面都有比较好的结果,其中在考虑上下文和特征"连写的构形附加成分"的情况下,SVM模型标注蒙古文词性的准确率可以达到99%以上。
Abstract:
In the tagging of 400,000 sentences of 8 to 25 words with the new Mongolian POS tagging set, Conditional Random Field (CRF) and Support Vector Machine (SVM) models are applied in analyzing the features such as the contexts, agglutinative inflectional suffix, and the letter distribution patterns of Mongolian words. Both models report satisfactory outcome, and the SVM with contextual features and the "agglutinative inflectional suffix" in particular reports a precision rate of over 99%.

参考文献/References

[1] 华沙宝.对蒙古文语料库的词类标注系统——AYIMAG[J].内蒙古大学学报(人文社会科学版),1999,(5).
[2] 叶嘉明.基于规则的蒙古语词法分析研究与实现[D].北京大学硕士学位论文,2005.
[3] 图格木勒.蒙古语语言资源库建设相关技术研究[D].内蒙古大学硕士学位论文,2007.
[4] 胡冠龙,张建,李淼.改进的基于转换方法的拉丁蒙文词性标注[J].计算机应用,2007,(4).
[5] 王斯日古楞.蒙古语单词词性自动识别研究[J].内蒙古师范大学学报(自然科学汉文版),2007,(3).
[6] 艳红.基于统计的蒙古文自动词性标注的研究与实现[D].内蒙古师范大学硕士学位论文,2010.
[7] 张贯虹,斯·劳格劳,乌达巴拉.融合形态特征的最大熵蒙古文词性标注模型[J].计算机研究与发展,2011,(12).
[8] 应玉龙,李淼,乌达巴拉,等.基于条件随机场的蒙古语词性标注方法[J].计算机应用,2010,(8).
[9] J. Lafferty, A. McCallum, F. Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[J].In Proc. of ICML, 2001.
[10] Fei Sha,Fernando Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C].NAACL’03: Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology,2003.
[11] T. Joachims, T. Finley, Chun-Nam Yu.Cutting-Plane Training of Structural SVMs[J].Machine Learning Journal,2009,77(1).
[12] I. Tsochantaridis, T. Joachims, T. Hofmann, Y. Altun.Large Margin Methods for Structured and Interdependent Output Variables[J].Journal of Machine Learning Research,2005,(6).
[13] I. Tsochantaridis, T. Hofmann, T. Joachims, Y. Altun. Support Vector Machine Learning for Interdependent and Structured Output Spaces[C]. International Conference on Machine Learning,2004.
[14] Y. Altun, I. Tsochantaridis, T. Hofmann.Hidden Markov Support Vector Machines[C]. International Conference on Machine Learning, 2003.

备注/Memo

备注/Memo:
收稿日期:2014-9-10;改回日期:。
基金项目:国家社科基金项目(项目批准号:11&ZD188)
作者简介:那日松,女,蒙古族,内蒙古兴安盟人,杭州师范大学国际教育学院,助理研究员,博士;淑琴,女,蒙古族,内蒙古哲里木盟人,内蒙古大学图书馆,副研究馆员。
更新日期/Last Update: 1900-01-01