当前位置: 弗里敦 >> 弗里敦机场 >> 一种获取NLP语料的基本方法
上次送书我选择了这四位:左小孙、正、慎读、孙湛林,请看到后联系我,若三天内未与我取得联系名额自动让给其他留言者。在此非常感谢参与留言活动的其他小伙伴,分别是天籁之音、王者灵魂、Hellboycc、山猫、小炮先生、三根葱、Pluto、林卫明、影子、小杨同学、Analyzestatisticsthendie、沈杰、平凡、若水、胡健、沐雨、云梦泽、遗贤对酒、你是不是、Iam、追风少年、HuaBro、哈弗在等我呢、天经地义、益达、新安乌篷船、戍轮台、龙James、懂自己的Boy熊、苏先生、贾任远、罢去、兰若
你们的留言让我很感动,但数量真的有限,不过下次送书很快就会到来。
学习自然语言处理,语料获取是第一步,那么如何抓取和提取语料呢,本文提供一种思路。
维基百科语料库维基百科会定期把各种语言的百科网页全部打包存储起来,这里我们选择其中的中文维基百科网页,这个文件可以作为中文语料库来使用。原始维基百科数据是压缩的xml文件,为了提取其中词条的纯文本内容,去掉众多xml标记,我们必须要对原始的压缩文件进行处理,提取有用信息。
语料库处理首先下载原始的中文维基百科网页文件,下载地址为
转载请注明:http://www.paerhatit.com/fldjc/21198.html