弗里敦

一种获取NLP语料的基本方法

发布时间:2021/9/17 12:32:24   点击数:

上次送书我选择了这四位:左小孙、正、慎读、孙湛林,请看到后联系我,若三天内未与我取得联系名额自动让给其他留言者。在此非常感谢参与留言活动的其他小伙伴,分别是天籁之音、王者灵魂、Hellboycc、山猫、小炮先生、三根葱、Pluto、林卫明、影子、小杨同学、Analyzestatisticsthendie、沈杰、平凡、若水、胡健、沐雨、云梦泽、遗贤对酒、你是不是、Iam、追风少年、HuaBro、哈弗在等我呢、天经地义、益达、新安乌篷船、戍轮台、龙James、懂自己的Boy熊、苏先生、贾任远、罢去、兰若

你们的留言让我很感动,但数量真的有限,不过下次送书很快就会到来。

学习自然语言处理,语料获取是第一步,那么如何抓取和提取语料呢,本文提供一种思路。

维基百科语料库

维基百科会定期把各种语言的百科网页全部打包存储起来,这里我们选择其中的中文维基百科网页,这个文件可以作为中文语料库来使用。原始维基百科数据是压缩的xml文件,为了提取其中词条的纯文本内容,去掉众多xml标记,我们必须要对原始的压缩文件进行处理,提取有用信息。

语料库处理

首先下载原始的中文维基百科网页文件,下载地址为

转载请注明:http://www.paerhatit.com/fldjc/21198.html

------分隔线----------------------------

热点文章

  • 没有热点文章

推荐文章

  • 没有推荐文章