一种获取NLP语料的基本方法_弗里敦机场

当前位置： 弗里敦 >> 弗里敦机场 >> 一种获取NLP语料的基本方法

一种获取NLP语料的基本方法

发布时间:2021/9/17 12:32:24 点击数：次

上次送书我选择了这四位：左小孙、正、慎读、孙湛林，请看到后联系我，若三天内未与我取得联系名额自动让给其他留言者。在此非常感谢参与留言活动的其他小伙伴，分别是天籁之音、王者灵魂、Hellboycc、山猫、小炮先生、三根葱、Pluto、林卫明、影子、小杨同学、Analyzestatisticsthendie、沈杰、平凡、若水、胡健、沐雨、云梦泽、遗贤对酒、你是不是、Iam、追风少年、HuaBro、哈弗在等我呢、天经地义、益达、新安乌篷船、戍轮台、龙James、懂自己的Boy熊、苏先生、贾任远、罢去、兰若

你们的留言让我很感动，但数量真的有限，不过下次送书很快就会到来。

学习自然语言处理，语料获取是第一步，那么如何抓取和提取语料呢，本文提供一种思路。

维基百科语料库

维基百科会定期把各种语言的百科网页全部打包存储起来，这里我们选择其中的中文维基百科网页，这个文件可以作为中文语料库来使用。原始维基百科数据是压缩的xml文件，为了提取其中词条的纯文本内容，去掉众多xml标记，我们必须要对原始的压缩文件进行处理，提取有用信息。

语料库处理

首先下载原始的中文维基百科网页文件，下载地址为

转载请注明:http://www.paerhatit.com/fldjc/21198.html

------分隔线----------------------------

热点文章

没有热点文章

一种获取NLP语料的基本方法

最新文章

热点文章

推荐文章