文本挖掘初步 - 对自由文本进行信息抽取

文本挖掘

最近的一个比赛,做的主体部分是文本挖掘,核心内容是从一堆自由文本(大多是爬虫爬取内容)中提取出可用的数据。因为刚刚接触这个领域,所以很多内容是边学边做,顺便做做记录。

文本挖掘需要用到的内容有机器学习(Machine Learning),数据挖掘(Data Mining),自然语言处理(Natural Language Process)等多个领域的内容,因此在之后的文章依次记录相应学习过程。

步骤

准备采取的过程为以下步骤:

感激

整个学习和开发过程中查阅了很多资料,以下几个博主的文章对我有很大帮助,对此表示感谢: