大家好,今天小编关注到一个比较有意思的话题,就是关于python编程分句的问题,于是小编就整理了1个相关介绍Python编程分句的解答,让我们一起看看吧。
python常见的中文分词包含哪些?应该怎么使用?
jieba 中文分词——做最好的Python中文分词组件,这也是我们最常用的中文分词模块,其具备如下特点:
接下来,我们以具体例子来介绍下如何应用中文切词实现提取句子中的中文词。
对如下文本文件实现中文分词,并且分词结果中不包含字母、标点、中英文停词(如,an、and一定、一方面)等内容,同时支持特定含义词组的切分(如“中国梦”、"青花瓷",不能分切分成"中国","梦","青花”,"瓷"),分词结果输出至txt格式文件中。
1.设置中文停词表,如下:
3.使用jieba模块的精确分词模式cut()进行分词处理。
5.通过停词表过滤掉停词内容。
这里简单介绍2个中文分词包,一个是jieba,一个是snownlp,这2个中文分词包都可以完成中文分词、词性标注、关键词提取等功能,下面我简单介绍一下这2个包的安装和使用,实验环境win10+python3.6+pycharm5.0,主要内容如下:
jieba中文分词:这个大部分人都应该听过,应用比较广泛,可以完成常见的词性标注、关键词提取,使用起来非常方便,下面我简单介绍一下这个库:
1.安装jieba,这个直接在cmd窗口输入命令“pip install jieba”就行,如下:
2.安装完成后,就可以进行简单的测试了,测试代码如下,这里完成了分词、词性标注、提取关键词的功能:
snownlp中文分词:这也是一个中文分词包,所有算法都是作者自己实现,可以快速处理中文文本,包括分词、分句、词性标注、情感分析、关键词提取、tf、idf等,下面我简单介绍一下这个库:
1.安装snownlp,这个直接在cmd窗口输入命令“pip install snownlp”就行,如下,可能需要等待一会儿:
到此,以上就是小编对于python编程分句的问题就介绍到这了,希望介绍关于python编程分句的1点解答对大家有用。