pycharm怎么把代码提交到github上
python常见的中文分词包含哪些?应该怎么使用?
python常见的中文分词包含哪些?应该怎么使用?
这里简单介绍2个中文分词包,一个是jieba,一个是snownlp,这2个中文分词包都可以完成中文分词、词性标注、关键词提取等功能,下面我简单介绍一下这2个包的安装和使用,实验环境win10 python3.6 pycharm5.0,主要内容如下:
jieba中文分词:这个大部分人都应该听过,应用比较广泛,可以完成常见的词性标注、关键词提取,使用起来非常方便,下面我简单介绍一下这个库:
1.安装jieba,这个直接在cmd窗口输入命令“pip install jieba”就行,如下:
2.安装完成后,就可以进行简单的测试了,测试代码如下,这里完成了分词、词性标注、提取关键词的功能:
程序运行截图如下,已经成功分词、标注词性及提取关键词:
snownlp中文分词:这也是一个中文分词包,所有算法都是作者自己实现,可以快速处理中文文本,包括分词、分句、词性标注、情感分析、关键词提取、tf、idf等,下面我简单介绍一下这个库:
1.安装snownlp,这个直接在cmd窗口输入命令“pip install snownlp”就行,如下,可能需要等待一会儿:
2.安装完成后,我们就可以进行简单的从测试了,主要代码如下,包括分词、词性标注等功能:
程序运行截图如下:
至此,我们就完成了jieba和snownlp这2个中分分词包的介绍和使用。总的来说,整个过程很简单,只要你有一定的python基础,熟悉一下相关示例和代码,很快就能掌握的,当然,你也可以使用其他中分分词包,像hulac,corenlp等,网上也有相关教程和资料,感兴趣的可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言。
程序开发,苹果笔记本为什么是首选?
我一个前辈说:就算你之前使用的是外星人,也是不如苹果笔记本好用,真是这样吗?
1.开发环境:在mac上搭建的开发环境可以与Linux服务器上的基本一致,直接移植就可以使用;
2.脚本:shell脚本是windows的弱项,虽然windows有dos,但是与shell还是有天壤之别,大了不说就说把一千万行的文件每十万条分割为一个新文件,dos有命令吗,linux与mac一个命令split搞定,用不了3秒钟搞定。这个是最简单的,当用到sed、awk这些脚本命令对于windows用户来说简直效率高到无法想象。而mac提供了这些所有所有的东西,甚至可以说Linux有的mac也有;
3.开发工具:windows下的开发工具很多,但是质量参差不齐,主要表现在如果开发者使用的工具是用Basic开发出来的,那执行效率一定比mac的工具要慢很多,量少一两百万比不出来效率,量大了效率还是非常明显的,mac的开发工具都是优化过的。种类很少但质量优秀;
4.操控和携带:对于程序开发者来说,mac用不着鼠标,用触摸板足矣,也不用关机,合上盖拔掉电源直接带走,回家再干几个小时,而windows如果回家忘了带鼠标实在无法想象怎么工作,心情绝对糟糕透顶。
【我是个老码农,这些我都接触过,折腾过,就写这几点吧,还是不太会写这类东西,见谅】