1 jieba中文分词
1.1 分词
1 | import jieba |
Full mode:做/ 最好/ 的/ Python/ 中文/ 分词/ 词组/ 组件 Default mode:做/ 最好/ 的/ Python/ 中文/ 分词/ 组件 做, 最好, 的, Python, 中文, 分词, 组件
Full mode:我/ 目前/ 在/ 学习/ Golang/ 和/ Python/ Default mode:我/ 目前/ 在/ 学习/ Golang/ 和/ Python/ 。 我, 目前, 在, 学习, Golang, 和, Python, 。
1.2 自定义词典
招聘信息收集了很多,但是关键字提取却不是很理想,我查看了jiaba的词典里,基本没有对英文专有名词的支持, 这可苦煞了我,但是jieba支持自定义词典,我来生成英文的专有名词的词典好了。一行一行的加,难为我这个懒人了, 但总有好心人,已经整理好了,试想这个名词是不是招聘网站已经整理好了,而且分门别类的,只需要把它们取回来就好了。
1 | def get_html(url): |
1 | def fetch_lagou(): |
看来我思维受限了,招聘网站整理的信息都是高频信息,但是广度肯定是不够的,那怎么办呢。 这个时候 stackoverflow 闪现在我的脑海中,没有那个网站里有关技术的广度,能和它匹敌了。
1 | def fetch_stackoverflow(): |
1.3 调整词典
1 | import jieba |
理解能力, 经验, 数据挖掘, 敏锐度, 平台, odps, hadoop, 数据仓库, hive, 建模, 业务, 海量, 能力, 数据, 协作, 优先, 团队, 模型, 计算机, 学科 理解能力, 经验, 数据挖掘, 敏锐度, 平台, odps, hadoop, 数据仓库, hive, 建模, 业务, 海量, 能力, 数据, 协作, 优先, 团队, 模型, 计算机, 学科
1.4 关键词提取
1 | import jieba.analyse |
1 | import jieba.analyse |
2 wordcloud词云
2.1 简单词云–美国宪法的词云
1 | """ |
<img src="/images/constitution-n.png” />
<img src="/images/constitution-s.png” />
2.2 Colored by Group
1 | from wordcloud import (WordCloud, get_single_color_func) |
<img src="/images/grouped-color.png” />
2.3 西游记的词云
1 | import jieba.analyse |
<img src="/images/xiyouji.png” />
<img src="/images/xiyouji-mask.png” />
<img src="/images/xiyouji-custom.png” />
<img src="/images/xiyouji-color.png” />
2.4 阿里招聘的词云
招聘信息是我使用爬虫趴下来的的,这里只做数据的分析。
1 | # -*- coding: utf-8 -*- |
<img src="/images/alibaba-mask.png” />
Render by hexo-renderer-org with Emacs 25.3.2 (Org mode 8.2.10)