概念解释
- 词云图(wordcloud):是这两年比较火的文本可视化分析的一种,上图就知道说的啥了:
jieba:python库,用于中文分词。
wordcloud:python库,用于词云图制作。
停用词表(stopwords):在英文中像“the / of / a / for /…”,在中文中像“的 / 是 / 也 / 之 /…”这样的没有实际意义却出现频率较高的词。为了防止这些词抢了比如故事主角名的位置,就事先作为停用词,不进入文本分析。
按规矩,先上文档结构图!文档中所需文件的下载地址,点这里
1 | |-wordcloud //新建文件夹 |
英文词云图
例子1:10行代码搞定的词云图 // alice1.py
输入:
1 | # -*- coding: utf-8 -*- |
输出:
例子2:有形状的词云图 // alice2.py
输入:
1 | # -*- coding: utf-8 -*- |
输出:
中文词云图
例子:延禧攻略的白月光 // queen.py
中文与英文还是有点不一样的,在停用词表就需要自己弄一套等等。记得跑之前要把该下载的文件下载到文件夹里。
输入:
1 | # -*- coding: utf-8 -*- |
输出:
再来一次:
白月光皇后的人头形状和扇子形状都还在的。
写在最后
这里用到的文本分析的技术只停留在分词阶段,还是比较简单的。可视化分析永远是最吸引人的。快去试一下吧~😋