34  词云图

34.1 什么是词云图?

“词云”就是通过形成”关键词云层”或”关键词渲染”,对文本中出现频率较高的”关键词”进行视觉上的突出。词云图过滤掉大量的文本信息,使浏览者只要一眼扫过文本就可以领略文本的主旨。

本文我们就来讨论一下词云图是如何绘制的以及如何对其进行解读。

34.2 绘图前的数据准备

demo数据可以在https://www.bioladder.cn/shiny/zyp/bioladder2/demoData/wordcloud/wordcloud.zip下载。

本工具支持两种数据格式,一种是词频,另一种是一段话。

34.2.1 词频

必须要有列名,名称自定义。第一列为名称,第二列为名称对应的数量。

34.2.2 一段话

支持中文和英文,工具会自动将其拆分为词,并统计个数

34.3 R语言怎么画词云图

library(jiebaRD) 
library(jiebaR)                 
library(wordcloud2)

# 先将一段文字转成词频
text = "蛋白质组(Proteome)的概念最先由Marc Wilkins提出,指由一个基因组(genome),或一个细胞、组织表达的所有蛋白质(Protein). 蛋白质组的概念与基因组的概念有许多差别,它随着组织、甚至环境状态的不同而改变. 在转录时,一个基因可以多种mRNA形式剪接,并且,同一蛋白可能以许多形式进行翻译后的修饰. 故一个蛋白质组不是一个基因组的直接产物,蛋白质组中蛋白质的数目有时可以超过基因组的数目. 蛋白质组学(Proteomics)处于早期“发育”状态,这个领域的专家否认它是单纯的方法学,就像基因组学一样,不是一个封闭的、概念化的稳定的知识体系,而是一个领域. 蛋白质组学集中于动态描述基因调节,对基因表达的蛋白质水平进行定量的测定,鉴定疾病、药物对生命过程的影响,以及解释基因表达调控的机制. 作为一门科学,蛋白质组研究并非从零开始,它是已有20多年历史的蛋白质(多肽)谱和基因产物图谱技术的一种延伸. 多肽图谱依靠双向电泳(Two-dimensional gel electrophoresis, 2-DE)和进一步的图象分析;而基因产物图谱依靠多种分离后的分析,如质谱技术、氨基酸组分分析等."

initialize = worker(stop_word="stopwords.txt")
# 停止词文件可以在这里下载https://www.bioladder.cn/shiny/zyp/bioladder2/demoData/wordcloud/stopwords.txt
df<-freq(initialize[text]) # 计算词频

# 绘图
wordcloud2(df, 
           size = 1,                  # 字体大小
           fontFamily = 'Segoe UI',   # 字体
           fontWeight = 'bold',       # 字体粗细
           color = 'random-dark',     # 字体颜色
           backgroundColor = "white", # 背景颜色
           minRotation = -pi/4,       # minRotation和maxRotation控制文本旋转角度的范围
           maxRotation = pi/4,
           rotateRatio = 0.4,         # 文本旋转的概率 0.4表示大约有40%的词发生了旋转
           shape = "circle"           # 轮廓形状
          )

34.4 BioLadder生信云平台在线绘制词云图

不想写代码?可以用BioLadder生信云平台在线绘制词云图。

网址:

词云图-BioLadder生物信息在线分析可视化云平台​www.bioladder.cn/web/#/chart/20

34.5 词云图结果解读

词云图是通过使每个字的大小与其出现频率成正比,显示不同单词在给定文本中的出现频率,然后将所有的字词排在一起,形成云状图案,可以以任何格式排列:水平线、垂直列或其他形状。在词云图上使用颜色通常都是毫无意义的,主要是为了美观。