周杰伦在唱什么？数据可视化告诉你！

2023-03-24
北京
本文字数：2336 字
阅读完需：约 8 分钟

本案例中的歌词数据来自中文歌词数据库。

这个数据库提供了华语歌手的歌曲及歌词信息，数据以 JSON 格式存储。

为了尽量完整地呈现从原始数据到可视化的过程，接下来我们会先简单讲解数据的预处理过程，即如何将 JSON 数据转化为 Excel 格式，以及如何对周杰伦的歌曲进行分词。

若你希望跳过数据预处理的过程，也可以在《数据可视化设计指南：从数据到新知》一书的下载文件中，直接使用分好词的 Excel 文件进行可视化练习。

数据预处理指的是将原始数据处理成我们希望的格式，并提取出我们需要的信息。

在本案例中，我们需要先从数据库中筛选出演唱者为周杰伦的歌曲，然后获得这些歌曲的歌词，并将它们存储到纯文本文档（.txt 格式）中。以下提供两种方法。

第一种方法，先把 JSON 文件转换为 Excel 可以打开的 .csv 文件或 .xlsx 文件格式。这可以借助一些在线的转换工具完成（如 JSON to CSV Converter）。一般而言，只需将文件拖入这些工具，选择好转换格式类型，即可转换完成。接着，我们便可以在 Excel 中打开该数据，然后单击“数据→筛选”命令，选择歌手为“周杰伦”的歌曲。之后，选中它们的歌词，并将其粘贴到纯文本文档中。

第二种方法，通过 Python 进行数据预处理。代码如下。

首先，需要引入 JSON 库（未安装者通过 pip install json 安装）。

然后，读取我们下载的 JSON 文件，存储在名为 data 的变量中。

接着，遍历 data 中的每一项，找出“歌手”=“周杰伦”的数据项，存到 data_zjl 中。

建立一个空列表 zjl_lyrics，用于存储歌词。遍历 data_zjl 中的每一首歌，将它们的歌词存到 zjl_lyrics 中。

最后将 zjl_lyrics 写入一个新的 .txt 文件。

通过这几行代码，我们就获得了周杰伦所有歌曲的歌词数据（见图 1）。以这个 .txt 文件为基础，我们便可以进行词频统计了。

图 1

以下附上一种在 Python 中分词的方法。首先引入 jieba 库（安装：pip install jieba）、pandas 库（安装：pip install pandas）、用于频次统计的 Counter 库，以及表单工具，代码如下。

事先准备好一个中文的停用词表（.txt 文件，里面包含一些常见的、需要过滤的中文标点和虚词，可在网上下载），代码如下。

打开歌词文件，利用 jieba 库进行分词。分词之后，删除停用词、去除无用的符号等。用 Counter 库对清洗干净的词语进行频次统计。然后将统计结果用 pandas 库转换为数据表单，存储为 Excel 文件，代码如下。

由此，我们便获得了分词后的单词及词频（见表 1）。使用这个文档，我们就可以开始制作可视化了。

表 1

由于是文本类数据，我们首先想到的可视化形式可能是文字云。如果你使用 Python，则可以直接基于刚才的分析结果，调用 wordcloud 库绘制文字云，代码如下。

绘制结果如图 2 所示。

图 2

不过，在代码工具内绘制文字云，进行定制化设计相对比较复杂。因此，也可以借助一些在线工具帮助我们实现更好的可视化效果。

目前，许多中文的工具都可以专门用来制作文字云，如微词云、易词云、图悦等（相关总结可参考知乎专栏的一篇文章《词频统计工具哪家强，对比 8 款工具得出了结果》）。下面，我们以微词云为例进行演示。

进入微词云界面后，首先单击“导入单词”，进行数据导入。选择“从 Excel 中导入关键词”，然后上传我们刚才得到的包含单词和词频的 Excel 文档（需要注意的是，微词云目前对上传的 Excel 文件格式有一定要求，比如，列名必须叫“单词”和“词频”才能识别，详见其页面指引），即可生成文字云（见图 3）。