澎湃Logo
下载客户端

登录

  • +1

网易云音乐评论区观察:什么样的评论最热门?

2019-01-26 11:28
来源:澎湃新闻·澎湃号·湃客
字号

背景介绍

今年年初,网易云音乐发布的“2018年度听歌报告”又一次刷屏朋友圈。在发布前几天,苦苦等待的网友甚至把“等网易云年度总结”的话题送上了微博热搜,让人不得不感慨网易云音乐用户粘性之强。

网易云音乐2018年度听歌报告
学霸们的年度歌手
#等网易云年度总结#微博热搜

而令人印象最深刻的,还属沙雕网友们在歌曲下面精彩的评论。2017年3月,网易云音乐甚至把这些乐评搬进了地铁,引起了一小波轰动。

杭州地铁开通网易云“乐评专列”

正如网易创始人丁磊所说“网易云音乐不是一个简单的音乐播放器”,网易云音乐自上线以来一直以“音乐社区”而并非“音乐播放器”定位自身,凭借独特的情怀标签、丰富的评论内容以及个性化推荐等一系列特色功能,拥有了非常高的用户粘性与活跃度。

因此,相比其他音乐播放软件,基于网易云音乐平台对歌曲评论、用户行为的分析结果更有说服力。本小组爬取了网易云音乐平台部分歌曲的评论数据,通过数据分析,尝试探究隐藏在网易云音乐中的两个秘密——“如何在高手如林的评论区抢热门?”以及“歌曲的评论与歌曲的个性化推荐之间有什么联系?”

数据介绍

本项目使用的数据爬取自网易云音乐歌单“网易评论最多的300首歌”,由网友“Hardwell-EDM”整理。

虽然部分灰色的歌曲没有版权(比如我们周董的歌曲),不过其信息和评论仍可正常爬取。对于每一首歌,我们爬取了歌曲信息以及点赞数最多的15条热门评论和最新的10000条普通评论。
如何抢热门?

作为网易云音乐的忠实用户,你是否羡慕那些总能抢到热门的网友,是否也想写出一条点赞数过万的热门评论?

接下来我们将利用爬取的数据进行分析,教你如何又准又狠地抢热门。

首先我们来看看热门评论和普通评论词频的区别。通过使用Python的jieba工具对评论进行分词(设置了1893个停用词)并计算词频,我们绘制了热门评论与普通评论各自的词云。

我们发现,无论是热门评论还是普通评论,“喜欢”和“爱”都是网友们最常提及的,果然,爱是人类永恒的主题。而除去一些共同的高频词后,我们发现,普通评论真的比较普通,主要是发发表情,谈谈感受,给自己加加油。而热门评论就丰富了,不仅谈理想,还有对象,甚至补充时间细节,故事是更丰满的。

比如歌曲《说散就散》里面的热门评论,又有兄弟,又有爱人,又是跪下,又是尊严,故事极其丰满,就连出现了错别字都影响不了其上热门。
《说散就散》热门评论

然后再来看看评论字数。通过绘制评论字数分布直方图,我们发现,相比起分布严重右偏的普通评论,热门评论字数普遍多于20字,甚至还有很多热门评论是卡着140字的字数上限发的,最终呈现双峰分布。

说到网易云音乐的神评论,由于部分评论的同质化,网友们甚至还整理过“评论区的六大未解之谜”:为什么网易云音乐的网友们都是有故事的人?那些天天说评论顶上去就要表白的人,到底有没有成功?
其实这也侧面体现了人类的本质是复读机存在一些能引起情感共鸣的关键词,使得网友们乐此不疲地在此基础上进行评论的再创作。
于是我们选取了几组高频词进行词频的对比。首先,分手这个词出现次数比其他几个词加起来还多,说明分手造成的情绪波动是最大的;人生阶段中高中和大学出现次数最多,可能是因为这两个阶段承载了更多的情感与回忆;而高考则是大部分人一生中最重要的一场考试,因此词频最高。
综合上述分析,如果你想在高手如林的网易云评论区上热门,至少要做到以下几点:

1、字数不能少。如果能写满140字,那在气势上就先胜一筹了。

2、情感要能引起共鸣。比如“分手”、“大学”、“高考”这些关键词就是大家最常提及的,涉及这些词的评论将会拥有更深厚的群众基础。(所以说,如果写一个“高考前说好一起走,上大学却惨遭分手”,说不定很多人点赞?)

3、要有丰富的故事细节。热门评论往往会交代时间地点人物,情节不是有共通性就是有戏剧性,最后还会升华到情怀理想。

4、当然,有一类人能够打破以上所有的规则,那就是——段子手。比如著名的段子:“你都如何回蚁窝(回忆我)?”“带…带着笑或是很沉默?”。

《后来》热门评论

基于评论的歌曲推荐,接下来我们将分别建立两个模型,说明无论是基于评论文本还是基于用户的评论行为,都能实现歌曲的个性化推荐,从而侧面印证网易云音乐构建的“音乐社区”有助于其推荐系统的实现。

1 基于评论文本对歌曲进行聚类

我们发现,对于表达相似情感的歌曲,其评论区的总体画风也比较相像。比如悲伤情歌的评论区中,大家更倾向于讨论自己在爱情中吃的苦头,而甜蜜情歌的评论区则被各式各样的表白宣言占领。因此我们希望从评论文本出发,看看其能否反推出歌曲的特点,并对这300首歌曲进行聚类。

建模步骤如下:

(1)对于每首歌的评论词频,先去除总词频普遍较高的五个词(“喜欢”、“爱”、“大哭”、“加油”、“希望”),在剩余的词中挑选词频最高的五个词作为每首歌的表征;

(2)为了获得语义空间表示,我们采用在微博数据上预训练的word2vec词典,该词典共含有195202个词;

(3)每个词对应300维的特征向量,从而每首歌的特征为连接而成的1500维向量;

(4)使用K-means算法对拥有1500维特征的歌曲进行聚类,一共聚成20类;

(5)将聚类后的结果通过tSNE模型降至二维,并进行可视化。

(6)挑选了5类歌曲(其中3类靠的较近,归为新的一类),组合成3类歌曲进行情感分析,绘制情感雷达图。

我们挑选的部分聚类结果中,有一类比较明显是励志歌曲(《追梦赤子心》、《Hall of Fame》等),评论中大量出现高考党、考研党为自己加油鼓劲的评论,对应的情感雷达图中“喜好”的指数较高;还有一类是华语悲伤情歌(《七友》、《后来》等),情感分析结果最为丰富,雷达图面积最大,“忧愁”占主导地位。
但有一类的结果(《离人愁》、《JULY》、《红昭愿》、《China-X》和《沙漠骆驼》)比较特殊。首先,这五首歌的音乐风格包含了古风、流行、电音、摇滚,情感也没有太多共同之处,为什么会被归为一类?其次,该类歌曲的雷达图中,“厌恶”指数最高,确实有点反常。为此,我们翻阅了部分歌曲的评论,发现《离人愁》、《红昭愿》等歌曲都有抄袭的嫌疑,而《JULY》的歌手吴亦凡因为《中国新说唱》的表现而备受争议。因此,这五首歌的评论中也充斥着“盗用”、“抄袭”等关键词或具有辱骂意味的词汇,所以雷达图中厌恶与消极情绪占据主导地位。
可以看出,基于评论文本对歌曲进行聚类时,歌曲在向量空间中的距离很大程度上能反映歌曲本身在情感与内容上的相似度,甚至还能探测出受争议的歌曲。因此,评论文本确实能够反推出歌曲的特点,基于此进行歌曲推荐也具有一定的合理性和准确性。

2 基于评论行为构建歌曲关系网络

我们都知道,不同的用户有其独特的听歌倾向。比如我们小组成员有周董的狂热粉,有喜爱民谣的文艺青年,也有每周关注billboard榜的欧美流行音乐爱好者。因此,我们尝试从网易云音乐用户的歌曲倾向性出发,构建基于用户评论行为的歌曲关系网络,并利用网络的社区划分方法对歌曲进行分类,从而进一步实现歌曲推荐。

建模步骤如下:

(1)构建歌曲关系网络:每首歌曲作为无向图的一个节点,如果同一用户评论了两首不同的歌曲,则此两首歌的节点之间有边连接,且边权重加一;

(2)歌曲关系网络的优化:由于评论用户众多,初步构建的歌曲关系网络近于完全图,为抽取歌曲间的强弱关系,我们设定阈值,忽略边权重小于80的边,即至少80个用户同时评论了某两首歌才算歌曲之间有连接;

(3)社区发现:使用k-clique算法发现了7个明显的歌曲社区;

(4)可视化:利用力导向布局对网络结构及社区结果进行可视化。

结果中有三个聚类系数较高的社区(分别为1.00,0.97,0.93),分别对应上榜歌曲数前三名的歌手周杰伦、许嵩、薛之谦的上榜歌曲。有趣的是,这三位歌手的所有上榜歌曲全部被精准地划分到社区中,甚至薛之谦歌曲社区还多出一首其粉丝改编翻唱的歌曲。说明热门歌手拥有坚实的粉丝基础,用户对歌曲的喜爱也很容易上升为对歌手的喜爱。
此外,华语歌曲与外文歌曲在网络中分处不同的区域;部分民谣歌曲(赵雷和李志的所有上榜歌曲)成为一个独立社区,而在该民谣社区的附近,其邻居节点也大多为耳熟能详的民谣歌曲(如宋冬野的《斑马,斑马》、谢春花的《借我》以及陈粒的《小半》等)。这说明歌曲的语种和曲风也是影响用户听歌倾向的因素。
综上,我们可以看出,相同歌手、语种以及曲风的歌曲,在网络中更容易被划分到同一社区,这与大众的听歌习惯相吻合。因此,基于用户的评论行为构建歌曲关系网络,并对歌曲进行社区划分及推荐,也具有其合理性和准确性。

总结

经过以上分析,网易云音乐的两个秘密也就无所遁形了。

“如何在高手如林的评论区抢热门?”

首先,需要有一定的字数(写满140字更佳);其次,从情感的角度来说,评论所表达的情感最好能引起其他用户的共鸣;而要想脱颖而出,评论的故事细节还需要更加丰富;此外,段子手也很受欢迎。

 “歌曲的评论与歌曲的个性化推荐之间有什么联系?”

通过以上基于评论文本对歌曲进行聚类和基于评论行为构建歌曲关系网络的尝试,我们不难看出,用户评论及用户行为数据都能反映歌曲的特点和内在的联系,进一步印证了网易云音乐构建的“音乐社区”有助于其推荐系统的实现。

首先,音乐社区能够提升用户体验,并能产生一个良性循环,最终使得用户的活跃度和用户粘性得到提升。而通过我们刚才两个模型的尝试,我们相信网易云音乐的这种“音乐社区”可以让同一个歌手的粉丝、同一类歌曲的爱好者因为音乐而“拉近距离”。此外,音乐社区的构建还有助于平台充分利用海量的用户数据、行为记录对用户以及音乐进行划分,从而基于相似歌曲或相似用户等信息实现精准的“个性化推荐”。

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈