B*******c 发帖数: 5056 | 10 看到微博上有人贴了关于汪峰老师歌词的统计数据,里面显示汪峰老师作词有一定常用
词。我想用一些NLP的技术,看看能不能写出来一个“汪峰自动作词机”之类的。
这里是第一步尝试和准备工作。我得到汪峰所有歌曲的歌词,做一些统计分析。
在汪峰老师歌词里,一些词语的搭配很常见,体现了他明显的语言风格。附录是纯粹的
高频词语组合(非NLP分析)得到的高频组合列表。从列表里可以看出,汪峰老师的风
格是朴素直白的语言,最高级的词也就是“彷徨”之类,这样的歌词容易接近大众,俗
称接地气。
根据这个列表,已经可以初步写出一段汪峰老师风格的歌词了,比如从高频50词里随便
挑选组合:
我们没有我的感觉
知道在这就像生命自己
希望这是我哭泣
不知像一生已经孤独的人
无法再见
还是现在因为那么爱你
我擦,这配歌曲拎把吉他就能直接去表白了,有力的击中啊,难怪子怡喜欢呢,你果然
是我的Music King!
与此同时我还做了一些准备工作:按照年份对专辑排序,用时间当作衰变的参数可能更
好的获得汪峰老师近期作词风格;在虾米上找到汪峰老师100首热门歌曲点击排行当作
下一步建立语言模型时候的备用;下一步也可以用word2vec,通过Deep Learning的方
法看汪峰老师歌词中常见的词语搭配。
待续。祝汪峰和子怡幸福!
附录:部分高频组合
我们,179
没有,159
我的,146
感觉,106
知道,102
在这,99
就像,97
生命,91
什么,87
我不,87
你的,83
自己,80
让我,75
是我,74
有一,70
一个,69
希望,65
等待,65
这是,65
在我,62
我在,61
哭泣,60
那么,60
爱你,59
的一,58
不知,58
像一,57
是一,56
一天,52
不知道,52
孤独,50
已经,49
的人,48
就在,47
生活,45
所有,45
一样,44
可以,44
觉得,43
无法,43
再见,43
如果,42
真的,42
一切,42
还是,41
爱的,39
让我们,39
现在,39
因为,39
就是,38
只是,38
把我,38
一起,38
我爱,37
的心,37
爱情,37
我已,37
我想,37
不能,37
这里,36
不要,36
的爱,36
可我,36
方向,36
不是,35
一次,35
有意,34
明天,34
也许,33
需要,33
一场,33
我是,33
来不及,33
【在 r****1 的大作中提到】 : : 汪峰歌词好,曲不行,窦唯曲好,歌词没有情感,无法与歌迷引起共鸣。
|