从伯恩斯坦哈佛六讲到Ai编曲

——以Rock, in the style of Bob Dylan – Jukebox(Jukebox Sample Explorer (openai.com))为核心

弦乐以极弱的力度和不变的速度行进着,上方,独奏小号发出含混的非调性的疑问,木管则给予同样含混的回应。这种一唱一答重复了多次,木管的回应越来越激动、越来越失去调性的控制,最终在一次癫狂的噪音后消失了。小号依然在用非调性的声音质问,但无人回应,弦乐在G大调上保持着自身的永恒,却不能解决小号的模糊性。两条不相交的线一直延续到乐曲结尾。 — Ive’s Unanswered Question

这是伯恩斯坦1973年哈佛诺顿讲座的题目——《未作回答的问题》。古巴导弹危机十年后,冷战仍在延续,越南战争、阿以冲突、石油危机,伯恩斯坦的脸快要贴到镜头了,用他布满皱纹、悲悯的嗓音说:贪婪、歇斯底里引发的战争,痛苦、彬彬有礼的被迫害妄想症、新宗教、存在主义、全球性的生存危机,贪婪、歇斯底里引发的战争……更具讽刺性的是,在讲座开始的前一天,哈佛大学音乐厅里的莫扎特G小调第40号交响曲被一次恐怖袭击打断,这次演出正是伯恩斯坦为讲座准备的。在这样的环境下,用伯恩斯坦自己的话说“以死亡为主题的二十世纪中”,艺术何为?还可能存在艺术吗?伯恩斯坦真正关心的正是这个问题,借由Ive隐喻性的交响曲,他将这一问题细化为三个:音乐能否证明人类在思维上本是一家?音乐在调性时代后还有未来吗?浮士德文化、具有创造力的文化死亡了吗?

1. 未作回答的问题与语言学

伯恩斯坦的最初三讲处理第一层次的问题,为此,他不惜搬来了当时方兴未艾的乔姆斯基语言学理论。语言学分为音韵学(phonology)、句法学(syntax)和语义学(semantics),于是他分别套用这三种视角来看音乐,在语言与音乐的叠合部上寻找普遍性。

首先是将音系学中所有语言共享同一套原型音节的结论类比到音乐的泛音序列上。全人类的音乐所用的调性组合都是在泛音列上探索,只不过各民族拓展的进度不同、侧重的偏好有所不同罢了:世界民间音乐普遍采取的五声音阶、希腊的六声音阶、教会七声音阶、近代西方音乐标志性的自然音阶、再到半音阶12音、某些东方音乐里的微音程、电子音乐对频率的微调。音乐,从素材上讲是单一发生说的,人类感知泛音列上和谐的直觉和能力是不分民族的。

其次是将句法学中的转换语法理论与音乐的结构做类比。这又分为两个层次,一个是音乐的各要素与语言中造句各要素所起的作用一致:动机可以看作名词,和声是形容词,节奏是动词;或者说主旋律是名词,而伴奏同时起到了形容词和动词的作用、激活主旋律并为之赋予色彩。总而言之,一首乐章就是一个长长的句子,德语中“Satz”既指乐章又指句子,不仅仅是一个简单的巧合。而在第二个层次上(将要素连结为句子),应当说音乐和语言也有不同之处,音乐不讲实用性、没有机械的语法。从底层语序列(各乐思要素)上升为诗的过程是直接的,不像语言先构成散文再从散文转换成诗。所以,音乐对于语言又有优越性,转换的过程更加直接、更加自由不受束缚:如果是诗意的来源是模糊性,那么音乐可以达至的模糊性要比诗歌更强,单就同时表达对同一底层语序列的两种转换来说,诗歌就做不到赋格、复调。

...

最后是将语义学里对隐喻的思考与音乐的意义问题联系起来。隐喻:因为X是A与B的共性,所以A is (like) B,将(like)省略,就构成了隐喻在审美上的模糊性。而音乐里的隐喻因为没有字面意义的负担,可以不断地讲“是”,连绵的隐喻是音乐的奇观。什么是音乐里的隐喻?以勃拉姆斯第四交响曲第一乐章开头的几个小节为例:下行大三度音程转位为上行的小六度音程是一个隐喻,其中蕴含的动态颇似“向晚意不适,驱车登古原”下行的情绪转换为上行的意志,被后者所克服,而且在其中含着连续的因果关系和不变的节奏。而将这四个音作为A小节,紧随其后的另一个小节B又是对A的隐喻:将A降低了一个音级;同时在和声上,A是从主音到属音,B则是从属音到主音——一个对比性的转换,这里的连结点是和声最终的回弹和呼应。这又是在说,A“是”B:在嵌套式的修辞结构中,乐思不断得到新的形容。

为什么要强调音乐的内在隐喻逻辑?这为解答音乐古老的“mean”与“express”之争提供了思路:无论音乐最终的美学原理是客观性的还是主观性的,音乐的创作过程清晰明了——音乐的创作就是融合“express”与“mean”的过程。从一个复杂的无可言说的“express”开始,不断隐喻、变化原初乐思,在尝试说清的同时创造新的语言:转位、碎片化、夸张、逆行、打破预期、制造节奏划分的矛盾、同步运行的对比……各种隐喻的变化以重复为基底,而隐喻的总和就是音乐的“meaning”,含义、内在意义。

Carrying meaning beyond the literal, the tangible, beyond the grossly semantic to the self-contained Ding-an-sich of musical meaning. — Bernstein at Norton Lecture Musical Semantics

以上简要复述了伯恩斯坦前三讲中的主要内容,如果说他的目的是调查人类思维中的一致性,那么伯恩斯坦成功了:对泛音列的共同偏好、音乐句法的相似性以及共性的音乐生成过程都印证了这一点。但这些内容又对我们的主题有什么作用呢?我为什么要要在一篇谈Ai音乐的文章里谈到音乐的语言学呢?作用在于对“音乐是什么”的问题给出一个更好的回答。总的逻辑是:只有对音乐的本质有一个比较深刻的认识,才能支撑我们从音乐史和思想史的高度来理解音乐的意义,进而回应Ai的冲击。而这些音乐语言学让我们厘清音乐的本质:音乐不是纯粹的情感流、也不是面向联觉的窗口,这些判断都是外在于音乐的,是音乐的效果而非音乐本身。音乐的内在含义是隐喻、转换和结构,内在意义是诗意的形式美。

事实上,鉴赏音乐的境界也可以分为三段,恰恰对应着对音乐本质的不同层次的理解:情绪反应、联觉想象还是对变化做预期。随着专注等级的提升,一个人越来越贴近音乐的“内涵”,从音乐中吸收到更多审美素材,也越来越有可能整体性地理解音乐、接触到音乐“概念”——在这个层面上,我们有时评价音乐是“深刻”的。用哲学的语言说,这正是随着柏拉图的线喻逐步上升的过程。

2.未作回答的问题与音乐史

音乐的本质是隐喻、转换和结构,所以音乐史可以用下面的线条描述:

首先巴赫发现和发明了调性音乐。

然后贝多芬将这种音乐发展到了极致,为了进一步增强表现力,发明了标题音乐和更多使用无调性元素的浪漫主义风格。柏辽兹的出现标志着对贝多芬的扬弃,古典一面被逐渐遗忘,主观性的一面逐渐上扬。

之后瓦格纳的出现意味着对待调性由严肃到玩弄的态度转变。《特里斯坦与伊索尔德》游离在调性之外,躁动不安的感官欲求最终也仅仅以非常模糊的方式得到解决。

这种非调性的手法会有长足的未来吗?一个显而易见的问题是,调性音乐才是符合人的审美直觉的,非调性仅仅是从否定意义上做创新,一旦逾越了人所能忍受、理解的底线,非调性就走入了绝路。马勒预知了这种未来,在他的第九交响曲中,调性竭尽所能地飘荡、流浪:非调性音乐在否定调性音乐的同时也在宣判着自己未来的死亡。

果不其然地,勋伯格沿着瓦格纳的路走入了极端:让12音的地位完全相等的序列手法陷入了悖论之中:既晦涩到难以欣赏,又总是情不自禁地逼近调性、怀念着来自很久以前的古老芬芳。

真正有未来的出路,伯恩斯坦认为,是斯特拉文斯基所代表的“新古典主义”:以多调性、多节奏来保鲜调性,通过植根民间音乐、远古音乐来呼吸审美上的轻松空气。不是放弃和远离古典传统,而是利用古典传统、戴着历史的面具说话。

3.未作回答的问题与思想史

不过,以上的音乐史叙述缺乏一些关键环节:为什么贝多芬的时代会追求“表现力”?为什么非调性音乐的形式以叛逆的面孔出现而不是与调性音乐互补?为什么“新古典主义”能从一种拼接的手法——如阿多诺所批评的,变成一种有深度、有追随者的“主义”?

事实上,作为人类内在世界的一面镜子,音乐史应该嵌入思想史中进行考虑。

返回卢梭,就是重现思想和情感中的那一革命,该革命引导我们从一种有关完善和自我超越的伦理学走向一种有关自我性和非异化的伦理学,引导我们从理性走向情感,从自我克制走向自发性,从自我认知走向真诚。 ——梅尔泽《人的自然善好:论卢梭思想的体系》

思想史学者梅尔泽的这段话极具概括力和启发性。这是指他将西方乃至人类的思想历程分割为两个阶段。在第一阶段,以柏拉图的线喻为代表,人们认为真理、理性、概念,以及在谋求合理性解释基础上人与世界形成的理性共同体才是最真实的,我们要求从影像、实体、数理一路上升、一路超越,去往永恒的理念世界。而在第二阶段,在启蒙哲人之后的世界,真实的标准被逐渐颠倒了过来,实体、影像的地位越来越高:商品拜物教、报纸、世俗政治……到现在这个属于科技的信息时代,人每天打交道最多的,已经不是实体,更妄论数理和思辨,而是手机影像了。线喻被颠倒了!从卢梭到尼采再到福柯,这个趋势越来越明显,不是与自我更远的东西——宇宙更真实,而是与自我的心灵更贴近、更能在我们的心理中翻江倒海的东西更真实——欲望、艺术。这样,原来被柏拉图极力限制的诗人现在也可以名正言顺地宣称真理:海德格尔的“艺术把真理带出来”,阿多诺的“本真性”。

瓦格纳的另一面是卢梭,这一背景可以让我们解释瓦格纳前后的音乐史。

“真诚”——从卢梭到阿多诺,也不仅仅是延续性,区别同样存在,体现在他们对“真诚”的不同理解中。这一点可以从阿多诺贬低斯特拉文斯基,赞扬勋伯格,但卢梭不一定会这么干。阿多诺对真诚的理解基于他的德奥传统,“本真”要的是直抒胸臆、主观表达;但斯特拉文斯基就如同阿多诺所说,是不真诚的魔术师吗?主体性一旦释放,就不可能再收回了,斯特拉文斯基的长青印证他是符合时代趋势的。问题出在斯特拉文斯基独特的表达方式上:阴影落下了,新世纪必须戴着曲折的面具说话。斯特拉文斯基拼接古典作品、不协和音夸张化,标志性的词曲不协调,在《圣咏交响曲》里倏地出击、在《俄狄浦斯王》里引用《阿依达》,都是一种曲折的面具——这副面具的另一个名字叫荒谬感,用荒谬感双倍地表达真诚,在文学领域,佩戴这副面具的人是说着Let us go, you and I when the evening is spread out against the sky. Like the patient etherized upon a table.的艾略特。这是一条不同于勋伯格自我建构出一套规则的路,一种更端庄、更害羞,但也同时更像现代人的道路。

斯特拉文斯基的另一面是艾略特,这一背景可以让我们解释斯特拉文斯基前后的音乐史。

融贯起来说,音乐史是一部主体性解放、造成灾难,又谋求治愈的历史。瓦格纳和卢梭揪出贝多芬浪漫的一面,在历史的回声中不断地放大;马勒预见了这种浮士德式文化的悖论,用先知般的眼神注视它的悲剧性意义;调性大分流后,出现了两种理解真诚的方式:是延续浪漫主义、将已经导致歇斯底里的主观主义推往“病态”;还是追随叛逆的达达主义的脚步、萨蒂、毕加索、科克托、格什温,因反对笨重、自恋风格而走上另一条曲折的道路,用荒谬拯救明了,同样抵达真诚。继续向后,则是呼之欲出的流行音乐:斯特拉文斯基已经创作了一首Ragtime、《乌木协奏曲》等爵士乐风格的作品,新古典主义以及勋伯格分别滋养了流行音乐中诗的传统和梦的传统。

流行音乐昨天在这样的脉络上产生,流行音乐在今天遇到了Ai编曲。

4. Rock, in the style of Bob Dylan

...

OpenAI是一家位于旧金山的深度学习研究机构,他们的Jukebox模型可以做到在仅仅给定歌词和实例的情况下生成“原创”的歌曲。质言之,用歌词生成旋律。

...

想要做到这一点,原理上并不复杂,无非是将深度学习应用到词曲转化上来。全过程分为三个步骤:编码输入、建模耦合关系以及解码输出。其中,第一步和最后一步属于计算机领域比较基础的工作。编码常用的如MIDI(Musical Instrument Digital Interface),基于事件记录音频信息,将每个音转化成一个高维向量,再和词句字符串一起输入计算机,形成计算机可“理解”的数据结构。解码输出则是一个对应的反过程。

关键是建模耦合关系。因为歌词和乐曲之间没有一一对应关系(即使是同一个歌手,在不同的场合唱同一个词语时,所配合的音乐也会不同),恰恰相反,歌词和乐曲之间只有弱耦合关系,所以要想成功完成机器学习,就必须尽可能提升效率、用有限的数据找出可靠的规律。他们使用的方法是VQ-VAE。VQ是指针对离散数据的优化,而VAE(Variational Autoencoder)的核心公式阐明了本质:pθ(z|x)≈ qΦ(z|x)。使用Ai编曲实际上是一个求近似条件概率的过程,通过灌输大量的经验,判断出在给定歌词及上下文的条件下,什么旋律最合适、最常见。

Rock, in the style of Bob Dylan就是这样制作出来的一首符合鲍勃迪伦风格的“歌曲”。(音频网址:https://jukebox.openai.com/?song=804328741;更多实例可参见该团队在音乐流媒体上发布的内容:https://soundcloud.com/openai_audio;项目官方网站Jukebox (openai.com)

如何评价这种音乐?

搜集资料发现国内同类前沿研究四项,由微软中国中心和北大合作完成:在旋律与歌词间建立联系:https://speechresearch.github.io/songmass/根据歌词找rap的重音节拍:https://deeprapper.github.io/ 由主旋律生成伴奏:https://speechresearch.github.io/popmag/人声生成:https://speechresearch.github.io/hifisinger/5.作为艺术的音乐与作为技术的音效

尽管还显得有些吐字不清,不过发音已经很接近人声了;尽管旋律比较简单,但对于流行音乐而言也可能也足够了。如果假以时日,可以想象会出现一个不错Ai,能把鲍勃迪伦的歌词转译为歌曲,去出版专辑,开“演唱会”,甚至故弄玄虚、打造自己的品牌。事实上,OpenAI团队已经在发行专辑了。

但即使OpanAI能将鲍勃迪伦模仿地惟妙惟肖,进一步地能通过拼接不同歌手的风格的方法制造自己的风格,我们就能称OpenAI是一位歌手?一位音乐家吗?

如果对音乐欣赏的认识仅仅停留在引起情绪反应或敞向联觉的中介——音乐心理学规律层面上的话,Ai编曲又与传统人工编曲、演唱有什么区别呢?一样的波形、一样的频谱,如果事先不做说明,谁又能分得清楚。但如果能从思想史的高度来认识音乐,意识到艺术最本质的特征是人的表达——不是简单的知人论世、时代决定论,而是说,只有代入到艺术家身上,只有去体会他们如何将一个个深层语符列转换、隐喻为超表层的诗性结构,才算理解了音乐。音乐是过程,而不是结果;艺术是过程,而非结果。一件东西,只有向读者开放参与创造隐喻、创造语言之过程的机会,才能从技艺升华为艺术。

“只有具备形式和工具上的可能性,同时有一种适当的机制将这种可能性与精神生活紧紧糅合在一起,”一种关于发声的技艺才有可能成为深刻的、蕴含复杂精神生活的艺术。而一旦有了这样的艺术范例,形式上的可能性又会反过来不断激发人们表现内心生活的欲望,二者相遇,不断倾注的精神内涵促使人们发展对形式的敏感,推动形式走向丰富和精微。从这个意义上讲,理解是艺术的必要准备,而可理解性恰恰是深度学习所不具备的。

当然,深度学习音乐在一点上是可以理解的,那就是从否定传统的角度来理解。如果我们想要一种讽刺人类既有“可理解”文明之疯狂、荒谬的艺术,那么这种神秘的不可理解性或许会有仪式的意义。但归根结底,这种“理解”是外部的,一旦它要否决的对象变化,或者我们对这种单调的否定厌倦了,它——上百万个参数复杂匹配的算法又如何能被容纳进精神生活,如何被延续?朋克可以是艺术、勋伯格可以是艺术、达达主义可以是艺术,但Ai编曲本质上是音效。

...

6.关于艺术理解的记忆界分人与机器

电影《银翼杀手》问出了这样一个问题:如果克隆人能认识美,那么他还能被排除在人类之外吗?

艺术是现代人真实性的锚。而真实性关涉自我认同的判断。

艺术界分人与机器。