從伯恩斯坦哈佛六講到Ai編曲
——以Rock, in the style of Bob Dylan – Jukebox(Jukebox Sample Explorer (openai.com))為核心
弦樂以極弱的力度和不變的速度行進着,上方,獨奏小号發出含混的非調性的疑問,木管則給予同樣含混的回應。這種一唱一答重複了多次,木管的回應越來越激動、越來越失去調性的控制,最終在一次癫狂的噪音後消失了。小号依然在用非調性的聲音質問,但無人回應,弦樂在G大調上保持着自身的永恒,卻不能解決小号的模糊性。兩條不相交的線一直延續到樂曲結尾。 — Ive’s Unanswered Question
這是伯恩斯坦1973年哈佛諾頓講座的題目——《未作回答的問題》。古巴導彈危機十年後,冷戰仍在延續,越南戰争、阿以沖突、石油危機,伯恩斯坦的臉快要貼到鏡頭了,用他布滿皺紋、悲憫的嗓音說:貪婪、歇斯底裡引發的戰争,痛苦、彬彬有禮的被迫害妄想症、新宗教、存在主義、全球性的生存危機,貪婪、歇斯底裡引發的戰争……更具諷刺性的是,在講座開始的前一天,哈佛大學音樂廳裡的莫紮特G小調第40号交響曲被一次恐怖襲擊打斷,這次演出正是伯恩斯坦為講座準備的。在這樣的環境下,用伯恩斯坦自己的話說“以死亡為主題的二十世紀中”,藝術何為?還可能存在藝術嗎?伯恩斯坦真正關心的正是這個問題,借由Ive隐喻性的交響曲,他将這一問題細化為三個:音樂能否證明人類在思維上本是一家?音樂在調性時代後還有未來嗎?浮士德文化、具有創造力的文化死亡了嗎?
1. 未作回答的問題與語言學
伯恩斯坦的最初三講處理第一層次的問題,為此,他不惜搬來了當時方興未艾的喬姆斯基語言學理論。語言學分為音韻學(phonology)、句法學(syntax)和語義學(semantics),于是他分别套用這三種視角來看音樂,在語言與音樂的疊合部上尋找普遍性。
首先是将音系學中所有語言共享同一套原型音節的結論類比到音樂的泛音序列上。全人類的音樂所用的調性組合都是在泛音列上探索,隻不過各民族拓展的進度不同、側重的偏好有所不同罷了:世界民間音樂普遍采取的五聲音階、希臘的六聲音階、教會七聲音階、近代西方音樂标志性的自然音階、再到半音階12音、某些東方音樂裡的微音程、電子音樂對頻率的微調。音樂,從素材上講是單一發生說的,人類感知泛音列上和諧的直覺和能力是不分民族的。
其次是将句法學中的轉換語法理論與音樂的結構做類比。這又分為兩個層次,一個是音樂的各要素與語言中造句各要素所起的作用一緻:動機可以看作名詞,和聲是形容詞,節奏是動詞;或者說主旋律是名詞,而伴奏同時起到了形容詞和動詞的作用、激活主旋律并為之賦予色彩。總而言之,一首樂章就是一個長長的句子,德語中“Satz”既指樂章又指句子,不僅僅是一個簡單的巧合。而在第二個層次上(将要素連結為句子),應當說音樂和語言也有不同之處,音樂不講實用性、沒有機械的語法。從底層語序列(各樂思要素)上升為詩的過程是直接的,不像語言先構成散文再從散文轉換成詩。所以,音樂對于語言又有優越性,轉換的過程更加直接、更加自由不受束縛:如果是詩意的來源是模糊性,那麼音樂可以達至的模糊性要比詩歌更強,單就同時表達對同一底層語序列的兩種轉換來說,詩歌就做不到賦格、複調。

最後是将語義學裡對隐喻的思考與音樂的意義問題聯系起來。隐喻:因為X是A與B的共性,所以A is (like) B,将(like)省略,就構成了隐喻在審美上的模糊性。而音樂裡的隐喻因為沒有字面意義的負擔,可以不斷地講“是”,連綿的隐喻是音樂的奇觀。什麼是音樂裡的隐喻?以勃拉姆斯第四交響曲第一樂章開頭的幾個小節為例:下行大三度音程轉位為上行的小六度音程是一個隐喻,其中蘊含的動态頗似“向晚意不适,驅車登古原”下行的情緒轉換為上行的意志,被後者所克服,而且在其中含着連續的因果關系和不變的節奏。而将這四個音作為A小節,緊随其後的另一個小節B又是對A的隐喻:将A降低了一個音級;同時在和聲上,A是從主音到屬音,B則是從屬音到主音——一個對比性的轉換,這裡的連結點是和聲最終的回彈和呼應。這又是在說,A“是”B:在嵌套式的修辭結構中,樂思不斷得到新的形容。
為什麼要強調音樂的内在隐喻邏輯?這為解答音樂古老的“mean”與“express”之争提供了思路:無論音樂最終的美學原理是客觀性的還是主觀性的,音樂的創作過程清晰明了——音樂的創作就是融合“express”與“mean”的過程。從一個複雜的無可言說的“express”開始,不斷隐喻、變化原初樂思,在嘗試說清的同時創造新的語言:轉位、碎片化、誇張、逆行、打破預期、制造節奏劃分的矛盾、同步運行的對比……各種隐喻的變化以重複為基底,而隐喻的總和就是音樂的“meaning”,含義、内在意義。
Carrying meaning beyond the literal, the tangible, beyond the grossly semantic to the self-contained Ding-an-sich of musical meaning. — Bernstein at Norton Lecture Musical Semantics
以上簡要複述了伯恩斯坦前三講中的主要内容,如果說他的目的是調查人類思維中的一緻性,那麼伯恩斯坦成功了:對泛音列的共同偏好、音樂句法的相似性以及共性的音樂生成過程都印證了這一點。但這些内容又對我們的主題有什麼作用呢?我為什麼要要在一篇談Ai音樂的文章裡談到音樂的語言學呢?作用在于對“音樂是什麼”的問題給出一個更好的回答。總的邏輯是:隻有對音樂的本質有一個比較深刻的認識,才能支撐我們從音樂史和思想史的高度來理解音樂的意義,進而回應Ai的沖擊。而這些音樂語言學讓我們厘清音樂的本質:音樂不是純粹的情感流、也不是面向聯覺的窗口,這些判斷都是外在于音樂的,是音樂的效果而非音樂本身。音樂的内在含義是隐喻、轉換和結構,内在意義是詩意的形式美。
事實上,鑒賞音樂的境界也可以分為三段,恰恰對應着對音樂本質的不同層次的理解:情緒反應、聯覺想象還是對變化做預期。随着專注等級的提升,一個人越來越貼近音樂的“内涵”,從音樂中吸收到更多審美素材,也越來越有可能整體性地理解音樂、接觸到音樂“概念”——在這個層面上,我們有時評價音樂是“深刻”的。用哲學的語言說,這正是随着柏拉圖的線喻逐步上升的過程。
2.未作回答的問題與音樂史
音樂的本質是隐喻、轉換和結構,所以音樂史可以用下面的線條描述:
首先巴赫發現和發明了調性音樂。
然後貝多芬将這種音樂發展到了極緻,為了進一步增強表現力,發明了标題音樂和更多使用無調性元素的浪漫主義風格。柏遼茲的出現标志着對貝多芬的揚棄,古典一面被逐漸遺忘,主觀性的一面逐漸上揚。
之後瓦格納的出現意味着對待調性由嚴肅到玩弄的态度轉變。《特裡斯坦與伊索爾德》遊離在調性之外,躁動不安的感官欲求最終也僅僅以非常模糊的方式得到解決。
這種非調性的手法會有長足的未來嗎?一個顯而易見的問題是,調性音樂才是符合人的審美直覺的,非調性僅僅是從否定意義上做創新,一旦逾越了人所能忍受、理解的底線,非調性就走入了絕路。馬勒預知了這種未來,在他的第九交響曲中,調性竭盡所能地飄蕩、流浪:非調性音樂在否定調性音樂的同時也在宣判着自己未來的死亡。
果不其然地,勳伯格沿着瓦格納的路走入了極端:讓12音的地位完全相等的序列手法陷入了悖論之中:既晦澀到難以欣賞,又總是情不自禁地逼近調性、懷念着來自很久以前的古老芬芳。
真正有未來的出路,伯恩斯坦認為,是斯特拉文斯基所代表的“新古典主義”:以多調性、多節奏來保鮮調性,通過植根民間音樂、遠古音樂來呼吸審美上的輕松空氣。不是放棄和遠離古典傳統,而是利用古典傳統、戴着曆史的面具說話。
3.未作回答的問題與思想史
不過,以上的音樂史叙述缺乏一些關鍵環節:為什麼貝多芬的時代會追求“表現力”?為什麼非調性音樂的形式以叛逆的面孔出現而不是與調性音樂互補?為什麼“新古典主義”能從一種拼接的手法——如阿多諾所批評的,變成一種有深度、有追随者的“主義”?
事實上,作為人類内在世界的一面鏡子,音樂史應該嵌入思想史中進行考慮。
返回盧梭,就是重現思想和情感中的那一革命,該革命引導我們從一種有關完善和自我超越的倫理學走向一種有關自我性和非異化的倫理學,引導我們從理性走向情感,從自我克制走向自發性,從自我認知走向真誠。 ——梅爾澤《人的自然善好:論盧梭思想的體系》
思想史學者梅爾澤的這段話極具概括力和啟發性。這是指他将西方乃至人類的思想曆程分割為兩個階段。在第一階段,以柏拉圖的線喻為代表,人們認為真理、理性、概念,以及在謀求合理性解釋基礎上人與世界形成的理性共同體才是最真實的,我們要求從影像、實體、數理一路上升、一路超越,去往永恒的理念世界。而在第二階段,在啟蒙哲人之後的世界,真實的标準被逐漸颠倒了過來,實體、影像的地位越來越高:商品拜物教、報紙、世俗政治……到現在這個屬于科技的信息時代,人每天打交道最多的,已經不是實體,更妄論數理和思辨,而是手機影像了。線喻被颠倒了!從盧梭到尼采再到福柯,這個趨勢越來越明顯,不是與自我更遠的東西——宇宙更真實,而是與自我的心靈更貼近、更能在我們的心理中翻江倒海的東西更真實——欲望、藝術。這樣,原來被柏拉圖極力限制的詩人現在也可以名正言順地宣稱真理:海德格爾的“藝術把真理帶出來”,阿多諾的“本真性”。
瓦格納的另一面是盧梭,這一背景可以讓我們解釋瓦格納前後的音樂史。
“真誠”——從盧梭到阿多諾,也不僅僅是延續性,區别同樣存在,體現在他們對“真誠”的不同理解中。這一點可以從阿多諾貶低斯特拉文斯基,贊揚勳伯格,但盧梭不一定會這麼幹。阿多諾對真誠的理解基于他的德奧傳統,“本真”要的是直抒胸臆、主觀表達;但斯特拉文斯基就如同阿多諾所說,是不真誠的魔術師嗎?主體性一旦釋放,就不可能再收回了,斯特拉文斯基的長青印證他是符合時代趨勢的。問題出在斯特拉文斯基獨特的表達方式上:陰影落下了,新世紀必須戴着曲折的面具說話。斯特拉文斯基拼接古典作品、不協和音誇張化,标志性的詞曲不協調,在《聖詠交響曲》裡倏地出擊、在《俄狄浦斯王》裡引用《阿依達》,都是一種曲折的面具——這副面具的另一個名字叫荒謬感,用荒謬感雙倍地表達真誠,在文學領域,佩戴這副面具的人是說着Let us go, you and I when the evening is spread out against the sky. Like the patient etherized upon a table.的艾略特。這是一條不同于勳伯格自我建構出一套規則的路,一種更端莊、更害羞,但也同時更像現代人的道路。
斯特拉文斯基的另一面是艾略特,這一背景可以讓我們解釋斯特拉文斯基前後的音樂史。
融貫起來說,音樂史是一部主體性解放、造成災難,又謀求治愈的曆史。瓦格納和盧梭揪出貝多芬浪漫的一面,在曆史的回聲中不斷地放大;馬勒預見了這種浮士德式文化的悖論,用先知般的眼神注視它的悲劇性意義;調性大分流後,出現了兩種理解真誠的方式:是延續浪漫主義、将已經導緻歇斯底裡的主觀主義推往“病态”;還是追随叛逆的達達主義的腳步、薩蒂、畢加索、科克托、格什溫,因反對笨重、自戀風格而走上另一條曲折的道路,用荒謬拯救明了,同樣抵達真誠。繼續向後,則是呼之欲出的流行音樂:斯特拉文斯基已經創作了一首Ragtime、《烏木協奏曲》等爵士樂風格的作品,新古典主義以及勳伯格分别滋養了流行音樂中詩的傳統和夢的傳統。
流行音樂昨天在這樣的脈絡上産生,流行音樂在今天遇到了Ai編曲。
4. Rock, in the style of Bob Dylan

OpenAI是一家位于舊金山的深度學習研究機構,他們的Jukebox模型可以做到在僅僅給定歌詞和實例的情況下生成“原創”的歌曲。質言之,用歌詞生成旋律。

想要做到這一點,原理上并不複雜,無非是将深度學習應用到詞曲轉化上來。全過程分為三個步驟:編碼輸入、建模耦合關系以及解碼輸出。其中,第一步和最後一步屬于計算機領域比較基礎的工作。編碼常用的如MIDI(Musical Instrument Digital Interface),基于事件記錄音頻信息,将每個音轉化成一個高維向量,再和詞句字符串一起輸入計算機,形成計算機可“理解”的數據結構。解碼輸出則是一個對應的反過程。
關鍵是建模耦合關系。因為歌詞和樂曲之間沒有一一對應關系(即使是同一個歌手,在不同的場合唱同一個詞語時,所配合的音樂也會不同),恰恰相反,歌詞和樂曲之間隻有弱耦合關系,所以要想成功完成機器學習,就必須盡可能提升效率、用有限的數據找出可靠的規律。他們使用的方法是VQ-VAE。VQ是指針對離散數據的優化,而VAE(Variational Autoencoder)的核心公式闡明了本質:pθ(z|x)≈ qΦ(z|x)。使用Ai編曲實際上是一個求近似條件概率的過程,通過灌輸大量的經驗,判斷出在給定歌詞及上下文的條件下,什麼旋律最合适、最常見。
Rock, in the style of Bob Dylan就是這樣制作出來的一首符合鮑勃迪倫風格的“歌曲”。(音頻網址:https://jukebox.openai.com/?song=804328741;更多實例可參見該團隊在音樂流媒體上發布的内容:https://soundcloud.com/openai_audio;項目官方網站Jukebox (openai.com))
如何評價這種音樂?
搜集資料發現國内同類前沿研究四項,由微軟中國中心和北大合作完成:在旋律與歌詞間建立聯系:https://speechresearch.github.io/songmass/根據歌詞找rap的重音節拍:https://deeprapper.github.io/ 由主旋律生成伴奏:https://speechresearch.github.io/popmag/人聲生成:https://speechresearch.github.io/hifisinger/5.作為藝術的音樂與作為技術的音效
盡管還顯得有些吐字不清,不過發音已經很接近人聲了;盡管旋律比較簡單,但對于流行音樂而言也可能也足夠了。如果假以時日,可以想象會出現一個不錯Ai,能把鮑勃迪倫的歌詞轉譯為歌曲,去出版專輯,開“演唱會”,甚至故弄玄虛、打造自己的品牌。事實上,OpenAI團隊已經在發行專輯了。
但即使OpanAI能将鮑勃迪倫模仿地惟妙惟肖,進一步地能通過拼接不同歌手的風格的方法制造自己的風格,我們就能稱OpenAI是一位歌手?一位音樂家嗎?
如果對音樂欣賞的認識僅僅停留在引起情緒反應或敞向聯覺的中介——音樂心理學規律層面上的話,Ai編曲又與傳統人工編曲、演唱有什麼區别呢?一樣的波形、一樣的頻譜,如果事先不做說明,誰又能分得清楚。但如果能從思想史的高度來認識音樂,意識到藝術最本質的特征是人的表達——不是簡單的知人論世、時代決定論,而是說,隻有代入到藝術家身上,隻有去體會他們如何将一個個深層語符列轉換、隐喻為超表層的詩性結構,才算理解了音樂。音樂是過程,而不是結果;藝術是過程,而非結果。一件東西,隻有向讀者開放參與創造隐喻、創造語言之過程的機會,才能從技藝升華為藝術。
“隻有具備形式和工具上的可能性,同時有一種适當的機制将這種可能性與精神生活緊緊糅合在一起,”一種關于發聲的技藝才有可能成為深刻的、蘊含複雜精神生活的藝術。而一旦有了這樣的藝術範例,形式上的可能性又會反過來不斷激發人們表現内心生活的欲望,二者相遇,不斷傾注的精神内涵促使人們發展對形式的敏感,推動形式走向豐富和精微。從這個意義上講,理解是藝術的必要準備,而可理解性恰恰是深度學習所不具備的。
當然,深度學習音樂在一點上是可以理解的,那就是從否定傳統的角度來理解。如果我們想要一種諷刺人類既有“可理解”文明之瘋狂、荒謬的藝術,那麼這種神秘的不可理解性或許會有儀式的意義。但歸根結底,這種“理解”是外部的,一旦它要否決的對象變化,或者我們對這種單調的否定厭倦了,它——上百萬個參數複雜匹配的算法又如何能被容納進精神生活,如何被延續?朋克可以是藝術、勳伯格可以是藝術、達達主義可以是藝術,但Ai編曲本質上是音效。

6.關于藝術理解的記憶界分人與機器
電影《銀翼殺手》問出了這樣一個問題:如果克隆人能認識美,那麼他還能被排除在人類之外嗎?
藝術是現代人真實性的錨。而真實性關涉自我認同的判斷。
藝術界分人與機器。