音頻社交漸熱, “所聽”并非真實 ——
人工智能時代,你了解“聲音”嗎?
近日,美國一款即時性音頻社交軟件Clubhouse風靡全球,不到一年的上線時間,軟件全球下載量突破800萬?!?span lang="en-US">Spaces”“對話吧”“SoundClub”等一系列類似軟件緊跟其后,似乎都在暗示聲音社交回歸舞臺。
自出生后的第一聲啼哭開始,我們與聲音“相處”已久,但關于“聲音”,或許還有許多方面值得我們深究。人工智能時代,聲音在被捕捉、模仿、傳輸和理解的過程中,究竟經歷了什么?本期《科技周刊》帶你走進聲音的世界。
語音中的聲音為何變“奇怪”
現實生活中,很多人有這樣的經歷:當你飽含深情地說了一段語音后,語音播放出來卻不僅聲音變得奇怪,聽起來甚至不太像自己。明明是同一個人在說話,為何會出現這樣的差異呢?究竟哪個才是自己最真實的聲音?“實際上,這主要有兩個原因,首先是聲音傳播的方式不同,另一個是語音經過社交平臺轉錄出去后常常會被壓縮?!敝袊茖W院聲學研究所研究員、中國科學院語言聲學與內容理解重點實驗室副主任張鵬遠接受《科技周刊》記者采訪時表示,聲音是由物體振動產生的,“別人聽見你的聲音”是由你聲帶的振動引起了空氣的振動,從而被他人感知,所以是依靠空氣傳播;而“自己聽見自己的聲音”則是通過顱骨傳導,直接振動耳蝸進而轉化為神經信號,變成你所聽到的聲音,這也就是我們常說的“骨傳導”?!耙驗閭鞑シ绞降牟煌?,且環境中存在著大量干擾,同一個人說的話自己聽見的版本和別人聽見的版本是不同的?!?/p>
除此之外,聲音之所以變“奇怪”可能還涉及編碼和解碼的問題?!爱斘覀儗χ溈孙L說話,聲音被麥克風采集后轉為數字信號,這時候就可能會出現失真?!睆堸i遠以有損音頻和無損音頻舉例,如果把聲音視作一條曲線,無數的點構成了這條曲線。對于同樣一段聲音,有損音頻的采樣頻率和采樣精度比較低,比如每秒鐘采樣8000個點(約為打電話時所用的采樣頻率),那么聲音自然就會出現偏差。同一首歌曲,采樣頻率和采樣精度越高,其對聲音的還原程度也就越高?!耙话銇碚f,有損音頻和無損音頻的文件大小可以相差10倍以上。我們通過微信發送語音,因為要降低傳輸數據量,所以一般都會對其進行壓縮?!?/p>
聲音和我們的指紋一樣,有著每個人各自的獨特之處,并且相對穩定、可辨別?!坝捎谌说陌l聲器官位置、尺寸不同,并且每個人聲音的音色、音調等特征不同,所以從人聲音中提取出來的聲紋(人的聲音頻譜)具有唯一性?!睆堸i遠表示,現在很流行的聲紋識別技術實際上就是將聲信號轉化為數字信號,再利用技術手段捕捉特定對象的聲紋特征,從而判定說話的人是誰。
你的聲音如何被“復刻”
自1939年世界上第一臺能夠合成人聲的電子設備Voder亮相紐約世界博覽會以來,“如何能讓機器模仿人的聲音”就成了人工智能領域的一大熱點話題。江蘇省人工智能學會智能語音專家、蘇州思必馳信息科技有限公司聯合創始人、上海交通大學蘇州人工智能研究院執行院長俞凱教授告訴《科技周刊》記者,人工智能語音合成技術正不斷迭代更新,其發展歷史主要分為三個階段:在第一代技術階段,我們需要被模仿人提前錄制一個龐大的音庫,這個音庫會被切分成若干小段隨時待取,當我們所需要合成的語音中每一個涉及的詞都提前被錄制過,則可以直接調取?!斑@種情況下播放出的聲音將會很逼真,基本上就是錄音,但其缺點在于需要提前錄制大量語料,一旦遇到沒有提前錄制的詞句,就會出現間斷等明顯不自然情況?!?/p>
第二代技術開始運用機器學習技術,首先將采集到的聲音利用相關參數化的統計模型進行建模,使用信號處理的方式,將建模之后生成的聲音頻率特征進行信號處理,最后輸出我們能夠聽見的聲音?!氨M管這種方式的連貫性會好很多,但由于在統計模型的建模過程中聲音頻率特征會被平滑,從而產生音質損失,因此整體來看第二代技術所合成的語音并不是那么逼真?!倍诘诙夹g的基礎上發展起來的第三代語音合成技術,大多是基于深度學習中的神經網絡技術開展?!昂偷诙嗨?,現在的第三代技術也是數據驅動的,但大多采用了先進的端到端深度學習框架,數據訓練后合成的聲音比較連貫和自然。如果在錄音條件非常好且有充足數據的情況下,其合成聲音和真人聲音沒有太大區別,人耳基本上聽不出差異?!?/p>
目前利用語音合成技術去模仿人聲,需要通過神經網絡去捕捉被模仿人聲音中的三類主要變化特性。俞凱介紹,首先是語言文字的特征,即這個詞應該發什么音;第二類特征是韻律的特征,即聲音的抑揚頓挫;最后還需要把握說話人的時長特征,即說話人發每個音需要用的時間?!澳腥撕团?、老人和孩子,不同人說話的聲音各不相同,這三類特征信息被神經網絡捕捉到之后會生成一個頻譜序列,而這個序列會被傳遞到另一類神經網絡中,最終生成模仿后的聲音?!?/p>
生活中,很多車主將林志玲、郭德綱等名人的聲音設定為地圖軟件中的導航提示音,其實這也得益于語音合成中的復刻技術?!叭珖蟠笮⌒〉穆访泻芏?,全部讓人念出來錄音幾乎是不可能的事。因此,我們需要前期在高保真錄音室中記錄很多人的語音數據,訓練一個平均模型,隨后將特定目標人說話的錄音導入,讓系統根據目標人說話特征進行調優,從而盡可能模仿目標人的聲音?!睆堸i遠表示,一般來說,合成語音的自然度和相似度是通過MOS(平均主觀意見分)分來進行評價。MOS分滿分為5分,一般情況下采集目標人100句話之后所能合成的語音,其MOS分可以達到4.2分的水平;而如果只采集到5句話,則MOS分就會比較低,人耳能明顯聽出不同。
透過聲音能“看到”臉嗎
兩年前,康奈爾大學研究團隊設計并訓練了一個深度神經網絡,它在訓練過程中學習了視聽、音像、聲音和面部的關聯性,從而根據聲音來推測面部特征。透過聲音,人工智能真的能夠“看到”臉嗎?目前,人工智能領域對聲音的研究又有何新進展?對此,張鵬遠認為,單純借助聲音無法百分百還原目標人的臉部圖像,但有可能還原出其部分面部特征?!叭说穆曇艉腿四樀膱D像其實是有相關性的,例如我們在單看唇部運動的時候,哪怕沒有出聲,也可以識別其部分說話內容,所以說聲音和圖像并不能被割裂,而是強相關?!?/p>
從康奈爾大學研究團隊的實驗結果來看,通過聲音,人工智能確實可以生成與目標人類似的面孔,可以還原其部分特征,但和真實長相還有一定差距。俞凱表示,說話人的年齡、性別、面部骨骼等生理學特征確實與人的聲音具有相關性,可以一定程度上還原說話人的面部特征,但想單獨憑借聲音這一種模態來完全重構人臉,目前是做不到的。
近年來,隨著人工智能領域對于聲音的研究越來越多,其發展速度也不斷加快?!霸谌伺c人工智能的語音交互過程中,不單單包括語音合成和識別,還涉及對說話內容的理解?!庇釀P進一步解釋,目前大多數人接觸到的語音交互主要是“你一句,我一句”輪換著對話的模式,而我們現在正在研究的是即興自然語音交互的新架構,即真人與人工智能可以自由對話。簡單來說就是,對話期間任何一方都可以打斷另一方;當人沒有表達完自己想表達的意思時,人工智能會等人繼續說完;而當人表達完意思后,人工智能可以立刻反饋?!拔覀儾捎谩p工’的交互架構,幫助人工智能在‘聽見’聲音的基礎上,能夠在語音交互過程中理解說話人的意思,而這些都是早期人工智能語音交互系統里所不具備的?!?/p>
作者:謝詩涵
來源:《新華日報》 (2021-03-17 第14版科技周刊·新知)
報道鏈接:
http://xh.xhby.net/pad/con/202103/17/content_899419.html