“噪音獵人”讓聲音更清晰
“豬肉鋪開始剁肉了,走!”王燕南小心翼翼地在肉案上放好收音設備,希望能夠采集到剁肉的聲音。燕南及其團隊已經收集了吆喝聲、剁肉聲和腳步聲,這些聲音都被用于騰訊天籟實驗室的研究項目。
對于燕南和穿梭在大街上的同事而言,噪音就像他們的“獵物”,被他們追蹤、捕獲并銷毀。這些工程師被戲稱為“噪音獵人”,他們運用高超的“捕獵”技能,幫助全世界聽到更優質、更清晰的聲音。
騰訊天籟實驗室的研究員正在采集室外噪音。
燕南在聲音領域有著多年的研究經驗,因此對聲音極為敏感。他認為降噪技術可以為很多人的生活帶來積極的改變。
隨著通信設備不斷更新和完善,人們的通話場景可能是人行道或擁擠的人群中等五花八門的地點。因此,想要改善收聽的效果,重點在于了解如何降噪。
對此,燕南解釋道:“我們在菜市場也能清晰地聽到豬肉鋪老板說話,是因為我們的耳朵選擇性地屏蔽了剁肉聲。我們團隊想要開發出比擬人耳功能的技術。要想消除噪音,先要識別噪音,然后再主動干預。”
這個解決方案看似簡單,但卻困擾了工程師多年,其難點在于如何區分噪音與人的聲音。騰訊天籟實驗室的工程師坦言,聲音處理之所以難,是因為聲音資料是一維的。圖像是二維的,視頻是三維的,因此區分后兩種格式的不同層次相對容易。
要識別音頻中的噪音,工程師首先需要收集大量噪音資料,然后剪切、清理和提取這些數據的共同特征,并將其放入算法模型。疫情之前,騰訊工程師們每天都會帶著錄音設備在辦公室四處走動,捕捉同事敲擊鍵盤的聲音、關門的聲音以及商務環境中的其他噪音。
騰訊天籟實驗室的工作設備。
疫情出現后,由于遠程工作的需求激增,更多人認識了一款用戶過億的產品:騰訊會議。這個廣受歡迎的視頻會議平臺背后所采用的核心技術便是騰訊天籟實驗室開發的AI降噪技術。
疫情前,電話會議的使用往往更為常規,通話效果很好。人們一般會在特定位置使用固網電話撥入會議。通話過程清晰可控,所需技術相對簡單。
但疫情改變了一切。在過去的一年到一年半左右,人們在很多不同類型的地點來進行電話或視頻會議,所采用的技術和網絡也各不相同,這給騰訊會議團隊帶來了極為復雜的技術挑戰。工作人員需要面對延遲、語音丟包及帶寬拉升等種種新問題。
在所有挑戰中,最首要的便是識別用戶加入會議的地點,例如機場、公共廣場、地鐵車廂或其他嘈雜的地方。所有聲音以不同頻率混雜在一起,讓識別人聲的難度驟增。面對這一挑戰,其中一個解決辦法是使用統一的音頻處理解決方案,通過一個復雜模型來辨別和過濾各種場景中的噪音。
騰訊多媒體實驗室高級總監商世東在實驗室工作。
騰訊會議運用人工智能來識別和增強人聲,同時減少其他不必要的聲音,已實現語音通話品質提升近50%。通過分析和處理噪音獵人收集的聲音,包括公交車站的嘈雜聲音、人聲、雨聲等,騰訊會議團隊能夠更好地識別并消除視頻會議中出現的這類聲音,從而使人聲更加清晰。
騰訊會議團隊憑借強大的技術工程和研究能力令這一解決方案得以實現,并以96%的分辨準確率在世界知名的行業競賽中脫穎而出。這意味著,在96%的情況下,騰訊會議都能夠識別并去除多余的雜音。
“過去,我們的工作重點是利用新技術取得新突破、打造新產品。而如今,我們將重心放在持續改進算法上,期望能夠發現部署AI降噪技術的新方法,幫助更多人。”騰訊多媒體實驗室高級總監、天籟實驗室負責人商世東說道。“借助這項技術,我們甚至可能改善老年人的生活品質。”