騰訊會議天籟實驗室用AI幫聽障人群“清”聽世界
肖瑋(右三)和他的團隊。
肖瑋是騰訊會議天籟實驗室的音頻算法工程師。他為騰訊會議等音視頻會議工具開發的算法可以增強實時、端到端的數字通訊效果。
肖瑋和同事相信騰訊會議背后先進的會議技術能為世界各地的人們帶來便利,人們可以在疫情期間繼續工作和溝通。
經過調查研究,他們發現音頻質量的改善和降噪效果可以為聽障人群提供幫助,而這恰是對騰訊“科技向善”使命的踐行。
根據世界衛生組織統計,全球有15億人聽力受損,到2050年,這個數字預計會增長至25億,其中至少有七億人需要康復服務。
聽障可能會帶來嚴重后果,影響人的學習和發展、就業、人際關系、社會活動參與等等,也會導致孤獨、孤立和心理健康問題。
幸好,聽障可以通過輔聽技術來緩解,例如使用助聽器或人工耳蝸。
聽障去污名化,鼓勵早期檢測
如果你有近視或遠視,一般很早就會被發現,能夠透過佩戴眼鏡來矯正視力。然而佩戴助聽器會讓人感到尷尬,因為這常被人視為一種身障。
改變觀念需要時間和開展宣傳教育活動,與此同時,騰訊會議天籟實驗室與中國國家耳鼻咽喉疾病臨床醫學研究中心發布了一款簡單的線上測聽工具。該工具融合了中國十二生肖的元素,可基于噪聲場景下的言語可懂度測試方法,幫助用戶快速初步評估和掌握自身的聽力健康情況。
善用AI音頻幫助聽障人群
肖瑋和騰訊會議天籟實驗室的同事最初使用通信技術幫助聽障人群時,曾盡力消除或抑制背景噪音。然而,測試用戶的反饋表明,過度抑制噪聲反而降低了語音的可懂度。
有一天,肖瑋跟一位專家聊天時,對方提醒他,從聽力學的角度來說,語音的可懂度是最重要的。他突然意識到,“聽障人士想聽到的是語音。我們要做的不是對抗噪音,而是必須保留語音結構,保留好用戶想感知的聲音成分。”
工程師們借鑒騰訊會議使用的AI增強技術和深度學習模型,設計了新的方法,在降噪之前先努力保留語音,這樣可以有效提升噪聲場景下的語音可懂度。
騰訊天籟實驗室的研究員正在采集室外噪音。
借助智能手機駕馭AI音頻
智能手機已經成為AI音頻技術的重要組成部分。它們對于捕捉和處理聲音至關重要,也能通過藍牙將聲音傳輸到聽力設備,例如人工耳蝸或助聽器。
對于肖瑋來說,難點在于設計算法,根據環境和用戶的需求,增強或降低噪音。他把這比作“為近視者提供度數合適的鏡片”。現在,聽障人士可以使用一款App來個性化設置降噪或語音增強的程度,獲得個性化的輔聽效果,即使專業醫生不在場輔導亦能獨自完成。
騰訊會議天籟實驗室還為輕度聽損人群找到了經濟實惠的解決方案,他們只需使用耳機,不需要定制耳蝸或助聽器。例如,當他們在教室或講堂,可以把智能手機放在主講人附近的桌子上。借助一款免費App,手機可以捕捉和處理語音,然后通過藍牙傳輸到用戶的耳機。與此同時,App上也可以實時顯示字幕,幫助聽障用戶理解內容。
老年人優先
老年人深受聽障問題影響,全球65歲以上人士有三分之一存在至少中度的聽力受損,且該情況會隨著年齡的增長而嚴重。研究顯示聽障問題與失智和抑郁相關。
為了評估音頻技術在現實生活中的應用效果,肖瑋和團隊成員會去菜市場等嘈雜的地方實地評估。有一天,他們觀察了一位婆婆如何使用App來與商販交談,這個App是利用騰訊會議天籟實驗室的音頻技術開發的。App能處理商販說的話,然后轉換成大字號的文字顯示在智能手機上。
同樣,老年人若想跟親朋好友們打電話,只要接聽電話就會自動啟動一個微信小程序,老年人可以一邊聽電話,一邊看到手機屏幕上顯示的字幕。在這種場景下,字幕輔聽和聲音輔聽都發揮了作用。
跨行業協作找到問題的解決方案
跨行業協作是騰訊天籟實驗室的核心工作。實驗室的工程師經常與不同行業的專家聯絡,這些專家會請他們協助解決難題。設備制造商也經常向騰訊天籟實驗室尋求技術支持。憑借強大的AI音頻算法和深度學習能力,騰訊天籟實驗室團隊充分發揮這項技術的潛力,賦能合作方實現突破。
“將算法技術有效地應用于另一個專業領域并非易事。”肖瑋說,“這有賴于堅實的技術基礎,技術人員對新應用領域的敏感度,以及打通技術和應用之間的連接點。最重要的是,你需要從對方的角度來理解問題,保持開放的心態。”