<tt id="nzhgw"></tt>

  • <tt id="nzhgw"></tt>
  • <rp id="nzhgw"></rp>
    1. <tt id="nzhgw"></tt>
        1. 每日頭條!火山引擎RTC獲得 ICASSP 2023回聲消除挑戰賽冠軍

          在剛剛過去的 ICASSP 2023 聲學回聲消除(AEC)挑戰賽中,火山引擎 RTC 團隊聯合西北工業大學音頻語音與語言處理研究實驗室,在通用回聲消除 (Non-personalized AEC) 與特定說話人回聲消除 (Personalized AEC) 兩個賽道上榮獲冠軍,并在雙講回聲抑制,雙講近端語音保護、近端單講背景噪聲抑制、綜合主觀音頻質量打分及最終語音識別準確率等多項指標上顯著優于其他參賽隊伍,達到國際領先水平。


          【資料圖】

          其中“N”代表通用AEC,“Y”代表特定說話人AEC,綠色越深代表指標表現越好

          ICASSP AEC 挑戰賽由國際音頻頂級會議 ICASSP 和微軟聯合發起,旨在激發聲學回聲消除領域的研究,自第一屆舉辦以來就吸引了亞馬遜、騰訊、阿里巴巴、百度、快手、中科院、西工大等全球諸多知名企業和科研院所的參與。今年的 ICASSP AEC 也不例外,參賽隊伍之多之強,使 AEC 成為 ICASSP 2023 各項賽事中競爭最為激烈的賽道之一。

          ICASSP AEC 挑戰賽要求各參賽隊伍對 10,000 多個來自于真實音頻設備和真實環境下的錄音數據進行 AEC 模型訓練,并根據單講/雙講等場景中獲得的主觀平均意見分以及語音識別率綜合評判名次。火山引擎 RTC 通過對時延補償模塊、線性 AEC模塊、殘留回聲抑制處理模塊進行優化,有效降低了 AEC 模型的復雜度,提升了回聲的抑制效果。同時,通過對訓練數據進行增廣,使 AEC 處理框架可以覆蓋更多場景的回聲處理問題。最終,團隊在遠端單講回聲抑制、近端單講信號保護、雙講回聲抑制、雙講近端語音保護等各子場景中均發揮出色,取得總分第一的成績。

          AEC 處理框架

          另外,今年的 ICASSP AEC 挑戰賽首次增加了特定說話人 AEC 賽道。過去,通用回聲消除技術(Non-personalized AEC)在線上使用較多,特定說話人回聲消除技術(Personalized AEC)則更多出現在學術研究領域。隨著回聲消除應用的場景越來越廣泛、越來越復雜,特定說話人 AEC 也越來越受到人們關注。延續在通用 AEC 領域的技術優勢,火山引擎 RTC 在特定說話人 AEC 賽道也榮獲冠軍。

          傳統 AEC + 深度學習雙管齊下,解決復雜雙講場景中的回聲消除難題

          回聲消除是音視頻通話中最難的音頻技術之一,而“雙講”則是回聲消除應用中最復雜的場景。在視頻會議、線上小班課等多人音視頻通話場景中,如果近端和遠端同時說話,遠端的聲音信號通過揚聲器播放出來,又和近端的聲音混合在一起被麥克風采集進去,遠端就會聽到回聲,且聽不清近端的語音內容。雙講場景回聲消除比普通場景回聲消除難度要大——因為既需要把遠端的回聲盡量消除干凈,又不能矯枉過正,保護近端的語音信號盡量不被損傷。

          以下是火山引擎 RTC 在雙講場景的回聲消除效果。

          處理前的聲紋(上)

          處理后對聲紋(下)

          在雙講場景中,當回聲的能量遠遠高于目標說話人的能量(比如揚聲器離麥克風太近或其他原因),就會形成超低信回比場景(比如-20db以下)。下面這段樣本中,女聲為目標說話人語音,男生為非目標說話人語音(回聲),目標語音幾乎被非目標語音完全覆蓋了,回聲消除挑戰極大。

          超低信回比雙講場景處理前的聲紋

          火山引擎 RTC 對 AEC 處理框架中的線性 AEC 模塊和殘留回聲抑制處理模塊進行了創新性優化:在線性 AEC 模塊中,保護近端語音不受損傷的同時,最大程度抑制回聲中的線性成分,減輕后續殘留回聲抑制模型的負擔;在殘留回聲抑制模塊中,基于低延時深度學習網絡來抑制回聲中非線性殘留成分,同時在特定說話人回聲消除 Track 上額外引入說話人聲紋信息,在去除回聲的同時也抑制非目標說話人的語音。通過以上處理,火山引擎 RTC 在超低信回比雙講場景中也取得了優秀的回聲消除效果。

          超低信回比雙講場景處理后的聲紋

          為線上各類互動場景提供更清晰、動聽的音質體驗

          視頻會議、在線教育、語聊房、游戲開黑、在線 KTV、“一起看”、“一起玩”……線上互動場景正變得越來越豐富,對 RTC 的技術挑戰也越來越高,比如更飽滿的音質、更清晰的畫質、更流暢、穩定的使用體驗等等。在音質方面,火山引擎 RTC 基于自研語音編碼器 NICO,結合深度學習的 3A 算法、AI 降噪算法、語音檢測算法等技術,不斷提升音頻的編碼質量、抗丟包能力和處理性能,已成功為抖音世界杯“邊看邊聊”直播間、飛書視頻會議、《Mobile Legends: Bang Bang(無盡對決)》等提供高質量的音頻服務。

          未來,火山引擎 RTC 還將不斷探索前沿音頻技術,并與業務場景高效結合,打造更具針對性的場景適配策略,持續為各類線上互動場景提供更清晰、更動聽的音質體驗。

          點擊閱讀原文,了解產品更多信息。

          https://www.volcengine.com/contact/product?t=rtc&source=%E4%BA%A7%E5%93%81%E5%92%A8%E8%AF%A2

          作者:陳晨

          推薦DIY文章
          ACS.exe進程是什么?感興趣或有需要的小伙伴快一起來學習|當前快播
          一招修復該內存不能為written 可以先理清楚是哪里出現問題|快資訊
          天天消息!xp系統下怎么安裝win8雙系統 全流程操作的圖文方式來了
          即時看!東芝筆記本電腦怎么重裝系統 如果是新款的東芝筆記本電腦可以怎么做
          windows10系統徹底刪除360軟件的方法 如何避免殘留垃圾軟件-天天簡訊
          下載系統去哪個網站好 還不知道哪個網站的系統最好用就快來下載|當前快報
          精彩新聞

          超前放送

          亚洲成av人片在线观看无码不卡