導讀:據新一代人工智能聯盟官方消息,近日,AVS3P10 實時語音編碼標準獲得重要進展。
據新一代人工智能聯盟官方消息,近日,AVS3P10 實時語音編碼標準獲得重要進展。
2023 年 12 月 14 日,第 87 次 AVS 工作組會議于成都開幕。會上,《智能媒體編碼 第 10 部分 實時語音》(以下簡稱 AVS3P10) WD 1.0 通過全體會議審議;騰訊提交的技術方案,被選擇為 AVS3P10 實時語音編碼的 RM0 基線。
實時語音通信技術,已廣泛應用于協同辦公、互動娛樂、社交等領域。上述多樣豐富的應用場景給實時語音通信技術提出了多種技術挑戰(zhàn),其中,高質量、低延時、低帶寬、高抗性的語音編碼是非常重要的一環(huán)。
傳統(tǒng)的語音編碼器,包括 AVS、ITU-T 等標準語音編碼器,在 16-20kbps 左右碼率時,能夠恢復出高質量寬帶語音;在 30-35kbps,可以恢復出高質量超寬帶甚至全帶語音。然而,當碼率進一步降低(如:降到 10kbps 以下時),傳統(tǒng)語音編碼器恢復的質量下降明顯,影響用戶體驗。
基于上述應用訴求,在今年 3 月第 84 次 AVS 會議上,由騰訊提議在 AVS 音頻組啟動面向實時語音通信場景的低碼率高質量語音統(tǒng)項目。經過需求分析,在第 85 次 AVS 會議上,AVS 正式立項 AV3P10 實時語音編碼項目,并通過 AVS 音頻組發(fā)出技術征集書。AVS3P10 實時語音編碼項目將由來自騰訊會議天籟實驗室的肖瑋負責推進和維護。
在第 86 次 AVS 會議上,音頻組審議了由騰訊會議天籟實驗室提交的 M7886《AVS3P10 語音編碼參考模型候選技術方案》提案。
審議指出該方案具有以下 4 點特征:
深度融合了經典信號處理和深度神經網絡技術等人工智能技術,屬于 AI Codec;
支持低碼率、高質量編碼、實時編碼和解碼和多速率編碼;
基于子帶編碼和多模式編碼架構,低頻信號采用深度神經網絡提取特征,高頻信號采用頻帶擴展方案提取特征,結合標量量化和熵編碼完成特征壓縮;
具有開放的編碼神經網絡架構技術特征,在保證碼流前向兼容基礎上,可以重新修改和優(yōu)化編碼神經網絡。
今年 11 月 1 日,騰訊會議天籟實驗室提交 AVS3P10 RM0 候選方案的可執(zhí)行文件,由中國電子技術標準化研究院和華為分別進行了主觀測試和交叉驗證。交叉驗證力求全面,基于 ITU-T P.800 DCR 主觀質量評價體系,主觀測試覆蓋不同帶寬下純凈語音、丟包語音、混合語音等多場景,并首次將 3A 處理后的測試場景引入信源編碼器測試中,以檢驗新一代 AI Codec 技術在貼近真實場景的表現。
在上述測試場景下,AVS3P10 RM0 質量優(yōu)勢明顯。主觀測試結果表明,AVS3P10 RM0 在寬帶和超寬帶等多個主要測試場景均達到了 4.0 以上 MOS 分,體現出明顯優(yōu)勢,最低碼率可達 5.9kbps。AVS3P10 RM0 采納了深度神經網絡技術,自帶的丟包損傷能力,有效提升了編碼器在網絡不佳時的質量。
此外,在 ITU-T P.863 客觀質量評價實驗中,AVS3P10 RM0 也體現出了顯著優(yōu)勢。第一,在所有 8 個測試碼率中,AVS3P10 RM0 均超過 4.0MOS,最高在 4.45MOS。AVS3P10 RM0 的質量,可以對齊 OPUS 和 EVS 等傳統(tǒng)信號處理編碼器在中高碼率的表現,達到運營級質量。在 AI Codec 領域,AVS3P10 RM0 在相近碼率下,質量優(yōu)勢在 0.6MOS 以上。上述測試結論均反映出,AVS3P10 RM0 代表了目前 AI Codec 的最高水平。
新一代人工智能聯盟表示,AVS3P10 實時語音編碼,作為新一代的語音編解碼技術標準,是對 AVS 系列標準的重要補充。
未來,AVS3P10 實時語音編碼項目,將按照既定計劃推進,預計在 2024 年中完成標準化工作。