引言:MPEG-H 電視音頻系統(tǒng) ( 下一代音頻編解碼器 ) 基于音頻編碼標(biāo)準(zhǔn)化組織 MPEG 最新開發(fā)的MPEG-H 3D 音頻標(biāo)準(zhǔn),能夠?yàn)榧彝ザ藥沓两铰曇趔w驗(yàn),增強(qiáng)電視節(jié)目的真實(shí)感和沉浸感,并通過音頻對象為觀眾呈現(xiàn)個性化的音頻內(nèi)容。為了方便用戶使用交互性功能,廣播電視公司可以提供“預(yù)設(shè)”服務(wù),即預(yù)定義對象增益和位置的混音效果。而沉浸式聲音的制作播出則可通過將基于聲道的信號或基于場景的聲音元素與靜態(tài)或動態(tài)音頻對象相結(jié)合的方式來實(shí)現(xiàn)。改良后的響度和動態(tài)范圍控制,能夠根據(jù)不同類型的用戶設(shè)備和收聽環(huán)境來定制聲音效果,從而實(shí)現(xiàn)最佳的聲音還放。目前,MPEG-H 電視音頻系統(tǒng)已經(jīng)被 DVB 標(biāo)準(zhǔn)采納,并已成為 ATSC 3.0 數(shù)字電視標(biāo)準(zhǔn)中的正式音頻標(biāo)準(zhǔn)。此外,韓國于 2017 年 5 月 31 日推出基于ATSC 3.0 標(biāo)準(zhǔn)的超高清電視服務(wù),這也是首個采用MPEG-H 電視音頻系統(tǒng)的常規(guī)廣播電視服務(wù)。2014 年,為了支持包括沉浸式聲音和交互性能等在內(nèi)的全新音頻功能并提升用戶體驗(yàn),美國高級電視系統(tǒng)委員會 (ATSC) 發(fā)布公告征集下一代廣播電視音頻系統(tǒng)標(biāo)準(zhǔn)方案,并將其作為 ATSC 3.0 標(biāo)準(zhǔn)的一部分。與此同時,ATSC 還要求解決方案能夠?qū)崿F(xiàn)部分高級功能,例如 :將通過互聯(lián)網(wǎng)發(fā)送的音頻元素與通過地面廣播路徑傳輸?shù)囊纛l元素相結(jié)合 ;支持觀眾調(diào)整節(jié)目中的某些聲音元素 ;使音頻可以適用于各種終端用戶設(shè)備,從而通過同一音頻碼流就可以服務(wù)于所有類型的終端用戶設(shè)備 ;通過binaural( 雙耳還放 ) 技術(shù)實(shí)現(xiàn)耳機(jī)端的沉浸式聲音還放等。而 MPEG-H 3D 音頻標(biāo)準(zhǔn)可以滿足以上所有需求。MPEG-H 電視音頻系統(tǒng)是 MPEG-H 3D 音頻標(biāo)準(zhǔn)的子集,專為滿足 ATSC 3.0 和 DVB 所規(guī)定的廣播電視需求而定制。
2 MPEG-H 電視音頻系統(tǒng)的特征
2.1沉浸式聲音
MPEG-H 電視音頻系統(tǒng)能夠通過在垂直維度上擴(kuò)展聲像實(shí)現(xiàn)“3D”聲音還放,進(jìn)而實(shí)現(xiàn)沉浸式聲音并區(qū)分于傳統(tǒng)環(huán)繞聲。該功能能夠使聲音聽起來更加真實(shí),使用戶不再是一名旁觀者,而是體驗(yàn)身臨其境一般的感受。研究表明,與環(huán)繞聲相比較,在沉浸式聲音環(huán)境下,人們感知到的整體音質(zhì)明顯改善,兩者之間的差異就像立體聲與環(huán)繞聲之間的差異一樣大。圖 1 為與 22.2 聲道參考信號相比,環(huán)繞聲、沉浸式 /3D 聲音格式的聲音還放系統(tǒng)擴(kuò)展后的整體音質(zhì)改善。
2.2交互功能 / 個性化定制
MPEG-H 電視音頻系統(tǒng)中包含“預(yù)設(shè)”功能。內(nèi)容創(chuàng)作者可以定義“預(yù)設(shè)”內(nèi)容,可以涵蓋不同聲音元素的組合以及調(diào)整不同元素在位置和音量上的關(guān)系。如此一來,廣播電視公司可以讓用戶輕而易舉地選擇不同的聲音體驗(yàn)。另外,通過 MPEG-H電視音頻系統(tǒng),用戶能夠通過與其他混音元素的比較,直接選和調(diào)整不同混音元素在位置和音量上的關(guān)系,從而對聲音體驗(yàn)進(jìn)行微調(diào)。其中一個典型的用例是調(diào)高或調(diào)低解說員的聲音 ( 也稱為“對白增強(qiáng)”) 或者選擇不同的解說評論的語言。而實(shí)現(xiàn)傳輸交互內(nèi)容其實(shí)也并不復(fù)雜,只需對現(xiàn)有制作流程稍作調(diào)整便能夠?yàn)閮?nèi)容創(chuàng)作者提供全新選擇,也能夠?yàn)橛^眾帶來更好的體驗(yàn)。
2.3通用傳輸
在多平臺環(huán)境下,相同的 MPEG-H 內(nèi)容通過不同的分發(fā)網(wǎng)絡(luò)進(jìn)行傳輸 ( 例如 :廣播電視網(wǎng)絡(luò)、移動網(wǎng)絡(luò)和寬帶網(wǎng)絡(luò) ),并且在不同的環(huán)境 ( 如嘈雜的公交車和安靜的客廳 ) 和設(shè)備上 ( 如電視機(jī)、移動設(shè)備和 AVR) 進(jìn)行播放。為了滿足以上需求,MPEG-H電視音頻系統(tǒng)針對每個完整混音甚至是單一音頻元素提供響度和動態(tài)范圍控制,以及對輸出的峰值和削波預(yù)防進(jìn)行控制。此外,全新的主動下混算法能夠帶來更高質(zhì)量的下混音頻信號。為了能通過耳機(jī)聆聽沉浸聲和環(huán)繞聲音頻內(nèi)容,MPEG-H 電視音頻系統(tǒng)還包含 binaural 渲染器。
3 MPEG-H 電視音頻系統(tǒng)的核心性能
3.1碼流效率
下一代廣播電視節(jié)目需要能夠通過各種方式向用戶提供內(nèi)容,其中包括最高質(zhì)量的有線電視和衛(wèi)星電視傳輸方式以及移動設(shè)備上的流媒體傳輸方式等。為此,電視音頻系統(tǒng)需要傳輸各種音頻內(nèi)容,從立體聲道到 5.1 聲道、7.1 聲道和用于沉浸式音頻內(nèi)容的更多聲道。MPEG-H 音頻規(guī)范的目標(biāo)碼流范圍旨在滿足質(zhì)量和效率的雙重目標(biāo)。對于當(dāng)今的 5.1環(huán)繞聲,96~256 kbit/s 的碼流便能夠提供良好甚至優(yōu)異的音頻質(zhì)量。對于未來具有更多聲道 (5.1 +4H 或者 7.1+4H) 的音頻內(nèi)容,256 kbit/s~1.2 Mbit/s 的碼流即可實(shí)現(xiàn)相同的音頻質(zhì)量。MPEG-H 音頻編解碼器能夠利用相同的碼流承載更高質(zhì)量和 / 或更多聲道的音頻內(nèi)容。例如,在常用的廣播音頻數(shù)據(jù)傳輸碼率 (384 kbit/s) 下,MPEG-H能夠傳輸最多包括四個附加對象的 7.1+4H 音頻聲道的信號,從而實(shí)現(xiàn)高度揚(yáng)聲器播放效果。
3.2動態(tài)范圍控制
動態(tài)范圍控制 (DRC) 技術(shù)能夠使產(chǎn)生的音頻信號適應(yīng)于不同的還放設(shè)備和聆聽環(huán)境。在 MPEG-H電視音頻系統(tǒng)的 DRC 框架內(nèi),通過信號傳輸?shù)牟煌珼RC增益序列能夠在播放設(shè)備中實(shí)現(xiàn)由編碼器控制的動態(tài)范圍處理。多個單獨(dú)的 DRC 增益序列可以通過高分辨率信號傳輸,以適用于各種播放設(shè)備和收聽環(huán)境,如 :移動環(huán)境和家庭環(huán)境。通過 MPEG-H DRC技術(shù),還可以實(shí)現(xiàn)更好的削波預(yù)防和峰值限制效果。
3.3響度標(biāo)準(zhǔn)化
為了符合不同的響度規(guī)范并帶來一致的用戶體驗(yàn),響度信號傳送和標(biāo)準(zhǔn)化對于任何下一代音頻系統(tǒng)都扮演著至關(guān)重要的角色。在 MPEG-H 電視音頻系統(tǒng)中,基于 EBU R128 或 ITU-R BS.1770-3 的圖 1?聲音還放系統(tǒng)擴(kuò)展后的整體音質(zhì)改善標(biāo)準(zhǔn)化研究、信息技術(shù)與標(biāo)準(zhǔn)化。
所有響度相關(guān)測量數(shù)據(jù)都被嵌入到用于響度標(biāo)準(zhǔn)化的數(shù)據(jù)流之中,并通過解碼器對音頻信號進(jìn)行標(biāo)準(zhǔn)化,從而將節(jié)目響度映射至還放所需的目標(biāo)響度。例如,在移動設(shè)備上,目標(biāo)響度范圍為 -12~-15 dB LKFS,而在家庭 AVR 上,目標(biāo)響度通常設(shè)置為-31 dB LKFS。然而,通過下混和動態(tài)范圍控制,可能會改變信號的響度。因此,可以將專用的節(jié)目響度元數(shù)據(jù)植入到 MPEG-H 比特流中,以確保在還放端實(shí)現(xiàn)正確的響度標(biāo)準(zhǔn)化。
3.4音頻對象
將音頻對象作為附加音軌嵌入到音頻節(jié)目內(nèi)容中,可以實(shí)現(xiàn)一系列的全新應(yīng)用。其中,最為突出的應(yīng)用就是允許用戶通過改變混音效果實(shí)現(xiàn)交互性功能。用戶可以選擇不同的語言音軌、附加音軌,例如導(dǎo)演對電影的評論或針對視障者的場景敘述等。同時,用戶能夠調(diào)節(jié)特定音軌聲音,以便獲取個性化收聽體驗(yàn),例如調(diào)高解說評論的聲音使其高于背景音。諸如對白的音頻對象可以根據(jù)其動態(tài)范圍進(jìn)行單獨(dú)控制,這樣可確保在任何壓縮模式下都能清晰地聽到對白內(nèi)容。利用音頻對象的概念,還可以在不同播放場景下,實(shí)現(xiàn)準(zhǔn)確的空間聲音還放。為實(shí)現(xiàn)以上需求,可將描述幾何位置的對象元數(shù)據(jù)嵌入到比特流中。MPEG-H 電視音頻系統(tǒng)的解碼器包含一個對象渲染器,它能夠根據(jù)元數(shù)據(jù)和用戶家中揚(yáng)聲器的位置將對象信號映射并分配至揚(yáng)聲器中。
3.5Ambisonics
Ambisonics 能夠通過特定的數(shù)學(xué)方程式呈現(xiàn)聲場壓力。隨著 Ambisonics 階數(shù)的提升,其還放準(zhǔn)確度也隨之升高。此外,Ambisonics 的呈現(xiàn)不受終端揚(yáng)聲器配置的影響,因此,在聲音還放之前可以輕而易舉地對其進(jìn)行調(diào)整。得益于以上特性,Ambisonics 還放技術(shù)非常適用于當(dāng)今的虛擬現(xiàn)實(shí)應(yīng)用。目前,結(jié)合音頻對象的FOA(一階高保真)技術(shù)和HOA(高階高保真)技術(shù)在虛擬現(xiàn)實(shí)制作中的應(yīng)用越來越廣泛。
3.6流媒體
對于傳輸系統(tǒng)和其所涉及的媒體來說,將互聯(lián)網(wǎng)流媒體音頻內(nèi)容傳輸?shù)揭苿釉O(shè)備的過程極具挑戰(zhàn)性。甚至當(dāng)今常用的 3GPP 或 LTE 網(wǎng)絡(luò)的移動數(shù)據(jù)連接也無法保證提供恒定的帶寬。為了確保內(nèi)容還放的連續(xù)性,最新的廣播電視設(shè)備采用了諸如MPEG-DASH 等動態(tài)自適應(yīng)流媒體技術(shù),從而確保內(nèi)容碼流能夠完全適應(yīng)于當(dāng)前的信號連接質(zhì)量。其實(shí),自適應(yīng)流媒體的概念并不新鮮,早在MPEG-4 HE-AAC 流媒體應(yīng)用中已經(jīng)采用了這一方式。MPEG-H 電視音頻系統(tǒng)在設(shè)計(jì)階段就已考慮到自適應(yīng)流媒體的需求,進(jìn)而可以更容易地實(shí)現(xiàn)基于DASH 服務(wù)。音頻幀的內(nèi)置概念縮短了調(diào)準(zhǔn)時間,并且顯著降低了實(shí)施復(fù)雜性,從而可以在制作過程中輕松進(jìn)行碼流拼接和廣告插播,即使是在本地接收機(jī)端也可實(shí)現(xiàn)個性化廣告內(nèi)容。
3.7靈活的渲染和還放
針對立體聲和 5.1 聲道的音頻制作和監(jiān)聽揚(yáng)聲器的安裝已經(jīng)很成熟。然而,消費(fèi)者家中揚(yáng)聲器的配置、數(shù)量和位置都有所不同,為了應(yīng)對這些問題,在 MPEG-H 電視音頻系統(tǒng)中,可以通過格式轉(zhuǎn)換器實(shí)現(xiàn)針對不同揚(yáng)聲器布局的靈活渲染,從而使內(nèi)容格式適應(yīng)于播放端的揚(yáng)聲器設(shè)置。過去幾年間,媒體消費(fèi)已更多轉(zhuǎn)向移動設(shè)備,而用戶也主要通過耳機(jī)收聽音頻內(nèi)容。因此,MPEG-H電視音頻系統(tǒng)解碼器中集成了 binaural 渲染組件,專門應(yīng)用于將沉浸聲和環(huán)繞聲內(nèi)容還放到耳機(jī)端。
4 MPEG-H 電視音頻系統(tǒng)成功納入 ATSC 3.0 標(biāo)準(zhǔn)
2010 年,在 ATSC 舉辦的下一代廣播電視最新技術(shù)研討會上,F(xiàn)raunhofer IIS 提出了全新方案,即通過對象與聲道相結(jié)合的方式作為下一代音頻技術(shù)標(biāo)準(zhǔn)。2015 年 1 月,由幾家公司組成的聯(lián)盟向工作組提交了基于 MPEG-H 3D 音頻標(biāo)準(zhǔn)的提案。除了MPEG-H 電視音頻系統(tǒng)以外,ATSC 還收到了另外兩份提案。圖2為MPEG-H電視音頻系統(tǒng)納入ATSC 3.0標(biāo)準(zhǔn)的發(fā)展過程。工作組根據(jù)預(yù)認(rèn)證階段所提交的文件,對三套提案系統(tǒng)進(jìn)行了評估,其中兩套系統(tǒng)獲準(zhǔn)進(jìn)入下一階段的遴選,包括正式的多站點(diǎn)雙盲聆聽測試和系標(biāo)準(zhǔn)化研究
圖 2?MPEG-H 電視音頻系統(tǒng)發(fā)展大事記
系統(tǒng)特征評估。聽音測試結(jié)果表明 :兩套提案均實(shí)現(xiàn)了所需的編碼效率,在某些項(xiàng)目中稍微傾向于選擇MPEG-H 電視音頻系統(tǒng),特別是具有低碼流語音的項(xiàng)目 (MPEG-H 電視音頻系統(tǒng)編解碼器的語音編碼工具可在其中使用 )2015 年 5、6 月,ATSC 評估員到訪兩個提案方的實(shí)驗(yàn)室,以評估提案特征的演示。最終,兩套系統(tǒng)均符合 ATSC 規(guī)定的所有要求。2015 年 7 月,ATSC 組織了一次特別的演示活動并對 MPEG-H 測試床進(jìn)行了展示。2015 年 11 月,ATSC 將兩套系統(tǒng)升級為候選標(biāo)準(zhǔn)狀態(tài),并建議每個區(qū)域使用一套系統(tǒng)。2016 年底,兩套系統(tǒng)均被升級為 ATSC 建議標(biāo)準(zhǔn)。2017 年 3 月,兩套系統(tǒng)被確認(rèn)為 ATSC 3.0 的最終標(biāo)準(zhǔn)。目前,兩套系統(tǒng)信息都能夠在 ATSC 官網(wǎng) A/342 標(biāo)準(zhǔn)中下載。
5結(jié)語
MPEG-H 電視音頻系統(tǒng)的附加功能 ( 如音頻對象和靈活渲染等 ),能夠?yàn)橛脩魩斫换ナ胶蜕砼R其境的沉浸式音頻體驗(yàn)。經(jīng)過改良響度和 DRC 控制功能,充分體現(xiàn)了以用戶為中心的音頻標(biāo)準(zhǔn)設(shè)計(jì)理念。在 MPEG-H 電視音頻系統(tǒng)內(nèi)部以及 ATSC 3.0 標(biāo)準(zhǔn)開發(fā)過程中的測試均表明,MPEG-H 電視音頻系統(tǒng)可以滿足廣播電視公司對于下一代音頻系統(tǒng)的所有要求。MPEG-H 電視音頻系統(tǒng)已被 ATSC 3.0 采納為最終標(biāo)準(zhǔn),并被韓國選定為基于 ATSC 3.0 標(biāo)準(zhǔn)的唯一音頻系統(tǒng),并于 2017 年 5 月 31 日起提供常規(guī)服務(wù)。此外,支持 ATSC 3.0 標(biāo)準(zhǔn) ( 包含 MPEG-H電視音頻系統(tǒng) ) 的電視機(jī)已經(jīng)在韓國正式銷售,韓國的廣播電視公司將在 2018 年平昌冬季奧運(yùn)會上采用 MPEG-H 電視音頻系統(tǒng)進(jìn)行電視轉(zhuǎn)播。此外,MPEG-H電視音頻系統(tǒng)也是DVB標(biāo)準(zhǔn)系列的一部分,并被考慮應(yīng)用于其他電視標(biāo)準(zhǔn)中,如中國廣播電視3D 音頻標(biāo)準(zhǔn)等。