国产电影精品一区-日韩专区一区-亚洲小说欧美激情另类,亚洲精品在线观看视频,欧美性生交大片免费看app麻豆,久久99国产精品二区不卡

中移智庫發布新型視頻語義編碼技術白皮書(2024年)

數碼
TIME
2024-12-10 15:25
中移智庫
分享

隨著5G和人工智能技術的發展,視頻編碼技術迎來了新的機遇。同時,新型視頻內容(VR視頻、全景視頻、自由視點視頻等)相繼涌現,給數據的存儲和傳輸帶來了全新挑戰。新機遇帶來新挑戰,從而引發新型技術需求。在此背景下,視頻語義編碼技術將基于視頻內容和語義特征進行編碼,同時追求信號保真度、感知自然性和語義質量,有望突破傳統視頻編碼方法的性能瓶頸,成為助推視頻產業高質量發展的新動能。本白皮書旨在提出視頻語義編碼技術架構,介紹了視頻語義編碼技術背景、典型應用場景和相關技術方案,總結梳理了標準化進展,并對未來技術發展趨勢進行展望。

視頻編碼技術總體發展態勢

近年來,隨著5G、5G-A和人工智能技術的發展,多媒體通信呈現巨大革新,進而催生了大量以視頻為主要媒介的應用場景,比如短視頻、視頻直播、視頻通話、視頻會議等。視頻編解碼技術作為視頻產業的基礎底層技術,無疑將成為未來產業中的重要一環。盡管視頻編解碼技術每十年可提升約50%的壓縮率,但已然無法跟上當下視頻信息量迅速膨脹的步伐。海量的新型視頻數據和創新應用場景的迸發涌現,促使視頻編碼技術不斷迭代并呈現多元化發展趨勢。因此,亟需發展更為高效智能的視頻編碼技術,來迎接全新的大視頻時代。

在此背景下,視頻語義編碼技術應運而生。視頻語義編碼,即基于視頻內容和語義特征進行編碼,同時追求信號保真度、感知自然性和語義質量,有望突破傳統視頻編碼方法的性能瓶頸,為視頻產業注入新的活力,進一步提升產業勢能,成為助推視頻產業高質量發展的新動能。

視頻編碼技術發展概述

視頻編碼技術歷經幾十年的發展,國內外視頻編碼標準更新迭代,基于塊的混合編碼框架成為主流的基本架構。目前,國內外基于混合編碼框架制定的視頻編碼標準包括:MPEG-1/2/4, H.261/2/3, H.264/AVC, AVS,H.265/HEVC和H.266/VVC等。

圖1 國內外視頻編碼標準發展歷程

新一代的視頻編碼標準如VVC、AVS3 和AV1在編碼框架方面雖然仍屬于基于預測/變換和熵編碼的混合編碼框架,但其諸多編碼工具和環節與前代視頻編碼標準相比,具備更細粒度的處理能力和自適應性,帶來了顯著的編碼性能提升。然而,編解碼的復雜度也顯著增加,這對實時編碼提出了巨大的挑戰,同時壓縮效率的進一步提升遭遇瓶頸。

而人工智能的興起,尤其是深度學習的發展,促使研究人員開始嘗試在圖像視頻編碼領域引入神經網絡,以期利用其數據驅動和對機器視覺友好的特質,實現更智能化、更高效的圖像視頻編碼,從而突破傳統視頻編碼方法的瓶頸。目前,基于神經網絡的視頻編碼更多的是探索網絡模型的組合堆積和復雜模塊的引入,未深入分析設計網絡模型特性、結構特性等,如何設計并提出高效的端到端視頻編碼技術和解碼方法是亟需解決的問題。同時,如何實現不同模型的碼流互通,降低解碼端模型推理的硬件要求,實現移動端的高效部署也是該技術落地的關鍵。

視頻語義編碼傳輸關鍵技術

視頻語義編碼是一種全新的視頻編碼引擎,它衍生于傳統視頻編碼框架和神經網絡視頻編碼框架,通過高效利用語義信息,從而一步提高兩種路線的編碼效率。

目前,主要的技術方案可分為兩類:(1)利用語義信息作為先驗信息,優化現有的混合編碼框架;(2)根據人眼視覺任務和機器視覺任務的需求,自適應地選擇或生成語義信息,即一種通用緊湊且易于壓縮的特征表達,進而優化其編碼性能。

縱觀兩種技術路線,語義編碼技術乃多方案競相爭鳴,亮點紛呈,技術框架涵蓋多種技術路線和方案,主要包含視覺感知編碼、生成式編碼、跨模態編碼、面向機器的視頻編碼等關鍵技術,同時,對于編碼后的視頻數據有其配套的封裝傳輸技術。

圖2 視頻語義編碼傳輸關鍵技術簇

圖3 視頻語義編碼技術應用及產業鏈示意圖

視頻語義編碼技術可直接集成應用于現有編碼框架,其技術應用及產業鏈示意圖見圖3。目前,較為成熟的解決方案是以AI作為工具輔助編碼,或在編碼前進行分析預處理,比如畫質增強,超分插幀,特征提取等;或在編碼環節提供語義先驗信息以優化編碼性能,比如基于恰可察覺失真和感興趣區域的碼率控制優化,編碼參數自適應選擇等。未來,隨著AI編碼技術的不斷成熟,端到端的視頻語義編碼架構將是未來演進方向。

標準化進展及建議

為了實現不同公司制造的設備和提供的服務之間的互操作性,在過去幾十年,國內外標準工作組研究了一系列視頻編碼標準,代表性的活動見表1和圖4。

表1 國內外視頻編碼技術標準工作組一覽

圖4 國內外視頻編解碼標準體系

回顧視頻語義編碼技術框架,視覺感知編碼技術涉及對應了傳統視頻編碼、VR視頻編碼、多視點視頻編碼、AI視頻編碼等相關標準;生成式編碼技術和跨模態編碼技術目前屬于前沿探索階段,未來有望進入AI視頻編碼標準;針對機器視覺,國內外標準工作組開展了一系列面向機器的視頻編碼標準的研究制定。中國移動積極參與了ISO/IEC、ITU-T、AVS等相關標準的研制。

AI視頻編碼

近年來,各標準工作組開始探索基于深度學習的編碼標準化,例如,IEEE 1857.11、JPEG AI、MPAI EVC/EEV、AVS ModAI、AVS4等。

VR視頻編碼

IEEE 1857.9工作組致力于推動用于壓縮、解壓縮和重建沉浸式視覺內容的高效編碼工具的標準化。VVC/H.266標準已經能夠支持雙目、多目、360度等沉浸式內容編碼。MPEG MIV標準于2021年10月進入國際標準最終草案投票階段,MIV標準的目標是為沉浸式六自由度立體視覺場景提供高效編碼。國內AVS工作組于2016年啟動了VR編碼標準的制定。

多視點視頻編碼

國際標準組織MPEG于2001年成立3D視頻研究工作組,著手進行多視點視頻、多視點加深度和自由視點視頻的技術研究和標準化制定。2012年,ISO/IEC與ITU-T成立3D視頻編碼聯合專家組(JCT-3V),制定HEVC 和其他視頻編碼標準的多視圖和3D視頻編碼擴展。在AVS第89次會議上,中國移動牽頭提出《AVS3的多視角視頻及3D立體視頻檔次需求建議》并通過。同時,在大會上成立3D編碼專題討論組,負責AVS3多視角和立體視頻的標準制定工作。

面向機器的視頻編碼

在機器視覺任務中,為高效壓縮圖像與視頻,國內外相關標準組織做出了一些探索和嘗試,并形成了一系列標準,主要包括視覺搜索緊湊描述子標準(CDVS)、視頻分析緊湊描述子標準(CDVA),正在探索的面向機器的視頻編碼標準(VCM)和面向機器智能的數據編碼標準(DCM)。

標準化進展及建議

在隨著大算力,大數據,大模型的發展,AI技術迎來新一輪革新,無疑給視覺數據編碼技術帶來了全新的發展機遇,促使其不斷向深度和廣度方向發展。

視頻語義編碼技術將延伸至6DoF視頻,包括但不限于體積視頻、動態點云/網格等。

預訓練多模態大模型有望成為推動視頻語義編碼效率進一步提升的新引擎。

視頻語義編碼技術將成為AIGC的基礎核心技術,降低海量AI生成內容的傳輸存儲壓力。

視覺內容的高效表征有望和數據壓縮技術高效融合,實現“上萬倍”壓縮。

面向差異化任務需求,異構計算、云-邊端計算架構有望成為視頻語義編碼實現的主流方案。

視頻語義編碼技術作為視頻業務的底層關鍵技術,將促進視頻傳輸技術的優化升級,兩者相輔相成,進一步提升視頻體驗。

視頻語義編碼技術將推動視頻業務的創新發展。同時,視頻語義編碼技術的標準化研究,將進一步促進新興視頻業務的大規模應用落地。

[參考文獻]

[1] Ma S, Zhang X, Jia C, et al. Image and video compression with neural networks: A review[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 30(6): 1683-1698.

[2] 5G 高新視頻—VR 視頻技術白皮書, 國家廣播電視總局科技司, 2020.

THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時通知我們。

相關熱點

  近日,騰訊視頻宣布對會員權益進行調整,自2024年12月16日起,新購買的騰訊視頻VIP會員在有效期內,只能在累計3臺設備上登錄,并且同時只能在一臺設備上播放內容。而在此之...
互聯網
  據中央氣象臺消息,昨日8時至今日6時,新疆北部、青海東部和南部、甘肅中南部等地部分地區出現小到中雪,新疆烏魯木齊、阿克蘇地區局地大雪。西藏東部、川西高原、云南...
互聯網
1
3