技術引領直播未來 騰訊音視頻實驗室解讀直播前沿技術
發表時間:2023-03-29 來源:本站整理相關軟件相關文章人氣:
3月20日,2017“云+視界”大會在北京召開,聚焦視頻、直播行業的“新洞察、新趨勢、新格局”,集結視頻、直播行業的一眾行業巨擘。文化部市場司副司長馬峰、人民日報總經理葉蓁蓁、騰訊集團高級執行副總裁湯道生、騰訊公司副總裁騰訊云負責人邱躍鵬、騰訊音視頻實驗室總經理劉曉宇等500余位來自視頻、直播、廣電、新媒體、金融、電商、文化、娛樂相關全產業鏈的行業領軍人物集聚大會現場,共同探討直播行業的未來之路。
現場,騰訊音視頻實驗室總經理劉曉宇分享了音視頻實驗室在直播技術上的發展現狀,根據應用場景進行了展示和解析,同時也展望了直播技術的未來趨勢。在直播上半場面臨挑戰之下,技術將引領直播行業未來,助力直播行業高速發展。
以下為劉曉宇演講實錄:
大家好,2016年是整個直播元年,我們直播SDK從去年開始對外開放,到現在已經有兩億多的終端用戶用了我們的SDK。去年其實有很多的直播APP成長出來,但是提供低延遲高互動的直播平臺并不多,因為這里面涉及到的技術相當多,這里僅僅是列出了所有用到直播技術的冰山一角。
直播技術在垂直行業場景的深耕
在直播通用方案的基礎上,我們持續的在垂直行業場景上深耕細作,不斷的針對場景特點進行技術上的創新,將細微的體驗做到極致,下面會詳細講兩個場景的案例。
首先是K歌場景。音樂對音質的要求非常高,正常情況下人的感知損傷,對音樂的感知非常明顯。假如是普通的語音通訊,其實60毫秒的丟包基本上人耳有所感知,但是換作音樂場景,20毫秒可能就會聽得非常明顯。我們會從采集到傳輸到播放,將整個鏈路進行優化,降低整個的感知損傷。第二,我們還給音樂信號做了拉伸、壓縮的技術,都是為了抗抖動、丟包產生的損傷以后怎么樣去彌補。
另一個是金融直播場景。金融場景的屏幕分享不僅是講K線圖,其實在教育場景用的也比較多,這里有一個技術難點,對屏幕編碼的要求非常高,這里面會涉及到對屏幕壓縮后怎么樣傳輸,還有CPU怎么樣去控制。在屏幕分享的過程中,還涉及到一些問題。比如,從語音、視頻到屏幕,三方的流量是完全不一樣的,怎么樣控制這三方的同步,我們也是花了很長時間去解決。
技術創新促進直播+AI&VR發展
2016年是直播的元年,也是人工智能和VR的元年,我們在這些技術方面有一些思考和研究。首先是語音識別和自然語言處理,直播加上語音識別,會有很多的玩法。QQ早在今年春節的時候,已經有了這樣的嘗試。在QQ視頻聊天的時候,大家可能會出發一些彩蛋,假如跟對方聊天的時候說恭喜發財,我們的界面上就會飄出一個紅包,類似這樣的語音命令,在直播的場景下也是非常契合的。還有實時字幕和翻譯,假如一個老外在你的直播平臺,他邊說自己的家鄉話,他下面會有翻譯出來的字幕,他作為一個外國的主播,是不是可以和中國的觀眾進行無縫的交流。實時變聲,QQ本身已經實現了很多,可以變為變形金剛的聲音或者搞怪的聲音。接下來我們會把某一個人的聲音,或者你自己的聲音,變成某一個明星的聲音。在K歌場景,假如你可以把自己變成某一個歌星,在上面唱歌也是挺有意思的一件事情。
在機器視覺方面,外面展臺有我們的直播和綠幕的技術。之前技術只是用作于電影制作,現在這種技術已經可以慢慢地民用。我們同事也在嘗試非綠幕的一些算法,通過人工智能怎么樣可以進行更好的前景和背景的分割,我相信不遠的將來這方面會有一些成績出來。
還有手勢識別,涉及到人機交互的方向,傳統的算法進展不是很大。去年AR的發展,我覺得手勢識別技術方向,可能是下一個突破口,因為通過人工智能可以把這方面技術很快突破。有了這樣一個全新的進展以后,我們在直播、互動方面,可以讓主播和我們的觀眾進行一個更多花樣的互動。
最后我會講一下VR的方向,雖然VR在整個行業來看不是特別成熟,畢竟會有一個起步的階段。首先會有一些360度全景的視頻,在這個過程中我們在不斷地打磨我們的基本算法和能力,比如說一些拼接的能力,怎么樣進行一些雙目渲染,為我們將來做VR做儲備。
剛才說到很多技術并不是科幻,也不是離我們很遠的事情,這些技術很多已經在我們的產品中使用,后面很多都會加入到開放,給更多的合作伙伴提供這樣一些能力。
我覺得可能從技術來講,直播的未來可能更多是一種技術創新,不管是AI或者VR,技術創新可能才是直播下一個真正的戰場,謝謝大家。
據了解,騰訊在音視頻實時通信、音視頻直播、圖像處理、視頻處理和語音處理等技術領域擁有十多年的經驗沉淀,技術水平已在業內領先。為行業數百個產品提供了音視頻技術支持與服務,如QQ電話/視頻電話、騰訊云、QQ空間、全民K歌、快手、斗魚、虎牙、蘑菇街等。
騰訊在2011年成立了音視頻中心,2015年底向行業開放了其自主研發的SPEAR音視頻引擎,目前僅QQ音視頻每天的通話就高達12億分鐘,2016年成立的騰訊音視頻實驗室致力于音視頻及圖像處理技術創新,為更廣大的用戶和行業客戶提供穩定優質的音視頻及圖像處理服務。