導讀:騰訊云RTC-IoT基于自研多模態(tài)大模型,推出全新的TWeSee解決方案,智能分析理解畫面內(nèi)容,在傳統(tǒng)移動偵測方案的基礎(chǔ)上,進一步提供視頻濃縮、視頻摘要、視頻搜索、視頻標簽等能力,精準總結(jié)并索引視頻內(nèi)容,徹底改變了只能依靠人工查看的人機交互模式。
自以ChatGPT為代表的AI大模型問世以來,生成式AI迅速崛起為主流技術(shù)。緊隨其后的是,科技巨頭們搭乘時代的高速列車,紛紛投身于大模型的發(fā)展浪潮之中。
近兩年來,大模型如雨后春筍般涌現(xiàn),并迅速滲透到各類終端和產(chǎn)業(yè)領(lǐng)域,呈現(xiàn)出井噴式的發(fā)展態(tài)勢。伴隨著各大廠商紛紛推出大模型產(chǎn)品的浪潮興起,緊接著的焦點無疑在于如何有效地將這些大模型應(yīng)用于實際場景中,并充分發(fā)揮其效能。
在這場競賽中,安防作為人工智能領(lǐng)域最早深度落地的行業(yè),從傳統(tǒng)安防到智能物聯(lián),一直在不斷拓展自身邊界和應(yīng)用場景。如今,隨著大模型時代的到來,安防行業(yè)又一次站在了技術(shù)創(chuàng)新與應(yīng)用的前沿陣地,智能安防與大模型的融合之路正在逐漸步入正軌,同時也在逐步接受大模型所帶來的種種變革。
安防視頻之困:“霧里看花”難題多
近年來,隨著人們生活水平的不斷提升以及對家庭安防需求的日益增強,網(wǎng)絡(luò)監(jiān)控攝像機憑借其便捷高效等特點已悄然走進千家萬戶,成為現(xiàn)代家庭守護安寧的得力助手。
不過,在科技日新月異的當下,消費者對于網(wǎng)絡(luò)攝像頭的期待已遠不止于簡單的畫面捕捉,他們更渴望攝像機能夠具備更多智能識別能力,精準捕捉到人物移動、寵物出現(xiàn)等關(guān)鍵信息,并將這些重要的視頻內(nèi)容實時推送至手機端,以便讓身處遠方的他們也能在第一時間掌握家中的每一個細微動態(tài)。
然而,目前市面上絕大部分網(wǎng)絡(luò)監(jiān)控攝像機所采用的傳統(tǒng)移動偵測方案,只能機械地感知畫面中的元素是否發(fā)生了位移,而無法真正理解畫面背后的豐富內(nèi)涵與情感色彩。這種技術(shù)的局限性,也會導致攝像機在上報視頻時難免出現(xiàn)部分誤報的情況,給消費者帶來了不必要的困擾。
另一方面,在當前消費電子行業(yè)的安防場景中,監(jiān)控攝像頭的使用場景愈加廣泛,數(shù)量增多,以及攝像頭使用時長增長,一天所產(chǎn)生的平均視頻時長往往可達2小時以上甚至更長,從而使得視頻的數(shù)據(jù)呈爆炸式增長。面對如此冗長繁雜的視頻素材,用戶想要從中精準篩選出自己真正關(guān)心、需要的內(nèi)容,如同大海撈針。這不僅極大地降低了使用體驗,也讓網(wǎng)絡(luò)攝像頭的安防價值大打折扣。
面對這一痛點問題,如何打破這一技術(shù)瓶頸,實現(xiàn)智能識別與精準推送,是當前安防領(lǐng)域亟待解決的一大難題。
大模型加持,TWeSee讓安防視頻更“有看頭”
對此,騰訊云RTC-IoT基于自研多模態(tài)大模型,推出全新的TWeSee解決方案,智能分析理解畫面內(nèi)容,在傳統(tǒng)移動偵測方案的基礎(chǔ)上,進一步提供視頻濃縮、視頻摘要、視頻搜索、視頻標簽等能力,精準總結(jié)并索引視頻內(nèi)容,徹底改變了只能依靠人工查看的人機交互模式。
根據(jù)了解,TWeSee憑借視頻濃縮、視頻摘要、視頻搜索、視頻標簽等能力,為IPC用戶提供智能化的視頻分析體驗。用戶通過摘要后的文字便能快速把握視頻的精髓,并且也能利用自然語言技術(shù)進行視頻搜索。面對海量的視頻數(shù)據(jù),用戶同樣能夠依靠精確的索引功能,迅速鎖定自己所需的視頻片段。
圖源:騰訊云音視頻公眾號
在視頻摘要方面,借助自研大模型強大的長視頻語義理解能力,TWeSee能夠精準識別視頻中的人、車、寵物、包裹等對象,檢測火焰、煙霧、天氣、顏色、運動等各種信息,并針對不同場景(入戶場景、室內(nèi)場景、戶外場景等),智能提取事件要點,總結(jié)成文字摘要。這樣,用戶無需瀏覽整段視頻,僅憑視頻文字摘要,即可快速掌握視頻內(nèi)容概要。
在視頻搜索方面,融合AI技術(shù)與視頻語義理解能力,TWeSee支持用戶通過自然語言進行視頻搜索,極大地拓寬了搜索的邊界。用戶只需用自然語言簡述自己想要的視頻內(nèi)容,無需費時費力逐一瀏覽視頻,TWeSee就能夠在海量云存儲視頻資料中智能篩選出與用戶描述文本相契合的視頻片段。比如,用戶輸入關(guān)鍵詞“狗狗”,TWeSee就會自動檢索今天的視頻內(nèi)容,并精準找出“狗狗躺在沙發(fā)旁”、“狗狗在窗前玩皮球”等場景的相關(guān)視頻片段。
在實時推送方面,結(jié)合TWeSee精準的視頻理解和文字摘要能力,廠商能夠?qū)z像頭監(jiān)控到的重點事件通過文字消息的形式,實時推送給用戶。用戶可以通過推送的文字摘要內(nèi)容,再決定是否進一步查看對應(yīng)事件視頻。這一實時消息推送功能讓用戶無需耗時瀏覽視頻,就能第一時間掌握到家中的實時動態(tài)。此外,用戶還能自定義感興趣的視頻標簽,確保攝像頭僅在捕捉到相關(guān)場景時才發(fā)送通知。比如,為寵物設(shè)置“特別關(guān)注”,這樣當攝像頭捕捉到寵物相關(guān)視頻時,便會立即推送消息通知用戶,確保用戶不會錯過寵物的每一個精彩瞬間。
據(jù)悉,TWeSee解決方案已在技威時代旗下IPC產(chǎn)品中廣泛應(yīng)用,為超過1.2億“有看頭”App用戶深度賦能,提供智能化的視頻管理體驗,讓安防視頻更有看頭。
除了全新發(fā)布的TWeSee解決方案,騰訊云RTC-IoT還面向設(shè)備開發(fā)商提供了一站式音視頻物聯(lián)PaaS解決方案?;赗TC-IoT提供的設(shè)備端、APP和微信小程序SDK,設(shè)備開發(fā)商可快速落地項目,實現(xiàn)視頻連接、存儲和智能應(yīng)用等多項服務(wù),安全且高效。
圖源:騰訊云音視頻公眾號
寫在最后
一直以來,安防行業(yè)被視為人工智能強應(yīng)用的領(lǐng)域之一。如今,隨著大模型技術(shù)的進一步發(fā)展,尤其是多模態(tài)大模型的應(yīng)用,安防系統(tǒng)正逐步跨越傳統(tǒng)視覺監(jiān)控的界限,邁向深度內(nèi)容解析、高度場景適應(yīng)性以及豐富人機交互的新階段。而未來,可以預(yù)見的是,大模型的應(yīng)用將帶動更多創(chuàng)新技術(shù)融合并更快速、更廣泛地賦能更多細分場景應(yīng)用,助力安防行業(yè)挖掘出更深層次的創(chuàng)新空間與市場潛力。