封面新聞丨Sora橫空出世！它到底牛在哪？會帶來哪些影響？

2024-02-19 14:29:52 來源: 中國科技網綜合點擊數：

2月16日凌晨，美國人工智能公司OpenAI在其官網發布了文生視頻模型Sora，首次由AI生成了長達1分鐘的多鏡頭長視頻，鏡頭感堪比電影，引發關注。2月17日，據《紐約時報》和彭博社等媒體報道，OpenAI已完成一項允許員工出售公司股份的最新交易，使得這家AI公司的估值達到了860億美元。何為Sora？Sora為何能引發關注？又將會產生哪些影響？

圖源：Sora

能生成60秒視頻且對“物理規律”有超強學習能力

從發布的視頻來看，Sora 60秒的視頻中，視頻主體與背景保持了高度流暢性與穩定性；在一個視頻里實現多角度鏡頭，分鏡切換符合邏輯且十分流暢；此外，Sora對于光影反射、運動方式、鏡頭移動等細節處理非常到位。值得一提的是，在OpenAI公布的部分樣片中，Sora還展現了對“物理規律”超強的學習能力，無論是飄逸的毛發還是水體波紋，Sora都能“合乎常理”地呈現出來。

圖源：Sora

OpenAI究竟是怎么做到的？其官網介紹，通過一次性為模型提供多幀的預測，他們解決了一個具有挑戰性的問題。

總體而言，Sora是一個在不同時長、分辨率和寬高比的視頻及圖像上訓練而成的擴散模型，同時采用了Transformer架構。展開講，在視覺數據上，OpenAI把視頻和圖像分解為較小的數據單元Patches（補片），每個patches相當于GPT中的一個token（詞元）；在語言理解能力上，采用了DALL·E 3的重標注技術，通過為視覺訓練數據生成詳細描述的標題，使模型更加準確地遵循用戶的文本指令生成視頻。另外，Sora還能將現有的靜態圖像轉化成視頻，精準賦予圖像中內容以生動的動作；模型還能擴展現有視頻或補全缺失的幀。

簡單概括下來，Sora功能包括“文生視頻、圖生視頻、擴展原視頻”，長度最高可達60秒，視頻更高清，細節更逼真，表現力更豐富。

Sora生成的視頻截屏

技術報告揭秘Sora 6大優勢

在Sora推出后不久，OpenAI發布了這款新工具的技術報告。《每日經濟新聞》經過對報告的梳理，總結出了Sora的6大優勢。

①準確性和多樣性

Sora的顯著特征之一是能夠準確解釋長達135個單詞的長提示。它可以準確地解釋用戶提供的文本輸入，并生成具有各種場景和人物的高質量視頻剪輯。它涵蓋了廣泛的主題，從人物和動物到郁郁蔥蔥的風景、城市場景、花園，甚至是水下的紐約市，可根據用戶的要求提供多樣化的內容。

②強大的語言理解

OpenAI利用Dall-E模型的re-captioning（重述要點）技術，生成視覺訓練數據的描述性字幕，不僅能提高文本的準確性，還能提升視頻的整體質量。此外，與DALL·E 3類似，OpenAI還利用GPT技術將簡短的用戶提示轉換為更長的詳細轉譯，并將其發送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質量的視頻。

圖源：Sora

③以圖/視頻生成視頻

Sora除了可以將文本轉化為視頻，還能接受其他類型的輸入提示，如已經存在的圖像或視頻。這使Sora能夠執行廣泛的圖像和視頻編輯任務，如創建完美的循環視頻、將靜態圖像轉化為動畫、向前或向后擴展視頻等。

④視頻擴展功能

由于可接受多樣化的輸入提示，用戶可以根據圖像創建視頻或補充現有視頻。作為基于Transformer的擴散模型，Sora還能沿時間線向前或向后擴展視頻。

⑤優異的設備適配性

Sora具備出色的采樣能力，從寬屏的1920×1080p到豎屏的1080×1920，兩者之間的任何視頻尺寸都能輕松應對。這意味著Sora能夠為各種設備生成與其原始縱橫比完美匹配的內容。而在生成高分辨率內容之前，Sora還能以小尺寸迅速創建內容原型。

⑥場景和物體的一致性和連續性

Sora可以生成帶有動態視角變化的視頻，人物和場景元素在三維空間中的移動會顯得更加自然。Sora能夠很好地處理遮擋問題。現有模型的一個問題是，當物體離開視野時，它們可能無法對其進行追蹤。而通過一次性提供多幀預測，Sora可確保畫面主體即使暫時離開視野也能保持不變。

Sora生成的視頻中，主角臉上的雀斑清晰可見。圖片來源：OpenAI官網

Sora模型的實際生成效果仍是未知數

OpenAI官網稱，Sora模型可能難以準確模擬復雜場景的物理特性，并且可能無法理解因果關系。

在OpenAI發布的技術報告中有一段Sora模型生成的錯誤視頻，展示了桌上的水杯會先從底部流出果汁，然后沿著錯誤的方向和角度倒在桌上。

根據OpenAI官網的描述，Sora模型在模擬復雜場景時仍會出錯，并不總能準確呈現物體狀態的改變。比如，它不能準確地模擬許多日常的基本物理過程，像是玻璃破碎過程、吃食物后表面沒有咬痕、憑空生成并不需要的重復或變形畫面等。

圖源：Sora

此外，Sora模型的安全性、對于有害內容的把控、對于偏見和歧視內容的篩查，目前仍處于摸索當中。Sora模型目前還處于測試階段，預計再經過一段時間的安全測試和用戶反饋后才會正式提供服務，因此還無法了解Sora模型的實際效果。

圖源：Sora

或對影視、廣告、游戲、新聞、教育、VR\AR等行業產生深遠影響

Sora會給人類帶來哪些影響？

北京郵電大學人機交互與認知工程實驗室主任劉偉表示，Sora在短期內可能會對短視頻制作、影視行業以及視覺交互界面應用產生較為顯著的影響；從長期來看，這項技術會為自動駕駛、數字仿真、場景模擬等領域帶來改變。

中國企業資本聯盟副理事長柏文喜表示，Sora作為一種強大的視頻生成工具，可以極大地降低視頻制作的門檻和成本，使得更多人能夠輕松創建高質量的視頻內容。這將對影視、廣告、游戲、新聞、教育、VR\AR等諸多行業產生深遠的影響，具有廣泛的應用前景。

例如在影視行業，人人都是導演的時代即將來臨，Sora可以快速生成逼真的場景和特效，幫助制作人員更好地實現創意，提高制作效率。在廣告行業，Sora可以根據品牌需求和營銷目標，快速生成高質量的廣告。

內容創作的方式變革后，文學創作領域也將迎來復興，小說可以直接生成動漫、電視劇。視頻內容集中爆發，自媒體行業也將迎來重新洗牌。隨著技術的不斷深挖，未來Sora會將在更多領域得到推廣應用。

技術的變革是把雙刃劍。也許有人會問Sora的出現會對哪些崗位產生沖擊？

從上述專家的分析來看，目前最容易受到影響的或許是影視行業的從業者。例如視頻剪輯師、后期制作這類崗位，Sora能夠自動或半自動地生成視頻，這可能會導致傳統的視頻制作和編輯職位的需求下降。后期制作包括剪輯、特效、音效等環節，這些工作也可以通過AI技術進行自動化或半自動化處理。再比如新聞主持人這一崗位，Sora可以根據輸入的文本自動生成視頻新聞報道，一些簡單的新聞報道任務可能會被Sora所取代。此外，游戲動畫師、廣告創意和設計崗位、內容創作者等崗位都有可能受到沖擊。

圖源：Sora

大模型的競爭正在加劇

AI的世界，日新月異。

與其他文生視頻大模型僅能生成3至4秒的視頻相比，Sora模型生成的60秒視頻實現了明顯提升。

不過，OpenAI雖然遙遙領先，卻也不是完全沒有壓力。近幾個月來，科技巨頭們也紛紛宣布將帶著自己的模型進入該領域，例如字節跳動的MagicVideo-V2和谷歌的Lumiere。

值得關注的是，就在Sora發布的同日，谷歌也發布其最新力作——Gemini 1.5 Pro，其將穩定處理上下文的上限擴大至100萬Tokens（詞元），這代表它能一次處理大量的信息——包括1小時的視頻、11小時的音頻、超過3萬行代碼或超過70萬字的代碼庫。

大模型的競爭正在加劇。

（中國科技網綜合藍鯨財經、新民晚報、每日經濟新聞、上海證券報、經濟觀察報、瀟湘晨報、北青網、潮新聞等）

責任編輯：王倩

日日噜噜噜夜夜爽爽狠狠22_中文字幕在线不卡_久久久伦理_久久综合激情网_曰批免费视频播放免费_狠狠做五月爱婷婷综合

封面新聞丨Sora橫空出世！它到底牛在哪？會帶來哪些影響？

友情鏈接

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網頁

您可以進行以下操作:

1.將瀏覽器切換回極速模式

2.點擊下面圖標升級或更換您的瀏覽器

3.暫不升級，繼續瀏覽