<video id="jv77s"></video>

    <b id="jv77s"><menuitem id="jv77s"></menuitem></b>
    <b id="jv77s"></b>
    <strong id="jv77s"><dl id="jv77s"></dl></strong>
    <b id="jv77s"><abbr id="jv77s"></abbr></b>
  1. <th id="jv77s"><progress id="jv77s"></progress></th>

    致力于成為中國最好的商學(xué)院!

    近期熱招

    咨詢熱線:0571-88210851

    咨詢熱線:0571-88210851

    新聞資訊

    Sora“超級(jí)涌現(xiàn)力”將把AI引向何方

    2024-03-08

    美國人工智能研究公司OpenAI最新發(fā)布的文生視頻模型Sora,能夠在接受人類輸入的文本提示詞后,生成一段長達(dá)60秒的視頻,實(shí)現(xiàn)了內(nèi)容合成從文本到圖像、再到視頻的領(lǐng)域跨越。

     

    這一次次帶來震撼的技術(shù)背后,都遵循著同一個(gè)原理:對(duì)合成內(nèi)容中的最小單元進(jìn)行有意義的關(guān)聯(lián)組合。比如,在保持連貫的上下文語境中,對(duì)若干個(gè)單詞進(jìn)行有意義組合,從而連綴成一個(gè)會(huì)意句子;在保持合理的空間布局下,對(duì)眾多圖像小塊進(jìn)行有意義組合,拼合為一幅精彩圖像;在保持一致的連續(xù)時(shí)空內(nèi),對(duì)一系列時(shí)空子塊進(jìn)行有意義組合,從而拼接成一段動(dòng)感視頻。

     

    現(xiàn)實(shí)生活中,我們每個(gè)人都在通過有價(jià)值的內(nèi)容組合來進(jìn)行交流、設(shè)計(jì)和創(chuàng)作。唐代詩人盧延讓對(duì)“吟安一個(gè)字,捻斷數(shù)莖須”的感嘆,講的就是詩人從百千個(gè)候選字詞中反復(fù)對(duì)比、精心挑選出一個(gè)合適的單詞,從而寫就一篇傳世之作。南宋詩人陸游所說的“文章本天成,妙手偶得之”,驚嘆的就是讓詞匯恰如其分地出現(xiàn)在了其應(yīng)該出現(xiàn)的位置,形成語意連貫、文氣貫通的天然佳作。

     

    那么,從ChatGPT到Sora,人工智能(AI)大模型何以合成出有意義、有價(jià)值的內(nèi)容?Sora所呈現(xiàn)出的“超級(jí)涌現(xiàn)力”將把AI引向何方?

     

    圖片

    Sora模擬視頻中,在海中飛舞的蝴蝶猶如實(shí)景拍攝  圖源:OpenAI官網(wǎng)視頻截圖

     

     

    01

    共生即關(guān)聯(lián)

    從文本構(gòu)建意義的網(wǎng)絡(luò)

     

    2017年,谷歌公司發(fā)表了一篇題為《注意力就是你所需的一切》的論文,提出了一種以自注意力機(jī)制為核心的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer。

     

    只要給定足夠多的句子,Transformer就可學(xué)習(xí)句子中單詞與單詞之間的共生關(guān)聯(lián)關(guān)系。比如,“項(xiàng)莊舞劍,意在沛公”這樣的句子在若干篇文章中出現(xiàn),那么Transformer就會(huì)認(rèn)為“項(xiàng)莊”“舞劍”“沛公”等單詞之間存在共生關(guān)系,于是就在它們之間建立關(guān)聯(lián),這種關(guān)系被稱為“注意力”。

     

    圖片

    一段合成視頻中,兩名沖浪者在一座具有歷史感的大廳里乘風(fēng)破浪  圖源:OpenAI官網(wǎng)視頻截圖

     

    可以想象,在對(duì)海量語料數(shù)據(jù)庫進(jìn)行學(xué)習(xí)的基礎(chǔ)上,人工智能算法就可以建立起一個(gè)巨大無比的單詞共生關(guān)聯(lián)網(wǎng)絡(luò)圖。此后,每當(dāng)人們給定一個(gè)單詞,算法就可按照要求,從單詞共生關(guān)聯(lián)網(wǎng)絡(luò)圖中找到下一個(gè)與之關(guān)聯(lián)關(guān)系最密切的單詞,作為給定單詞的后續(xù)單詞——就這樣一個(gè)個(gè)接綴合成出句子,最終達(dá)到自然語言合成的目的。因此,OpenAI公司CEO山姆·阿爾特曼曾說:“預(yù)測(cè)下一個(gè)單詞是通用人工智能(AGI)能力的關(guān)鍵?!?/span>

     

     

    那么,Transformer模型是如何被訓(xùn)練的?一般采用的是“完形填空”的方法,即如果模型所填單詞與被移除單詞不一致,說明模型尚未形成填空能力,于是可根據(jù)其產(chǎn)生的錯(cuò)誤來不斷調(diào)整模型參數(shù),直至模型完美完成填空任務(wù)。在人工智能領(lǐng)域,這種“填空訓(xùn)練”的過程被稱為“自監(jiān)督學(xué)習(xí)”,即模型算法自己準(zhǔn)備用來訓(xùn)練模型參數(shù)的“數(shù)據(jù)燃料”,自行按照預(yù)定目標(biāo)進(jìn)行學(xué)習(xí)。

     

    為了讓Transformer從預(yù)測(cè)下一個(gè)單詞到具備“說人話、做人事”的能力,研究者提出了一種被稱為“提示學(xué)習(xí)”的方法。在提示學(xué)習(xí)中,人類設(shè)計(jì)所謂的“提示樣例”,來教人工智能模型學(xué)習(xí)如何更好地說話。

     

    比如,“我很喜歡這部電影,因?yàn)殡娪俺尸F(xiàn)的劇情很精彩”“貓比大象要小,因此大象比貓更大”就是典型的提示樣例。一旦設(shè)計(jì)提示樣例后,算法將樣例中后半句某個(gè)關(guān)鍵單詞“移除”,然后讓模型去預(yù)測(cè)被移除的單詞。如此不斷學(xué)習(xí),模型就得以知曉在給出前半句后,如何更自然地合成后半句話。

     

    為了進(jìn)一步提高模型合成語言的性能,Transformer還引入了人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)的技術(shù),將在交流中人類對(duì)模型合成內(nèi)容的反饋?zhàn)鳛橐环N監(jiān)督信息輸入給模型,對(duì)模型參數(shù)進(jìn)行微調(diào),以提高語言模型回答的真實(shí)性和流暢性。

     

    圖片

    一位女性的秋日特寫人像,細(xì)節(jié)模擬精致到位  圖源:OpenAI官網(wǎng)視頻截圖

     

    在“數(shù)據(jù)是燃料、模型是引擎、算力是加速器”的深度學(xué)習(xí)框架下,以Transformer為核心打造的ChatGPT涌現(xiàn)出統(tǒng)計(jì)關(guān)聯(lián)能力,洞悉海量數(shù)據(jù)中單詞-單詞、句子-句子等之間的關(guān)聯(lián)性,體現(xiàn)了語言合成能力。

     

    在大數(shù)據(jù)、大模型和大算力的工程性結(jié)合下,ChatGPT的訓(xùn)練使用了45TB的數(shù)據(jù)、近萬億個(gè)單詞,約相當(dāng)于1351萬本牛津詞典所包含的單詞數(shù)量。經(jīng)折算,訓(xùn)練ChatGPT所耗費(fèi)的算力,大概相當(dāng)于用每秒運(yùn)算千萬億次的算力對(duì)模型訓(xùn)練3640天。

     

    GPT的出現(xiàn)為探索AGI的實(shí)現(xiàn)提供了一種方式,被譽(yù)為“AI的iPhone時(shí)刻”。英國《自然》雜志列出的2023年度十大人物中,首次將ChatGPT這位“非人類”列入榜單。

     

    02

    重建物理世界

    并非簡(jiǎn)單“鸚鵡學(xué)舌”

     

    人工智能程序一旦捕獲了單詞與單詞之間的共生關(guān)聯(lián),就可利用這種關(guān)聯(lián)來合成句子。那么,如果將圖像切分為空間子塊,或者將視頻切分為時(shí)空子塊,人工智能模型去學(xué)習(xí)這些子塊在空間維度中的布局分布、在時(shí)間維度上的連續(xù)變化等信息,同時(shí)學(xué)習(xí)子塊之間運(yùn)動(dòng)、顏色、光照、遮擋等復(fù)雜視覺特征,就可能重建、合成新的視頻序列。

     

    目前,合成視頻需要先提供文本提示詞,然后通過文本單詞和時(shí)空子塊之間的關(guān)聯(lián)來合成新的視頻。但因文本單詞與視覺信息分屬于不同類型,故而存在異構(gòu)鴻溝困難,這是首先需要解決的難題。其次,還要克服由視頻圖像分辨率過大而帶來的維度災(zāi)難,以及其所引發(fā)的操作上的挑戰(zhàn)。

     

    圖片

    “SORA”云彩圖像  圖源:OpenAI官網(wǎng)視頻截圖

     

    為應(yīng)對(duì)這些挑戰(zhàn),Sora先將文本單詞和視覺子塊映射到同構(gòu)低維隱性空間,在這一低維隱性空間中引入擴(kuò)散模型,對(duì)視覺信息反復(fù)迭代,千錘百煉地挖掘文本單詞、空間子塊和時(shí)空子塊之間的關(guān)聯(lián)關(guān)系。

     

    這種方式好比先通過“車同軌、書同文”,將文本、視覺等異構(gòu)信息投影到同構(gòu)空間,然后再通過“先破壞(添加噪音)”“再重建(去除噪音)”的迭代手段,來洞悉視頻中各種不同單元在時(shí)間和空間中的關(guān)聯(lián)關(guān)系,從而甄別和學(xué)習(xí)紋理、運(yùn)動(dòng)、光照、遮擋、交互等復(fù)雜視覺物理規(guī)律。

     

    這就好比魯班學(xué)藝,不斷將大橋拆散再拼裝,從這個(gè)反復(fù)過程中知曉它們的跨結(jié)構(gòu)、支座系統(tǒng)、橋墩、橋臺(tái)和墩臺(tái)之間的組合關(guān)系,從而練就重建大橋的能力。因此,Sora合成視頻的過程并非是簡(jiǎn)單隨機(jī)的“鸚鵡學(xué)舌”,而是對(duì)物理世界的重建。

     

    由此可見,盡管Sora并未使用與過往不同的新技術(shù),幾乎所有技術(shù)都是已經(jīng)公開的,但其所用的視頻生成方式對(duì)算力要求極高,而這種對(duì)算力和資金消耗極大的方式,大幅提升了同行跟進(jìn)的門檻。同時(shí),Sora利用GPT系統(tǒng)對(duì)提示詞進(jìn)行了潤色與豐富,從而拉開了與之前文本生成視頻模型之間的差距,形成了對(duì)手短期內(nèi)難以跟進(jìn)的優(yōu)勢(shì)。

     

    03

    Sora涌現(xiàn)力

    自然世界“昨日重現(xiàn)”

     

    Sora這次帶來了多重驚喜:其一是具備合成1分鐘超長視頻能力。此前的文本生成視頻大模型無法真正突破合成10秒自然連貫視頻的瓶頸;其二是Sora視頻是對(duì)自然世界中不同對(duì)象行為方式的“昨日重現(xiàn)”,比如能有效模擬人物、動(dòng)物或物品被遮擋或離開/回到視線的場(chǎng)景,因此有媒體認(rèn)為Sora是數(shù)據(jù)驅(qū)動(dòng)下對(duì)物理世界進(jìn)行模擬的引擎。

     

    圖片

    Sora模擬生成的一只戴著貝雷帽、穿著黑色高領(lǐng)毛衣的柴犬  圖源:OpenAI官網(wǎng)視頻截圖

     

    Sora對(duì)長時(shí)間視頻合成的能力,來自Transformer能夠處理長時(shí)間信息中最小單元之間的自注意力機(jī)制。例如,同樣是基于Transformer的GPT4允許處理3萬多個(gè)tokens(機(jī)器模型輸入的基本單位),而谷歌最近發(fā)布的多模態(tài)通用模型Gemini 1.5 Pro就把穩(wěn)定處理上下文的上限擴(kuò)大至100萬個(gè)tokens。

     

     

    Sora之所以能對(duì)物理世界規(guī)律進(jìn)行模擬,一個(gè)可能的原因在于大數(shù)據(jù)驅(qū)動(dòng)下,人工智能模型體現(xiàn)出一種學(xué)習(xí)能力,即Sora通過觀察和學(xué)習(xí)海量視頻數(shù)據(jù)后,洞察了視頻中時(shí)空子塊單元之間所應(yīng)保持的物理規(guī)律。

     

    其實(shí),人類也是基于對(duì)自然界斗轉(zhuǎn)星移、節(jié)氣變遷和晝夜交替,以及微觀物質(zhì)世界物質(zhì)合成與生命演化的觀測(cè),推導(dǎo)出各種物理規(guī)律。雖然Sora很難像人類一樣,將物理世界中諸如牛頓定律、湍流方程和量子學(xué)定理等,以數(shù)學(xué)方程羅列于人工模型中,但Sora能記住時(shí)空子塊單元之間應(yīng)遵守的模式,進(jìn)而利用這些模式約束時(shí)空子塊的組合。

     

    理查德·費(fèi)曼在《物理學(xué)講義》中曾提及,在生物學(xué)、人類學(xué)或經(jīng)濟(jì)學(xué)等復(fù)雜系統(tǒng)中,很少有一種簡(jiǎn)潔的數(shù)學(xué)理論能與數(shù)學(xué)物理學(xué)理論中的數(shù)值精確度相媲美,其原因在于“其過于復(fù)雜,而我們的思維有限”,這被稱為“費(fèi)曼極限”。

     

    圖片

    Sora也能夠生成動(dòng)畫視頻,圖為一個(gè)怪物家族的卡通視頻截圖,它采用扁平化的設(shè)計(jì)風(fēng)格,包括毛茸茸的棕色怪物、帶天線的黑色怪物、斑點(diǎn)綠色怪物和小小的圓點(diǎn)怪物等 圖源:OpenAI官網(wǎng)視頻截圖

     

    數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)由于其函數(shù)逼近能力,擅長從微觀上發(fā)掘復(fù)雜系統(tǒng)的模式,以統(tǒng)計(jì)方法擬合高維復(fù)雜系統(tǒng),被譽(yù)為神經(jīng)網(wǎng)絡(luò)模型的“涌現(xiàn)能力”。涌現(xiàn)性是一種結(jié)構(gòu)效應(yīng),是組成成分按照系統(tǒng)結(jié)構(gòu)方式相互作用、相互補(bǔ)充、相互制約而激發(fā)出的特征。

     

    機(jī)器學(xué)習(xí)模型展現(xiàn)出的涌現(xiàn)能力具有重要的科學(xué)意義。因?yàn)?,如果涌現(xiàn)能力是永無盡頭的,那么只要模型足夠大,類人人工智能的出現(xiàn)就是必然。當(dāng)然,神經(jīng)網(wǎng)絡(luò)的涌現(xiàn)性目前仍然是一個(gè)開放的問題。

     

    Sora的涌現(xiàn)力或許可以這樣認(rèn)為:在億萬個(gè)非線性映射函數(shù)組合之下,人工智能模型對(duì)最小時(shí)空子塊單元進(jìn)行各種意想不到的組合,合成出先前從未有過的內(nèi)容。而這正是這一輪人工智能在數(shù)據(jù)、模型、算力“三駕馬車”推動(dòng)下飛速發(fā)展的必然結(jié)果。

     

     

    作者介紹

     

     

    圖片

     

    吳  飛:浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院和軟件學(xué)院黨委書記、浙江大學(xué)上海高等研究院常務(wù)副院長


    ?
    亚洲人妻一区二区,国产精品激情欧美,欧美精品新69影院,亚洲精品高清线久久 日本道色综合久久影院 亚洲午夜AV电影免费在线
    <video id="jv77s"></video>

      <b id="jv77s"><menuitem id="jv77s"></menuitem></b>
      <b id="jv77s"></b>
      <strong id="jv77s"><dl id="jv77s"></dl></strong>
      <b id="jv77s"><abbr id="jv77s"></abbr></b>
    1. <th id="jv77s"><progress id="jv77s"></progress></th>