亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁 科技周邊 人工智能 Up主已經(jīng)開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話

Up主已經(jīng)開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話

Apr 07, 2024 am 09:01 AM
騰訊 產(chǎn)業(yè)

AniPortrait 模型是開源的,可以自由暢玩。


「小破站鬼畜區(qū)的新質(zhì)生產(chǎn)力工具?!?/section>

近日,騰訊開源發(fā)布的一個(gè)新項(xiàng)目在推上獲得了如此評(píng)價(jià)。這個(gè)項(xiàng)目是 AniPortrait,其可基于音頻和一張參考圖像生成高質(zhì)量動(dòng)畫人像。

話不說多,我們先看看可能會(huì)被律師函警告的 demo:Up主已經(jīng)開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話
動(dòng)漫圖像也能輕松開口說話:Up主已經(jīng)開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話
該項(xiàng)目剛上線幾天,就已經(jīng)收獲了廣泛好評(píng):GitHub Star 數(shù)已經(jīng)突破 2800。

Up主已經(jīng)開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話

下面我們來看看 AniPortrait 的創(chuàng)新之處。

Up主已經(jīng)開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話

  • 論文標(biāo)題:AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation
  • 論文地址:https://arxiv.org/pdf/2403.17694.pdf
  • 代碼地址:https://github.com/Zejun-Yang/AniPortrait

AniPortrait

騰訊新提出的 AniPortrait 框架包含兩個(gè)模塊:Audio2Lmk 和 Lmk2Video。

Audio2Lmk 的作用是提取 Landmark 序列,其能從音頻輸入捕獲復(fù)雜的面部表情和嘴唇動(dòng)作。Lmk2Video 是利用這種 Landmark 序列來生成時(shí)間上穩(wěn)定一致的高質(zhì)量人像視頻。

圖 1 給出了 AniPortrait 框架的概況。

Up主已經(jīng)開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話

Audio2Lmk

對(duì)于一段語音片段序列,這里的目標(biāo)是預(yù)測對(duì)應(yīng)的 3D 人臉網(wǎng)格序列和姿勢(shì)序列。

該團(tuán)隊(duì)采用了預(yù)訓(xùn)練的 wav2vec 來提取音頻特征。該模型具有很好的泛化性能,并且可以準(zhǔn)確識(shí)別音頻中的發(fā)音和語調(diào) —— 這對(duì)生成具有真實(shí)感的人臉動(dòng)畫來說至關(guān)重要。通過利用所獲得的魯棒的語音特征,使用一種包含兩個(gè) fc 層的簡單架構(gòu)就可以有效地將它們轉(zhuǎn)換成 3D 人臉網(wǎng)格。該團(tuán)隊(duì)觀察到,這種簡單直接的設(shè)計(jì)不僅能確保準(zhǔn)確度,而且還能提升推理過程的效率。

在將音頻轉(zhuǎn)換成姿勢(shì)的任務(wù)中,該團(tuán)隊(duì)使用的骨干網(wǎng)絡(luò)依然是同樣的 wav2vec。但是,這一個(gè)網(wǎng)絡(luò)的權(quán)重不同于音頻到網(wǎng)格模塊的網(wǎng)絡(luò)。這是因?yàn)椋鹤藙?shì)與音頻中的節(jié)奏和音調(diào)的關(guān)聯(lián)更加緊密,而音頻到網(wǎng)格任務(wù)關(guān)注的重點(diǎn)(發(fā)音和語調(diào))卻不一樣。為了將之前狀態(tài)的影響納入考量,該團(tuán)隊(duì)采用了一個(gè) transformer 解碼器來解碼姿勢(shì)序列。在這個(gè)過程中,該模塊使用交叉注意力機(jī)制將音頻特征整合進(jìn)解碼器。對(duì)于上述兩個(gè)模塊,訓(xùn)練使用的損失函數(shù)都是簡單的 L1 損失。

在獲得了網(wǎng)格和姿勢(shì)序列之后,再使用透視投影將它們轉(zhuǎn)換為 2D 的人臉 Landmark 序列。這些 Landmark 是下一階段的輸入信號(hào)。

Lmk2Video

給定一張參考人像和一個(gè)人臉 Landmark 序列,該團(tuán)隊(duì)提出的 Lmk2Video 可以創(chuàng)建具有時(shí)間一致性的人像動(dòng)畫。這個(gè)動(dòng)畫過程是將動(dòng)作與 Landmark 序列對(duì)齊,同時(shí)維持與參考圖像一致的外觀。該團(tuán)隊(duì)采取的思路是將人像動(dòng)畫表示成一個(gè)人像幀構(gòu)成的序列。

Lmk2Video 的這種網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的靈感來自 AnimateAnyone。其中的骨干網(wǎng)絡(luò)是 SD1.5,其整合了一個(gè)時(shí)間運(yùn)動(dòng)模塊,能有效地將多幀噪聲輸入轉(zhuǎn)換成一個(gè)視頻幀序列。

另外,他們還使用了一個(gè) ReferenceNet,其同樣采用了 SD1.5 的結(jié)構(gòu),作用是提取參考圖像的外觀信息并將其整合進(jìn)骨干網(wǎng)絡(luò)中。這一策略設(shè)計(jì)可確保人臉 ID 在整個(gè)輸出視頻中保持一致。

不同于 AnimateAnyone,這里提升了 PoseGuider 的設(shè)計(jì)的復(fù)雜性。原來的版本只是集成了幾個(gè)卷積層,之后 Landmark 特征與骨干網(wǎng)絡(luò)的輸入層的隱含特征融合。而騰訊的這個(gè)團(tuán)隊(duì)發(fā)現(xiàn),這種初級(jí)設(shè)計(jì)無法捕獲嘴唇的復(fù)雜運(yùn)動(dòng)。因此,他們采用了 ControlNet 的多尺度策略:將相應(yīng)尺度的 Landmark 特征整合進(jìn)骨干網(wǎng)絡(luò)的不同模塊。盡管有這些改進(jìn),但最終模型的參數(shù)數(shù)量依然相當(dāng)?shù)汀?/section>

該團(tuán)隊(duì)還引入了另一項(xiàng)改進(jìn):將參考圖像的 Landmark 用作一個(gè)額外的輸入。PoseGuider 的交叉注意力模塊能促進(jìn)參考 Landmark 和每一幀的目標(biāo) Landmark 之間的互動(dòng)。這一過程能為網(wǎng)絡(luò)提供額外的線索,使其能夠理解人臉 Landmark 和外觀之間的關(guān)聯(lián),由此可幫助人像動(dòng)畫生成更精準(zhǔn)的動(dòng)作。
?
實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

Audio2Lmk 階段使用的骨干網(wǎng)絡(luò)是 wav2vec2.0。用于提取 3D 網(wǎng)格和 6D 姿勢(shì)的工具是 MediaPipe。Audio2Mesh 的訓(xùn)練數(shù)據(jù)來自騰訊的內(nèi)部數(shù)據(jù)集,其中包含接近一個(gè)小時(shí)的來自單個(gè)說話人的高質(zhì)量語音數(shù)據(jù)。

為了確保 MediaPipe 提取出的 3D 網(wǎng)格的穩(wěn)定性,在記錄期間,表演者頭部位置穩(wěn)定并且面向相機(jī)。訓(xùn)練 Audio2Pose 使用的是 HDTF。所有的訓(xùn)練操作都在單臺(tái) A100 上執(zhí)行,使用了 Adam 優(yōu)化器,學(xué)習(xí)率設(shè)置為 1e-5.

Lmk2Video 過程則采用了一種兩步式訓(xùn)練方法。

起始步驟階段關(guān)注的重點(diǎn)是訓(xùn)練骨干網(wǎng)絡(luò) ReferenceNet 以及 PoseGuider 的 2D 組件,而不管運(yùn)動(dòng)模塊。在后續(xù)步驟,則會(huì)凍結(jié)其它所有組件,專注于訓(xùn)練運(yùn)動(dòng)模塊。為了訓(xùn)練模型,這里使用了兩個(gè)大規(guī)模高質(zhì)量人臉視頻數(shù)據(jù)集:VFHQ 和 CelebV-HQ。所有數(shù)據(jù)都經(jīng)由 MediaPipe 來提取 2D 人臉 Landmark。為了提升網(wǎng)絡(luò)對(duì)嘴唇運(yùn)動(dòng)的敏感性,該團(tuán)隊(duì)的做法是在根據(jù) 2D Landmark 渲染姿勢(shì)圖像時(shí),給上下唇標(biāo)注不同的顏色。

所有圖像的分辨率都重新調(diào)整成了 512x512。該模型的訓(xùn)練使用了 4 臺(tái) A100 GPU,每一步都耗時(shí) 2 天。優(yōu)化器是 AdamW,學(xué)習(xí)率固定為 1e-5。

實(shí)驗(yàn)結(jié)果

如圖 2 所示,新方法得到的動(dòng)畫在質(zhì)量和真實(shí)度上都非常出色。

Up主已經(jīng)開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話

此外,用戶還可以編輯其中間的 3D 表征,從而對(duì)最終輸出進(jìn)行修改。舉個(gè)例子,用戶可從某個(gè)源提取 Landmark 并修改其 ID 信息,從而實(shí)現(xiàn)面部重現(xiàn)效果,如下視頻所示:Up主已經(jīng)開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話更多細(xì)節(jié)請(qǐng)參考原論文。?

以上是Up主已經(jīng)開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
DeepMind機(jī)器人打乒乓球,正手、反手溜到飛起,全勝人類初學(xué)者 DeepMind機(jī)器人打乒乓球,正手、反手溜到飛起,全勝人類初學(xué)者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園里的老大爺?巴黎奧運(yùn)會(huì)正在如火如荼地進(jìn)行中,乒乓球項(xiàng)目備受關(guān)注。與此同時(shí),機(jī)器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個(gè)在競技乒乓球比賽中達(dá)到人類業(yè)余選手水平的學(xué)習(xí)型機(jī)器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個(gè)機(jī)器人打乒乓球什么水平呢?大概和人類業(yè)余選手不相上下:正手反手都會(huì):對(duì)手采用多種打法,該機(jī)器人也能招架得?。航硬煌D(zhuǎn)的發(fā)球:不過,比賽激烈程度似乎不如公園老大爺對(duì)戰(zhàn)。對(duì)機(jī)器人來說,乒乓球運(yùn)動(dòng)

首配機(jī)械爪!元蘿卜亮相2024世界機(jī)器人大會(huì),發(fā)布首個(gè)走進(jìn)家庭的國際象棋機(jī)器人 首配機(jī)械爪!元蘿卜亮相2024世界機(jī)器人大會(huì),發(fā)布首個(gè)走進(jìn)家庭的國際象棋機(jī)器人 Aug 21, 2024 pm 07:33 PM

8月21日,2024世界機(jī)器人大會(huì)在北京隆重召開。商湯科技旗下家用機(jī)器人品牌“元蘿卜SenseRobot”家族全系產(chǎn)品集體亮相,并最新發(fā)布元蘿卜AI下棋機(jī)器人——國際象棋專業(yè)版(以下簡稱“元蘿卜國象機(jī)器人”),成為全球首個(gè)走進(jìn)家庭的國際象棋機(jī)器人。作為元蘿卜的第三款下棋機(jī)器人產(chǎn)品,全新的國象機(jī)器人在AI和工程機(jī)械方面進(jìn)行了大量專項(xiàng)技術(shù)升級(jí)和創(chuàng)新,首次在家用機(jī)器人上實(shí)現(xiàn)了通過機(jī)械爪拾取立體棋子,并進(jìn)行人機(jī)對(duì)弈、人人對(duì)弈、記譜復(fù)盤等功能,

Claude也變懶了!網(wǎng)友:學(xué)會(huì)給自己放假了 Claude也變懶了!網(wǎng)友:學(xué)會(huì)給自己放假了 Sep 02, 2024 pm 01:56 PM

開學(xué)將至,該收心的不止有即將開啟新學(xué)期的同學(xué),可能還有AI大模型。前段時(shí)間,Reddit上擠滿了吐槽Claude越來越懶的網(wǎng)友。「它的水平下降了很多,經(jīng)常停頓,甚至輸出也變得很短。在發(fā)布的第一周,它可以一次性翻譯整整4頁文稿,現(xiàn)在連半頁都輸出不了了!」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個(gè)名為「對(duì)Claude徹底失望了的帖子里」,滿滿地

騰訊 2025 校招啟動(dòng):畢業(yè)時(shí)間從一年拓寬至兩年 騰訊 2025 校招啟動(dòng):畢業(yè)時(shí)間從一年拓寬至兩年 Aug 07, 2024 pm 08:17 PM

本站8月7日消息,昨日騰訊2025校園招聘正式啟動(dòng),繼2024年實(shí)習(xí)生招聘、“青云計(jì)劃”AI大模型招聘專項(xiàng)后再次發(fā)出“擴(kuò)招”信號(hào):不僅招聘規(guī)模相較前兩年有較大增長,面向人群的畢業(yè)時(shí)間范圍也進(jìn)一步擴(kuò)大。據(jù)介紹,騰訊2025年校園招聘開放技術(shù)、產(chǎn)品、市場、設(shè)計(jì)、職能5個(gè)大類70余種崗位。今年的騰訊校園招聘將有多處變化,校招面向人群的畢業(yè)時(shí)間范圍從一年拓寬至兩年。畢業(yè)時(shí)間為2024年1月至2025年12月的同學(xué)(中國大陸/內(nèi)地以畢業(yè)證為準(zhǔn),中國港澳臺(tái)及海外地區(qū)以學(xué)位證為準(zhǔn))均可通過騰訊招聘官網(wǎng)及“騰訊

李飛飛團(tuán)隊(duì)提出ReKep,讓機(jī)器人具備空間智能,還能整合GPT-4o 李飛飛團(tuán)隊(duì)提出ReKep,讓機(jī)器人具備空間智能,還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機(jī)器人學(xué)習(xí)的深度融合。當(dāng)兩只機(jī)器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時(shí),加上最近老上頭條的1X人形機(jī)器人NEO,你可能會(huì)產(chǎn)生一種感覺:我們似乎開始進(jìn)入機(jī)器人時(shí)代了。事實(shí)上,這些絲滑動(dòng)作正是先進(jìn)機(jī)器人技術(shù)+精妙框架設(shè)計(jì)+多模態(tài)大模型的產(chǎn)物。我們知道,有用的機(jī)器人往往需要與環(huán)境進(jìn)行復(fù)雜精妙的交互,而環(huán)境則可被表示成空間域和時(shí)間域上的約束。舉個(gè)例子,如果要讓機(jī)器人倒茶,那么機(jī)器人首先需要抓住茶壺手柄并使之保持直立,不潑灑出茶水,然后平穩(wěn)移動(dòng),一直到讓壺口與杯口對(duì)齊,之后以一定角度傾斜茶壺。這

鴻蒙智行享界S9及全場景新品發(fā)布會(huì),多款重磅新品齊發(fā) 鴻蒙智行享界S9及全場景新品發(fā)布會(huì),多款重磅新品齊發(fā) Aug 08, 2024 am 07:02 AM

今天下午,鴻蒙智行正式迎來了新品牌與新車。 8月6日,華為舉行鴻蒙智行享界S9及華為全場景新品發(fā)布會(huì),帶來了全景智慧旗艦轎車享界S9、問界新M7Pro和華為novaFlip、MatePadPro12.2英寸、全新MatePadAir、華為畢升激光打印機(jī)X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全場景智慧新品,從智慧出行、智慧辦公到智能穿戴,華為全場景智慧生態(tài)持續(xù)構(gòu)建,為消費(fèi)者帶來萬物互聯(lián)的智慧體驗(yàn)。鴻蒙智行:深度賦能,推動(dòng)智能汽車產(chǎn)業(yè)升級(jí)華為聯(lián)合中國汽車產(chǎn)業(yè)伙伴,為

分布式人工智能盛會(huì)DAI 2024征稿:Agent Day,強(qiáng)化學(xué)習(xí)之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學(xué)家將做主旨報(bào)告 分布式人工智能盛會(huì)DAI 2024征稿:Agent Day,強(qiáng)化學(xué)習(xí)之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學(xué)家將做主旨報(bào)告 Aug 22, 2024 pm 08:02 PM

會(huì)議簡介隨著科技的飛速發(fā)展,人工智能已經(jīng)成為了推動(dòng)社會(huì)進(jìn)步的重要力量。在這個(gè)時(shí)代,我們有幸見證并參與到分布式人工智能(DistributedArtificialIntelligence,DAI)的創(chuàng)新與應(yīng)用中。分布式人工智能是人工智能領(lǐng)域的重要分支,這幾年引起了越來越多的關(guān)注?;诖笮驼Z言模型(LLM)的智能體(Agent)異軍突起,通過結(jié)合大模型的強(qiáng)大語言理解和生成能力,展現(xiàn)出了在自然語言交互、知識(shí)推理、任務(wù)規(guī)劃等方面的巨大潛力。AIAgent正在接棒大語言模型,成為當(dāng)前AI圈的熱點(diǎn)話題。Au

ACL 2024獎(jiǎng)項(xiàng)公布:華科大破譯甲骨文最佳論文之一、GloVe時(shí)間檢驗(yàn)獎(jiǎng) ACL 2024獎(jiǎng)項(xiàng)公布:華科大破譯甲骨文最佳論文之一、GloVe時(shí)間檢驗(yàn)獎(jiǎng) Aug 15, 2024 pm 04:37 PM

本屆ACL大會(huì),投稿者「收獲滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。ACL是計(jì)算語言學(xué)和自然語言處理領(lǐng)域的頂級(jí)國際會(huì)議,由國際計(jì)算語言學(xué)協(xié)會(huì)組織,每年舉辦一次。一直以來,ACL在NLP領(lǐng)域的學(xué)術(shù)影響力都位列第一,它也是CCF-A類推薦會(huì)議。今年的ACL大會(huì)已是第62屆,接收了400余篇NLP領(lǐng)域的前沿工作。昨天下午,大會(huì)公布了最佳論文等獎(jiǎng)項(xiàng)。此次,最佳論文獎(jiǎng)7篇(兩篇未公開)、最佳主題論文獎(jiǎng)1篇、杰出論文獎(jiǎng)35篇。大會(huì)還評(píng)出了資源論文獎(jiǎng)(ResourceAward)3篇、社會(huì)影響力獎(jiǎng)(

See all articles