√天堂中文www官网,亚洲精品v日韩精品,√天堂中文在线最新版8下载

首頁

科技周邊

人工智能

Up主已經(jīng)開始鬼畜，騰訊開源「AniPortrait」讓照片唱歌說話

王林

Apr 07, 2024 am 09:01 AM

騰訊產(chǎn)業(yè)

AniPortrait 模型是開源的，可以自由暢玩。

「小破站鬼畜區(qū)的新質(zhì)生產(chǎn)力工具?！?/section>

近日，騰訊開源發(fā)布的一個(gè)新項(xiàng)目在推上獲得了如此評(píng)價(jià)。這個(gè)項(xiàng)目是 AniPortrait，其可基于音頻和一張參考圖像生成高質(zhì)量動(dòng)畫人像。

話不說多，我們先看看可能會(huì)被律師函警告的 demo：

Up主已經(jīng)開始鬼畜，騰訊開源「AniPortrait」讓照片唱歌說話

動(dòng)漫圖像也能輕松開口說話：

該項(xiàng)目剛上線幾天，就已經(jīng)收獲了廣泛好評(píng)：GitHub Star 數(shù)已經(jīng)突破 2800。

Up主已經(jīng)開始鬼畜，騰訊開源「AniPortrait」讓照片唱歌說話

下面我們來看看 AniPortrait 的創(chuàng)新之處。

Up主已經(jīng)開始鬼畜，騰訊開源「AniPortrait」讓照片唱歌說話

論文標(biāo)題：AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation
論文地址：https://arxiv.org/pdf/2403.17694.pdf
代碼地址：https://github.com/Zejun-Yang/AniPortrait

AniPortrait

騰訊新提出的 AniPortrait 框架包含兩個(gè)模塊：Audio2Lmk 和 Lmk2Video。

Audio2Lmk 的作用是提取 Landmark 序列，其能從音頻輸入捕獲復(fù)雜的面部表情和嘴唇動(dòng)作。Lmk2Video 是利用這種 Landmark 序列來生成時(shí)間上穩(wěn)定一致的高質(zhì)量人像視頻。

圖 1 給出了 AniPortrait 框架的概況。

Up主已經(jīng)開始鬼畜，騰訊開源「AniPortrait」讓照片唱歌說話

Audio2Lmk

對(duì)于一段語音片段序列，這里的目標(biāo)是預(yù)測對(duì)應(yīng)的 3D 人臉網(wǎng)格序列和姿勢(shì)序列。

該團(tuán)隊(duì)采用了預(yù)訓(xùn)練的 wav2vec 來提取音頻特征。該模型具有很好的泛化性能，并且可以準(zhǔn)確識(shí)別音頻中的發(fā)音和語調(diào) —— 這對(duì)生成具有真實(shí)感的人臉動(dòng)畫來說至關(guān)重要。通過利用所獲得的魯棒的語音特征，使用一種包含兩個(gè) fc 層的簡單架構(gòu)就可以有效地將它們轉(zhuǎn)換成 3D 人臉網(wǎng)格。該團(tuán)隊(duì)觀察到，這種簡單直接的設(shè)計(jì)不僅能確保準(zhǔn)確度，而且還能提升推理過程的效率。

在將音頻轉(zhuǎn)換成姿勢(shì)的任務(wù)中，該團(tuán)隊(duì)使用的骨干網(wǎng)絡(luò)依然是同樣的 wav2vec。但是，這一個(gè)網(wǎng)絡(luò)的權(quán)重不同于音頻到網(wǎng)格模塊的網(wǎng)絡(luò)。這是因?yàn)椋鹤藙?shì)與音頻中的節(jié)奏和音調(diào)的關(guān)聯(lián)更加緊密，而音頻到網(wǎng)格任務(wù)關(guān)注的重點(diǎn)（發(fā)音和語調(diào)）卻不一樣。為了將之前狀態(tài)的影響納入考量，該團(tuán)隊(duì)采用了一個(gè) transformer 解碼器來解碼姿勢(shì)序列。在這個(gè)過程中，該模塊使用交叉注意力機(jī)制將音頻特征整合進(jìn)解碼器。對(duì)于上述兩個(gè)模塊，訓(xùn)練使用的損失函數(shù)都是簡單的 L1 損失。

在獲得了網(wǎng)格和姿勢(shì)序列之后，再使用透視投影將它們轉(zhuǎn)換為 2D 的人臉 Landmark 序列。這些 Landmark 是下一階段的輸入信號(hào)。

Lmk2Video

給定一張參考人像和一個(gè)人臉 Landmark 序列，該團(tuán)隊(duì)提出的 Lmk2Video 可以創(chuàng)建具有時(shí)間一致性的人像動(dòng)畫。這個(gè)動(dòng)畫過程是將動(dòng)作與 Landmark 序列對(duì)齊，同時(shí)維持與參考圖像一致的外觀。該團(tuán)隊(duì)采取的思路是將人像動(dòng)畫表示成一個(gè)人像幀構(gòu)成的序列。

Lmk2Video 的這種網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的靈感來自 AnimateAnyone。其中的骨干網(wǎng)絡(luò)是 SD1.5，其整合了一個(gè)時(shí)間運(yùn)動(dòng)模塊，能有效地將多幀噪聲輸入轉(zhuǎn)換成一個(gè)視頻幀序列。

另外，他們還使用了一個(gè) ReferenceNet，其同樣采用了 SD1.5 的結(jié)構(gòu)，作用是提取參考圖像的外觀信息并將其整合進(jìn)骨干網(wǎng)絡(luò)中。這一策略設(shè)計(jì)可確保人臉 ID 在整個(gè)輸出視頻中保持一致。

不同于 AnimateAnyone，這里提升了 PoseGuider 的設(shè)計(jì)的復(fù)雜性。原來的版本只是集成了幾個(gè)卷積層，之后 Landmark 特征與骨干網(wǎng)絡(luò)的輸入層的隱含特征融合。而騰訊的這個(gè)團(tuán)隊(duì)發(fā)現(xiàn)，這種初級(jí)設(shè)計(jì)無法捕獲嘴唇的復(fù)雜運(yùn)動(dòng)。因此，他們采用了 ControlNet 的多尺度策略：將相應(yīng)尺度的 Landmark 特征整合進(jìn)骨干網(wǎng)絡(luò)的不同模塊。盡管有這些改進(jìn)，但最終模型的參數(shù)數(shù)量依然相當(dāng)?shù)汀?/section>

該團(tuán)隊(duì)還引入了另一項(xiàng)改進(jìn)：將參考圖像的 Landmark 用作一個(gè)額外的輸入。PoseGuider 的交叉注意力模塊能促進(jìn)參考 Landmark 和每一幀的目標(biāo) Landmark 之間的互動(dòng)。這一過程能為網(wǎng)絡(luò)提供額外的線索，使其能夠理解人臉 Landmark 和外觀之間的關(guān)聯(lián)，由此可幫助人像動(dòng)畫生成更精準(zhǔn)的動(dòng)作。

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

Audio2Lmk 階段使用的骨干網(wǎng)絡(luò)是 wav2vec2.0。用于提取 3D 網(wǎng)格和 6D 姿勢(shì)的工具是 MediaPipe。Audio2Mesh 的訓(xùn)練數(shù)據(jù)來自騰訊的內(nèi)部數(shù)據(jù)集，其中包含接近一個(gè)小時(shí)的來自單個(gè)說話人的高質(zhì)量語音數(shù)據(jù)。

為了確保 MediaPipe 提取出的 3D 網(wǎng)格的穩(wěn)定性，在記錄期間，表演者頭部位置穩(wěn)定并且面向相機(jī)。訓(xùn)練 Audio2Pose 使用的是 HDTF。所有的訓(xùn)練操作都在單臺(tái) A100 上執(zhí)行，使用了 Adam 優(yōu)化器，學(xué)習(xí)率設(shè)置為 1e-5.

Lmk2Video 過程則采用了一種兩步式訓(xùn)練方法。

起始步驟階段關(guān)注的重點(diǎn)是訓(xùn)練骨干網(wǎng)絡(luò) ReferenceNet 以及 PoseGuider 的 2D 組件，而不管運(yùn)動(dòng)模塊。在后續(xù)步驟，則會(huì)凍結(jié)其它所有組件，專注于訓(xùn)練運(yùn)動(dòng)模塊。為了訓(xùn)練模型，這里使用了兩個(gè)大規(guī)模高質(zhì)量人臉視頻數(shù)據(jù)集：VFHQ 和 CelebV-HQ。所有數(shù)據(jù)都經(jīng)由 MediaPipe 來提取 2D 人臉 Landmark。為了提升網(wǎng)絡(luò)對(duì)嘴唇運(yùn)動(dòng)的敏感性，該團(tuán)隊(duì)的做法是在根據(jù) 2D Landmark 渲染姿勢(shì)圖像時(shí)，給上下唇標(biāo)注不同的顏色。

所有圖像的分辨率都重新調(diào)整成了 512x512。該模型的訓(xùn)練使用了 4 臺(tái) A100 GPU，每一步都耗時(shí) 2 天。優(yōu)化器是 AdamW，學(xué)習(xí)率固定為 1e-5。

實(shí)驗(yàn)結(jié)果

如圖 2 所示，新方法得到的動(dòng)畫在質(zhì)量和真實(shí)度上都非常出色。

Up主已經(jīng)開始鬼畜，騰訊開源「AniPortrait」讓照片唱歌說話

此外，用戶還可以編輯其中間的 3D 表征，從而對(duì)最終輸出進(jìn)行修改。舉個(gè)例子，用戶可從某個(gè)源提取 Landmark 并修改其 ID 信息，從而實(shí)現(xiàn)面部重現(xiàn)效果，如下視頻所示：

更多細(xì)節(jié)請(qǐng)參考原論文。?

以上是Up主已經(jīng)開始鬼畜，騰訊開源「AniPortrait」讓照片唱歌說話的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本站聲明

本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn)，版權(quán)歸原作者所有，本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容，請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序，用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

AI脫衣機(jī)

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉！

熱工具

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門話題

Laravel 教程

1597

PHP教程

1488

Related knowledge

DeepMind機(jī)器人打乒乓球，正手、反手溜到飛起，全勝人類初學(xué)者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園里的老大爺？巴黎奧運(yùn)會(huì)正在如火如荼地進(jìn)行中，乒乓球項(xiàng)目備受關(guān)注。與此同時(shí)，機(jī)器人打乒乓球也取得了新突破。剛剛，DeepMind提出了第一個(gè)在競技乒乓球比賽中達(dá)到人類業(yè)余選手水平的學(xué)習(xí)型機(jī)器人智能體。論文地址：https://arxiv.org/pdf/2408.03906DeepMind這個(gè)機(jī)器人打乒乓球什么水平呢？大概和人類業(yè)余選手不相上下：正手反手都會(huì)：對(duì)手采用多種打法，該機(jī)器人也能招架得?。航硬煌D(zhuǎn)的發(fā)球：不過，比賽激烈程度似乎不如公園老大爺對(duì)戰(zhàn)。對(duì)機(jī)器人來說，乒乓球運(yùn)動(dòng)

首配機(jī)械爪！元蘿卜亮相2024世界機(jī)器人大會(huì)，發(fā)布首個(gè)走進(jìn)家庭的國際象棋機(jī)器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界機(jī)器人大會(huì)在北京隆重召開。商湯科技旗下家用機(jī)器人品牌“元蘿卜SenseRobot”家族全系產(chǎn)品集體亮相，并最新發(fā)布元蘿卜AI下棋機(jī)器人——國際象棋專業(yè)版（以下簡稱“元蘿卜國象機(jī)器人”），成為全球首個(gè)走進(jìn)家庭的國際象棋機(jī)器人。作為元蘿卜的第三款下棋機(jī)器人產(chǎn)品，全新的國象機(jī)器人在AI和工程機(jī)械方面進(jìn)行了大量專項(xiàng)技術(shù)升級(jí)和創(chuàng)新，首次在家用機(jī)器人上實(shí)現(xiàn)了通過機(jī)械爪拾取立體棋子，并進(jìn)行人機(jī)對(duì)弈、人人對(duì)弈、記譜復(fù)盤等功能，

Claude也變懶了！網(wǎng)友：學(xué)會(huì)給自己放假了 Sep 02, 2024 pm 01:56 PM

開學(xué)將至，該收心的不止有即將開啟新學(xué)期的同學(xué)，可能還有AI大模型。前段時(shí)間，Reddit上擠滿了吐槽Claude越來越懶的網(wǎng)友。「它的水平下降了很多，經(jīng)常停頓，甚至輸出也變得很短。在發(fā)布的第一周，它可以一次性翻譯整整4頁文稿，現(xiàn)在連半頁都輸出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個(gè)名為「對(duì)Claude徹底失望了的帖子里」，滿滿地

騰訊 2025 校招啟動(dòng)：畢業(yè)時(shí)間從一年拓寬至兩年 Aug 07, 2024 pm 08:17 PM

本站8月7日消息，昨日騰訊2025校園招聘正式啟動(dòng)，繼2024年實(shí)習(xí)生招聘、“青云計(jì)劃”AI大模型招聘專項(xiàng)后再次發(fā)出“擴(kuò)招”信號(hào)：不僅招聘規(guī)模相較前兩年有較大增長，面向人群的畢業(yè)時(shí)間范圍也進(jìn)一步擴(kuò)大。據(jù)介紹，騰訊2025年校園招聘開放技術(shù)、產(chǎn)品、市場、設(shè)計(jì)、職能5個(gè)大類70余種崗位。今年的騰訊校園招聘將有多處變化，校招面向人群的畢業(yè)時(shí)間范圍從一年拓寬至兩年。畢業(yè)時(shí)間為2024年1月至2025年12月的同學(xué)（中國大陸/內(nèi)地以畢業(yè)證為準(zhǔn)，中國港澳臺(tái)及海外地區(qū)以學(xué)位證為準(zhǔn)）均可通過騰訊招聘官網(wǎng)及“騰訊

李飛飛團(tuán)隊(duì)提出ReKep，讓機(jī)器人具備空間智能，還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機(jī)器人學(xué)習(xí)的深度融合。當(dāng)兩只機(jī)器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時(shí)，加上最近老上頭條的1X人形機(jī)器人NEO，你可能會(huì)產(chǎn)生一種感覺：我們似乎開始進(jìn)入機(jī)器人時(shí)代了。事實(shí)上，這些絲滑動(dòng)作正是先進(jìn)機(jī)器人技術(shù)+精妙框架設(shè)計(jì)+多模態(tài)大模型的產(chǎn)物。我們知道，有用的機(jī)器人往往需要與環(huán)境進(jìn)行復(fù)雜精妙的交互，而環(huán)境則可被表示成空間域和時(shí)間域上的約束。舉個(gè)例子，如果要讓機(jī)器人倒茶，那么機(jī)器人首先需要抓住茶壺手柄并使之保持直立，不潑灑出茶水，然后平穩(wěn)移動(dòng)，一直到讓壺口與杯口對(duì)齊，之后以一定角度傾斜茶壺。這

鴻蒙智行享界S9及全場景新品發(fā)布會(huì)，多款重磅新品齊發(fā) Aug 08, 2024 am 07:02 AM

今天下午，鴻蒙智行正式迎來了新品牌與新車。 8月6日，華為舉行鴻蒙智行享界S9及華為全場景新品發(fā)布會(huì)，帶來了全景智慧旗艦轎車享界S9、問界新M7Pro和華為novaFlip、MatePadPro12.2英寸、全新MatePadAir、華為畢升激光打印機(jī)X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全場景智慧新品，從智慧出行、智慧辦公到智能穿戴，華為全場景智慧生態(tài)持續(xù)構(gòu)建，為消費(fèi)者帶來萬物互聯(lián)的智慧體驗(yàn)。鴻蒙智行：深度賦能，推動(dòng)智能汽車產(chǎn)業(yè)升級(jí)華為聯(lián)合中國汽車產(chǎn)業(yè)伙伴，為

分布式人工智能盛會(huì)DAI 2024征稿：Agent Day，強(qiáng)化學(xué)習(xí)之父Richard Sutton將出席！顏水成、Sergey Levine以及DeepMind科學(xué)家將做主旨報(bào)告 Aug 22, 2024 pm 08:02 PM

會(huì)議簡介隨著科技的飛速發(fā)展，人工智能已經(jīng)成為了推動(dòng)社會(huì)進(jìn)步的重要力量。在這個(gè)時(shí)代，我們有幸見證并參與到分布式人工智能（DistributedArtificialIntelligence，DAI）的創(chuàng)新與應(yīng)用中。分布式人工智能是人工智能領(lǐng)域的重要分支，這幾年引起了越來越多的關(guān)注?；诖笮驼Z言模型（LLM）的智能體（Agent）異軍突起，通過結(jié)合大模型的強(qiáng)大語言理解和生成能力，展現(xiàn)出了在自然語言交互、知識(shí)推理、任務(wù)規(guī)劃等方面的巨大潛力。AIAgent正在接棒大語言模型，成為當(dāng)前AI圈的熱點(diǎn)話題。Au

ACL 2024獎(jiǎng)項(xiàng)公布：華科大破譯甲骨文最佳論文之一、GloVe時(shí)間檢驗(yàn)獎(jiǎng) Aug 15, 2024 pm 04:37 PM

本屆ACL大會(huì)，投稿者「收獲滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。ACL是計(jì)算語言學(xué)和自然語言處理領(lǐng)域的頂級(jí)國際會(huì)議，由國際計(jì)算語言學(xué)協(xié)會(huì)組織，每年舉辦一次。一直以來，ACL在NLP領(lǐng)域的學(xué)術(shù)影響力都位列第一，它也是CCF-A類推薦會(huì)議。今年的ACL大會(huì)已是第62屆，接收了400余篇NLP領(lǐng)域的前沿工作。昨天下午，大會(huì)公布了最佳論文等獎(jiǎng)項(xiàng)。此次，最佳論文獎(jiǎng)7篇（兩篇未公開）、最佳主題論文獎(jiǎng)1篇、杰出論文獎(jiǎng)35篇。大會(huì)還評(píng)出了資源論文獎(jiǎng)（ResourceAward）3篇、社會(huì)影響力獎(jiǎng)（

See all articles

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

Up主已經(jīng)開始鬼畜，騰訊開源「AniPortrait」讓照片唱歌說話