亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁 科技週邊 人工智慧 李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

Sep 03, 2024 pm 05:18 PM
產(chǎn)業(yè) 李飛飛 ReKep

視覺與機器人學(xué)習(xí)的深度融合。

當(dāng)兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X 人形機器人NEO,你可能會產(chǎn)生一種感覺:我們似乎開始進入機器人時代了。

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

事實上,這些絲滑動作正是先進機器人技術(shù) + 精妙框架設(shè)計 + 多模態(tài)大模型的產(chǎn)物。

我們知道,有用的機器人往往需要與環(huán)境進行複雜精妙的交互,而環(huán)境則可被表示成空間域和時間域上的約束。

舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩(wěn)移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這裡,約束條件不僅包含中間目標(biāo)(如對齊壺口與杯口),還包括過渡狀態(tài)(如保持茶壺直立);它們共同決定了機器人相對於環(huán)境的動作的空間、時間和其它組合要求。

然而,現(xiàn)實世界紛繁複雜,如何建構(gòu)這些限制是一個極具挑戰(zhàn)性的問題。

近日,李飛飛團隊在這一研究方向取得了一個突破,提出了關(guān)係關(guān)鍵點約束(ReKep/Relational Keypoint Constraints)。簡單來說,這個方法就是將任務(wù)表示成一個關(guān)係關(guān)鍵點序列。並且,這套框架還能很好地與 GPT-4o 等多模態(tài)大模型很好地整合。從示範(fàn)影片來看,這種方法的表現(xiàn)相當(dāng)不錯。該團隊也已發(fā)布相關(guān)程式碼。本文一為 Wenlong Huang。

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o
  • 論文標(biāo)題:ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

  • 。網(wǎng)址:https://rekep-robot.github.io/rekep.pdf

  • 專案網(wǎng)站:https://rekep-robot.github.io

  • 代碼位址:https://github.com/huangwl18/ReKep

李飛飛表示,該工作展示了視覺與機器人學(xué)習(xí)的更深層融合!雖然論文中沒有提及李飛飛在今年 5 年初創(chuàng)立的專注空間智慧的 AI 公司 World Labs,但 ReKep 顯然在空間智慧方面大有潛力。

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

方法

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

關(guān)係關(guān)鍵點約束(Recep)

首先,我們先來看一個ReKep 實例。這裡先假設(shè)已經(jīng)指定了一組 K 個關(guān)鍵點。具體來說,每個關(guān)鍵點 k_i ∈ ?^3 都是在具有笛卡爾座標(biāo)的場景表面上的 3D 點。

一個ReKep 實例便是一個這樣的函數(shù):?: ?^{K×3}→?;其可將一組關(guān)鍵點(記為?)映射成一個無界成本(unbounded cost),當(dāng)?(?) ≤ 0 時即表示滿足限制條件。至於具體實現(xiàn),該團隊將函數(shù) ? 實現(xiàn)為了一個無狀態(tài) Python 函數(shù),其中包含對關(guān)鍵點的 NumPy 操作,這些操作可能是非線性的和非凸的。本質(zhì)上講,一個 ReKep 實例編碼了關(guān)鍵點之間的一個所需空間關(guān)係。

但是,一個操作任務(wù)通常涉及多個空間關(guān)係,並且可能具有多個與時間有關(guān)的階段,其中每個階段都需要不同的空間關(guān)係。為此,團隊的做法是將一個任務(wù)分解成N 個階段並使用ReKep 為每個階段i ∈ {1, ..., N } 指定兩類限制:

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o
  • 一組子目標(biāo)約束?

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o
  • 一組路徑約束

    一組路徑約束一組路徑約束一組路徑約束一組路徑限制

其中 李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o編碼了階段 i 結(jié)束時要實現(xiàn)的一個關(guān)鍵點關(guān)係,而 李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o編碼了階段 i 內(nèi)每個狀態(tài)要滿足的一個關(guān)鍵點關(guān)係。以圖 2 的倒茶任務(wù)為例,包含三個階段:抓拿、對齊、倒茶。

階段 1 子目標(biāo)約束是將末端執(zhí)行器伸向茶壺把手。階段 2 子目標(biāo)約束是讓茶壺口位於杯口上方。此外,階段 2 路徑約束是保持茶壺直立,避免茶水灑出。最後的階段 3 子目標(biāo)限制是到達指定的倒茶角度。

使用 ReKep 將操作任務(wù)定義成約束最佳化問題

使用 ReKep,可將機器人操作任務(wù)轉(zhuǎn)換成一個涉及子目標(biāo)和路徑的約束最佳化問題。這裡將末端執(zhí)行器姿勢記為 ? ∈ SE (3)。為了執(zhí)行操作任務(wù),這裡的目標(biāo)是取得整體的離散時間軌跡?_{1:T}:

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

也就是說,對於每個階段i,此最佳化問題的目標(biāo)是:基於給定的ReKep 約束集和輔助成本,找到一個末端執(zhí)行器姿勢作為下一個子目標(biāo)(及其相關(guān)時間),以及實現(xiàn)該子目標(biāo)的姿勢序列。此公式可視為軌跡優(yōu)化中的 direct shooting。

分解和演算法實例化

為了能即時地求解上述公式1,該團隊選擇對整體問題進行分解,僅針對下一個子目標(biāo)和達成該子目標(biāo)的相應(yīng)路徑進行最佳化。演算法 1 給出了該過程的偽代碼。

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

其中子目標(biāo)問題的解公式為:

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

路徑問題的解公式為:

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o路徑問題的解公式為:

回溯
李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o現(xiàn)實環(huán)境複雜多變,有時候在任務(wù)進行過程中,上一階段的子目標(biāo)限制可能不再成立(例如倒茶時茶杯被拿走了),這時候需要重新規(guī)劃。該團隊的做法是檢查路徑是否有問題。如果發(fā)現(xiàn)問題,就迭代式地回溯到前一階段。

關(guān)鍵點的前向模型

為了求解2 和3 式,團隊使用了一個前向模型h,其可在最佳化過程中根據(jù)?? 估計??。具體來說,給定末端執(zhí)行器姿勢?? 的變化,透過應(yīng)用相同的相對剛性變換?′[grasped] = T_{??}??[grasped] 來計算關(guān)鍵點位置的變化,同時假設(shè)其它關(guān)鍵點保持靜止。

關(guān)鍵點提議和 ReKep 生成

為了讓該系統(tǒng)能在實際情況下自由地執(zhí)行各種任務(wù),該團隊還用上了大模型!具體來說,他們使用大型視覺模型和視覺 - 語言模型設(shè)計了一套管道流程來實現(xiàn)關(guān)鍵點提議和 ReKep 生成。

關(guān)鍵點提議

給定一張 RGB 圖像,首先用 DINOv2 提取圖塊層面的特徵 F_patch。然後執(zhí)行雙線性內(nèi)插以將特徵上取樣到原始影像大小,F(xiàn)_interp。為了確保提議涵蓋場景中的所有相關(guān)物體,他們使用了 Segment Anything(SAM)來提取場景中的所有遮罩 M = {m_1, m_2, ... , m_n}。

對於每個遮罩 j,使用 k 均值(k = 5)和餘弦相似度度量對遮罩特徵 F_interp [m_j] 進行聚類。聚類的質(zhì)心用作候選關(guān)鍵點,再使用經(jīng)過校準(zhǔn)的 RGB-D 相機將其投影到世界坐標(biāo) ?^3。距離候選關(guān)鍵點 8cm 以內(nèi)的其它候選將被過濾掉??傮w而言,團隊發(fā)現(xiàn)此過程可以識別大量細粒度且語義上有意義的物件區(qū)域。

ReKep 產(chǎn)生

取得候選關(guān)鍵點後,再將它們疊加在原始 RGB 影像上,並標(biāo)註數(shù)字。結(jié)合特定任務(wù)的語言指令,再查詢 GPT-4o 以產(chǎn)生所需階段的數(shù)量以及每個階段 i 對應(yīng)的子目標(biāo)限制和路徑限制。

實驗

團隊透過實驗對這套約束設(shè)計進行了驗證,並嘗試解答了以下三個問題:1. 該框架自動建構(gòu)和合成操作行為的表現(xiàn)如何?

2. How well does the system generalize to new objects and manipulation strategies?

3. How might various components contribute to system failure?

Using ReKep to operate two robotic arms

They examined the system through a series of tasks for multi-stage (m), field/practical scenarios (w), two-hand (b) and reaction (r) behavior. These tasks include pouring tea (m, w, r), arranging books (w), recycling cans (w), taping boxes (w, r), folding laundry (b), packing shoes (b) and collaborative folding (b, r).

The results are shown in Table 1, where success rate data are reported.

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

Overall, the newly proposed system is able to construct the correct constraints and execute in an unstructured environment even if task-specific data or environment models are not provided they. Notably, ReKep effectively handles the core puzzle of each task.

Here are some animations of the actual execution process:

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

Generalization of the operation strategy

The team explored the generalization performance of the new strategy based on the laundry folding task. In short, it’s about seeing if the system can fold different kinds of clothes — which requires geometry and common sense reasoning.

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

GPT-4o is used here, and the prompt contains only generic instructions without contextual examples. "Strategy success" means that the generated ReKep is feasible, and "execution success" measures the system success rate of a given feasible strategy for each type of clothing.

The results are interesting. It can be seen that the system uses different strategies for different clothes, and some of the methods of folding clothes are the same as those commonly used by humans.

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o
李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

Analyzing system errors

The design of the framework is modular and therefore easy to Convenient for analyzing system errors. The team manually inspected the failure cases encountered in the experiments in Table 1 and then based on this calculated the likelihood that the modules caused the error, taking into account their temporal dependencies in the pipeline process. The results are shown in Figure 5.

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o

It can be seen that among the different modules, the key point tracker produces the most errors because frequent and intermittent occlusions make it difficult for the system to track accurately.

以上是李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o的詳細內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學(xué)者 DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學(xué)者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關(guān)注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業(yè)餘選手等級的學(xué)習(xí)型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業(yè)餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得?。航硬煌D(zhuǎn)的發(fā)球:不過,比賽激烈程度似乎不如公園老大爺對戰(zhàn)。對機器人來說,乒乓球運動

首配機械爪!元蘿蔔亮相2024世界機器人大會,發(fā)布首個走進家庭的西洋棋機器人 首配機械爪!元蘿蔔亮相2024世界機器人大會,發(fā)布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產(chǎn)品集體亮相,並最新發(fā)布元蘿蔔AI下棋機器人-國際象棋專業(yè)版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產(chǎn)品,全新的國象機器人在AI和工程機械方面進行了大量專項技術(shù)升級和創(chuàng)新,首次在家用機器人上實現(xiàn)了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

Claude也變懶了!網(wǎng)友:學(xué)會給自己放假了 Claude也變懶了!網(wǎng)友:學(xué)會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學(xué)將至,該收心的不只即將開啟新學(xué)期的同學(xué),可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網(wǎng)友。 「它的水平下降了很多,經(jīng)常停頓,甚至輸出也變得很短。在發(fā)布的第一周,它可以一次性翻譯整整4頁文稿,現(xiàn)在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o 李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學(xué)習(xí)的深度融合。當(dāng)兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產(chǎn)生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術(shù)+精妙框架設(shè)計+多模態(tài)大模型的產(chǎn)物。我們知道,有用的機器人往往需要與環(huán)境進行複雜精妙的交互,而環(huán)境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩(wěn)移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

鴻蒙智行享界S9全場景新品發(fā)表會,多款重磅新品齊發(fā) 鴻蒙智行享界S9全場景新品發(fā)表會,多款重磅新品齊發(fā) Aug 08, 2024 am 07:02 AM

今天下午,鴻蒙智行正式迎來了新品牌與新車。8月6日,華為舉行鴻蒙智行享界S9及華為全場景新品發(fā)布會,帶來了全景智慧旗艦轎車享界S9、問界新M7Pro和華為novaFlip、MatePadPro12.2英寸、全新MatePadAir、華為畢昇激光打印機X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全場景智慧新品,從智慧出行、智慧辦公到智能穿戴,華為全場景智慧生態(tài)持續(xù)構(gòu)建,為消費者帶來萬物互聯(lián)的智慧體驗。鴻蒙智行:深度賦能,推動智能汽車產(chǎn)業(yè)升級華為聯(lián)合中國汽車產(chǎn)業(yè)伙伴,為

分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學(xué)習(xí)之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學(xué)家將做主旨報告 分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學(xué)習(xí)之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學(xué)家將做主旨報告 Aug 22, 2024 pm 08:02 PM

會議簡介隨著科技的快速發(fā)展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創(chuàng)新與應(yīng)用。分散式人工智慧是人工智慧領(lǐng)域的重要分支,這幾年引起了越來越多的關(guān)注?;洞笮驼Z言模型(LLM)的智能體(Agent)異軍突起,透過結(jié)合大模型的強大語言理解和生成能力,展現(xiàn)了在自然語言互動、知識推理、任務(wù)規(guī)劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

ACL 2024獎項發(fā)表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 ACL 2024獎項發(fā)表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學(xué)和自然語言處理領(lǐng)域的頂級國際會議,由國際計算語言學(xué)協(xié)會組織,每年舉辦一次。一直以來,ACL在NLP領(lǐng)域的學(xué)術(shù)影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領(lǐng)域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

世界機器人大會上,這家承載「未來養(yǎng)老希望」的國產(chǎn)機器人被包圍了 世界機器人大會上,這家承載「未來養(yǎng)老希望」的國產(chǎn)機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上,人形機器人的展示成為了現(xiàn)場絕對的焦點,在星塵智能的展臺上,由於AI機器人助理S1在一個展區(qū)上演揚琴、武術(shù)、書法三臺大戲,能文能武,吸引了大量專業(yè)觀眾和媒體的駐足。在有彈性的琴弦上優(yōu)雅的演奏,讓S1展現(xiàn)出速度、力度、精準(zhǔn)度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學(xué)習(xí)和智慧控制進行了專題報道,公司創(chuàng)始人來傑解釋到,絲滑動作的背後,是硬體側(cè)追求最好力控和最仿人身體指標(biāo)(速度、負載等),而是在AI側(cè)則採集人的真實動作數(shù)據(jù),讓機器人遇強則強,快速學(xué)習(xí)進化。而敏捷

See all articles