亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
最高可取得人類5倍成績(jī)
以SR-SPR為基礎(chǔ)修改
首頁(yè) 科技週邊 人工智慧 兩小時(shí)就能超過(guò)人類! DeepMind最新AI速通26款雅達(dá)利遊戲

兩小時(shí)就能超過(guò)人類! DeepMind最新AI速通26款雅達(dá)利遊戲

Jul 03, 2023 pm 08:57 PM
ai 效率 速通

DeepMind的AI智能體,又來(lái)捲自己了!

注意看,這個(gè)名叫BBF的傢伙,只用2個(gè)小時(shí),就掌握了26款雅達(dá)利遊戲,效率和人類相當(dāng),超越了自己一眾前輩。

要知道,AI智能體透過(guò)強(qiáng)化學(xué)習(xí)解決問(wèn)題的效果一直都不錯(cuò),但最大的問(wèn)題就在於這種方式效率很低,需要很長(zhǎng)時(shí)間摸索。

兩小時(shí)就能超過(guò)人類! DeepMind最新AI速通26款雅達(dá)利遊戲圖片

而B(niǎo)BF帶來(lái)的突破正是在效率方面。

怪不得它的全名可以叫Bigger、Better、Faster。

而且它還能只在單卡上完成訓(xùn)練,算力要求也降低許多。

BBF由GoogleDeepMind和蒙特婁大學(xué)共同提出,目前資料和程式碼都已開(kāi)源。

最高可取得人類5倍成績(jī)

用來(lái)評(píng)估BBF遊戲表現(xiàn)的數(shù)值,叫做IQM。

IQM是多方面遊戲表現(xiàn)的綜合得分,本文中的IQM成績(jī)以人類為基準(zhǔn)進(jìn)行了歸一化處理。

經(jīng)與多個(gè)前人成果相比較,BBF在包含26款雅達(dá)利遊戲的Atari 100K測(cè)試資料集中取得了最高的IQM成績(jī)。

並且,在訓(xùn)練過(guò)的26款遊戲中,BBF的成績(jī)已經(jīng)超過(guò)人類了。

與表現(xiàn)相似的Eff.Zero相比,BBF消耗的GPU時(shí)間縮短了將近一半。

而消耗GPU時(shí)間相似的SPR和SR-SPR,效能又和BBF差了一截?cái)唷?

兩小時(shí)就能超過(guò)人類! DeepMind最新AI速通26款雅達(dá)利遊戲圖片

而在重複進(jìn)行的測(cè)驗(yàn)中,BBF達(dá)到某一IQM分?jǐn)?shù)的比例始終保持著較高水準(zhǔn)。

甚至有超過(guò)總測(cè)試次數(shù)1/8的運(yùn)行當(dāng)中取得了5倍於人類的成績(jī)。

兩小時(shí)就能超過(guò)人類! DeepMind最新AI速通26款雅達(dá)利遊戲圖片

即使加上其他沒(méi)有訓(xùn)練過(guò)的雅達(dá)利遊戲,BBF也能取得超過(guò)人類一半的分?jǐn)?shù)IQM分?jǐn)?shù)。

而如果單獨(dú)看未訓(xùn)練的這29款遊戲,BBF的得分是人類的四至五成。

兩小時(shí)就能超過(guò)人類! DeepMind最新AI速通26款雅達(dá)利遊戲圖片

以SR-SPR為基礎(chǔ)修改

推動(dòng)BBF研究的問(wèn)題是,如何在樣本量稀少的情況下擴(kuò)展深度強(qiáng)化學(xué)習(xí)網(wǎng)路。

為了研究這個(gè)問(wèn)題,DeepMind將目光聚焦在了Atari 100K基準(zhǔn)上。

但DeepMind很快就發(fā)現(xiàn),單純?cè)龃竽P鸵?guī)模並不能提升其表現(xiàn)。

兩小時(shí)就能超過(guò)人類! DeepMind最新AI速通26款雅達(dá)利遊戲圖片

在深度學(xué)習(xí)模型的設(shè)計(jì)中,每步驟更新次數(shù)(Replay Ratio,RR)是一項(xiàng)重要參數(shù)。

具體到雅達(dá)利遊戲,RR值越大,模型在遊戲中取得的成績(jī)?cè)礁摺?

最終,DeepMind以SR-SPR作為基礎(chǔ)引擎,SR-SPR的RR值最高可達(dá)16。

而DeepMind經(jīng)過(guò)綜合考慮,選擇了8作為BBF的RR值。

考慮到部分使用者不願(yuàn)意花費(fèi)RR=8的運(yùn)算成本,DeepMind同時(shí)開(kāi)發(fā)了RR=2版本的BBF

兩小時(shí)就能超過(guò)人類! DeepMind最新AI速通26款雅達(dá)利遊戲圖片

##DeepMind對(duì)SR-SPR中的多項(xiàng)內(nèi)容進(jìn)行修改之後,採(cǎi)用自監(jiān)管訓(xùn)練得到了BBF,主要包括以下幾個(gè)方面:

  • 更高的捲積層重置強(qiáng)度:提高卷積層重置強(qiáng)度可以增加面向隨機(jī)目標(biāo)的擾動(dòng)幅度,讓模型表現(xiàn)更好並減少損失,BBF的重置強(qiáng)度增加後,擾動(dòng)幅度從SR-SPR的20%提高到了50%
  • 更大的網(wǎng)路規(guī)模:將神經(jīng)網(wǎng)路層數(shù)從3層提高至15層,寬度也增加4倍
  • #更新範(fàn)圍(n)縮小:想要提升模型的表現(xiàn),需要使用非固定的n值。 BBF每4萬(wàn)個(gè)梯度步驟重置一次,每次重置的前1萬(wàn)個(gè)梯度步驟中,n以指數(shù)形式從10下降至3,衰減階段佔(zhàn)BBF訓(xùn)練過(guò)程的25%
  • 更大的衰減因子(γ):有人發(fā)現(xiàn)增大學(xué)習(xí)過(guò)程中的γ值可以提高模型表現(xiàn),BBF的γ值從傳統(tǒng)的0.97增加到0.997
  • 權(quán)重衰減:避免過(guò)度擬合的出現(xiàn), BBF的衰減量約為0.1
  • 刪除NoisyNet:原始SR-SPR中包含的NoisyNet不能提高模型表現(xiàn)

消融實(shí)驗(yàn)結(jié)果表明,在每步更新次數(shù)為2和8的條件下,上述因素對(duì)BBF的表現(xiàn)均有不同程度的影響。

兩小時(shí)就能超過(guò)人類! DeepMind最新AI速通26款雅達(dá)利遊戲圖片

其中,硬重置和更新範(fàn)圍的縮小影響最為顯著。

兩小時(shí)就能超過(guò)人類! DeepMind最新AI速通26款雅達(dá)利遊戲圖片

而對(duì)於上面兩個(gè)圖中沒(méi)有提到的NoisyNet,對(duì)模型表現(xiàn)的影響則並不顯著。

兩小時(shí)就能超過(guò)人類! DeepMind最新AI速通26款雅達(dá)利遊戲圖片

論文網(wǎng)址:https://arxiv.org/abs/2305.19452GitHub專案頁(yè):https://github.com /google-research/google-research/tree/master/bigger_better_faster

參考鏈接:[1]http://ipnx.cn/link/69b4fa3be19bdf400df34e41b93636a4

[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value -based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/

—?完?—

以上是兩小時(shí)就能超過(guò)人類! DeepMind最新AI速通26款雅達(dá)利遊戲的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
PHP調(diào)用AI智能語(yǔ)音助手 PHP語(yǔ)音交互系統(tǒng)搭建 PHP調(diào)用AI智能語(yǔ)音助手 PHP語(yǔ)音交互系統(tǒng)搭建 Jul 25, 2025 pm 08:45 PM

用戶語(yǔ)音輸入通過(guò)前端JavaScript的MediaRecorderAPI捕獲並發(fā)送至PHP後端;2.PHP將音頻保存為臨時(shí)文件後調(diào)用STTAPI(如Google或百度語(yǔ)音識(shí)別)轉(zhuǎn)換為文本;3.PHP將文本發(fā)送至AI服務(wù)(如OpenAIGPT)獲取智能回復(fù);4.PHP再調(diào)用TTSAPI(如百度或Google語(yǔ)音合成)將回復(fù)轉(zhuǎn)為語(yǔ)音文件;5.PHP將語(yǔ)音文件流式返回前端播放,完成交互。整個(gè)流程由PHP主導(dǎo)數(shù)據(jù)流轉(zhuǎn)與錯(cuò)誤處理,確保各環(huán)節(jié)無(wú)縫銜接。

如何用PHP搭建社交分享功能 PHP分享接口集成實(shí)戰(zhàn) 如何用PHP搭建社交分享功能 PHP分享接口集成實(shí)戰(zhàn) Jul 25, 2025 pm 08:51 PM

在PHP中搭建社交分享功能的核心方法是通過(guò)動(dòng)態(tài)生成符合各平臺(tái)要求的分享鏈接。 1.首先獲取當(dāng)前頁(yè)面或指定的URL及文章信息;2.使用urlencode對(duì)參數(shù)進(jìn)行編碼;3.根據(jù)各平臺(tái)協(xié)議拼接生成分享鏈接;4.在前端展示鏈接供用戶點(diǎn)擊分享;5.動(dòng)態(tài)生成頁(yè)面OG標(biāo)籤優(yōu)化分享內(nèi)容展示;6.務(wù)必對(duì)用戶輸入進(jìn)行轉(zhuǎn)義以防止XSS攻擊。該方法無(wú)需複雜認(rèn)證,維護(hù)成本低,適用於大多數(shù)內(nèi)容分享需求。

如何用PHP結(jié)合AI實(shí)現(xiàn)文本糾錯(cuò) PHP語(yǔ)法檢測(cè)與優(yōu)化 如何用PHP結(jié)合AI實(shí)現(xiàn)文本糾錯(cuò) PHP語(yǔ)法檢測(cè)與優(yōu)化 Jul 25, 2025 pm 08:57 PM

要實(shí)現(xiàn)PHP結(jié)合AI進(jìn)行文本糾錯(cuò)與語(yǔ)法優(yōu)化,需按以下步驟操作:1.選擇適合的AI模型或API,如百度、騰訊API或開(kāi)源NLP庫(kù);2.通過(guò)PHP的curl或Guzzle調(diào)用API並處理返回結(jié)果;3.在應(yīng)用中展示糾錯(cuò)信息並允許用戶選擇是否採(cǎi)納;4.使用php-l和PHP_CodeSniffer進(jìn)行語(yǔ)法檢測(cè)與代碼優(yōu)化;5.持續(xù)收集反饋並更新模型或規(guī)則以提升效果。選擇AIAPI時(shí)應(yīng)重點(diǎn)評(píng)估準(zhǔn)確率、響應(yīng)速度、價(jià)格及對(duì)PHP的支持。代碼優(yōu)化應(yīng)遵循PSR規(guī)範(fàn)、合理使用緩存、避免循環(huán)查詢、定期審查代碼,並藉助X

PHP實(shí)現(xiàn)商品庫(kù)存管理變現(xiàn) PHP庫(kù)存同步與報(bào)警機(jī)制 PHP實(shí)現(xiàn)商品庫(kù)存管理變現(xiàn) PHP庫(kù)存同步與報(bào)警機(jī)制 Jul 25, 2025 pm 08:30 PM

PHP通過(guò)數(shù)據(jù)庫(kù)事務(wù)與FORUPDATE行鎖確保庫(kù)存扣減原子性,防止高並發(fā)超賣;2.多平臺(tái)庫(kù)存一致性需依賴中心化管理與事件驅(qū)動(dòng)同步,結(jié)合API/Webhook通知及消息隊(duì)列保障數(shù)據(jù)可靠傳遞;3.報(bào)警機(jī)制應(yīng)分場(chǎng)景設(shè)置低庫(kù)存、零/負(fù)庫(kù)存、滯銷、補(bǔ)貨週期和異常波動(dòng)策略,並按緊急程度選擇釘釘、短信或郵件通知責(zé)任人,且報(bào)警信息需完整明確,以實(shí)現(xiàn)業(yè)務(wù)適配與快速響應(yīng)。

如何用PHP調(diào)用AI寫(xiě)作輔助工具 PHP提升內(nèi)容產(chǎn)出效率 如何用PHP調(diào)用AI寫(xiě)作輔助工具 PHP提升內(nèi)容產(chǎn)出效率 Jul 25, 2025 pm 08:18 PM

選擇AI寫(xiě)作API需考察穩(wěn)定性、價(jià)格、功能匹配度及是否有免費(fèi)試用;2.PHP用Guzzle發(fā)送POST請(qǐng)求並用json_decode處理返回的JSON數(shù)據(jù),注意捕獲異常和錯(cuò)誤碼;3.將AI內(nèi)容融入項(xiàng)目需建立審核機(jī)制並支持個(gè)性化定制;4.優(yōu)化性能可採(cǎi)用緩存、異步隊(duì)列和限流技術(shù),避免高並發(fā)下瓶頸。

全球最權(quán)威的加密貨幣行情網(wǎng)站Top10(2025最新版) 全球最權(quán)威的加密貨幣行情網(wǎng)站Top10(2025最新版) Jul 29, 2025 pm 12:48 PM

2025年十大權(quán)威加密貨幣行情與數(shù)據(jù)分析平臺(tái)為:1. CoinMarketCap,提供全面的市值排名和基礎(chǔ)市場(chǎng)數(shù)據(jù);2. CoinGecko,以獨(dú)立性和信任分?jǐn)?shù)提供多維度項(xiàng)目評(píng)估;3. TradingView,擁有最專業(yè)的K線圖表和技術(shù)分析工具;4. 幣安行情,作為最大交易所提供最直接的實(shí)時(shí)數(shù)據(jù);5. 歐易行情,突出衍生品關(guān)鍵指標(biāo)如持倉(cāng)量和資金費(fèi)率;6. Glassnode,專注於鏈上數(shù)據(jù)如活躍地址和巨鯨動(dòng)向;7. Messari,提供機(jī)構(gòu)級(jí)研究報(bào)告和嚴(yán)格標(biāo)準(zhǔn)化數(shù)據(jù);8. CryptoCompa

Twilio通話保持與恢復(fù):會(huì)議模式與獨(dú)立呼叫腿處理 Twilio通話保持與恢復(fù):會(huì)議模式與獨(dú)立呼叫腿處理 Jul 25, 2025 pm 08:42 PM

本文詳細(xì)闡述了在Twilio中實(shí)現(xiàn)通話保持(hold)與恢復(fù)(unhold)的兩種主要方法。首選方案是利用Twilio的會(huì)議(Conference)功能,通過(guò)更新會(huì)議參與者資源輕鬆實(shí)現(xiàn)通話保持和恢復(fù),並可自定義保持音樂(lè)。另一種方法是處理獨(dú)立的呼叫腿(calllegs),這需要更複雜的TwiML邏輯,通過(guò)、和到來(lái)管理,但相比會(huì)議模式更為繁瑣。文章提供了具體的代碼示例和操作步驟,旨在幫助開(kāi)發(fā)者高效實(shí)現(xiàn)Twilio通話控制。

以太坊是什麼幣?以太坊ETH獲得的方式有哪些? 以太坊是什麼幣?以太坊ETH獲得的方式有哪些? Jul 31, 2025 pm 11:00 PM

以太坊是一個(gè)基於智能合約的去中心化應(yīng)用平臺(tái),其原生代幣ETH可通過(guò)多種方式獲取。 1、通過(guò)Binance必安、歐意ok等中心化平臺(tái)註冊(cè)賬戶、完成KYC認(rèn)證並用穩(wěn)定幣購(gòu)買ETH;2、通過(guò)去中心化平臺(tái)連接數(shù)字儲(chǔ)存,使用穩(wěn)定幣或其他代幣直接兌換ETH;3、參與網(wǎng)絡(luò)質(zhì)押,可選擇獨(dú)立質(zhì)押(需32個(gè)ETH)、流動(dòng)性質(zhì)押服務(wù)或在中心化平臺(tái)一鍵質(zhì)押以獲取獎(jiǎng)勵(lì);4、通過(guò)為Web3項(xiàng)目提供服務(wù)、完成任務(wù)或獲得空投等方式賺取ETH。建議初學(xué)者從主流中心化平臺(tái)入手,逐步過(guò)渡到去中心化方式,並始終重視資產(chǎn)安全與自主研究,以

See all articles