欧美日韩在线亚洲综合国产人 ,99久久精品免费看国产一区二区三区,freesexvideos性少妇kant

在人工智能快速發(fā)展的領(lǐng)域中，處理和理解大量信息的能力變得越來越重要。輸入多文件代理抹布 - 一種強大的方法，將檢索功能增強的生成（RAG）與基於代理的系統(tǒng)結(jié)合起來，以創(chuàng)建可以在多個文檔中推理的AI。本指南將為您介紹這項激動人心的技術(shù)的概念，實施和潛力。

學(xué)習(xí)目標

了解多文件代理抹布系統(tǒng)及其架構(gòu)的基本面。
了解嵌入和基於代理的推理如何增強AI生成上下文準確響應(yīng)的能力。
探索高級檢索機制，以改善知識密集型應(yīng)用中的信息提取。
洞悉多文件代理抹佈在研究和法律分析等複雜領(lǐng)域的應(yīng)用。
發(fā)展評估抹布系統(tǒng)在AI驅(qū)動的內(nèi)容生成和分析中的有效性的能力。

本文作為數(shù)據(jù)科學(xué)博客馬拉鬆的一部分發(fā)表。

了解抹布和多文件代理
為什麼多文件代理抹布是改變遊戲規(guī)則的？
多文件代理抹布系統(tǒng)的關(guān)鍵優(yōu)勢
多文件代理抹布的構(gòu)建塊
實施基本的多文檔代理抹布
- 步驟1：安裝所需庫
- 步驟2：設(shè)置API鍵和環(huán)境變量
- 步驟3：下載文檔
- 步驟4：創(chuàng)建向量和摘要工具
- 步驟5：創(chuàng)建代理
- 步驟6：分析代理的響應(yīng)
- 解釋代理商與Longlora論文的互動
- 解釋代理商的行為：總結(jié)自lag和longlora
挑戰(zhàn)和考慮因素
常見問題

了解抹布和多文件代理

檢索增強的生成（RAG）是一種通過允許其訪問和使用外部知識來增強語言模型的技術(shù)。 RAG模型不僅依靠他們的訓(xùn)練有素的參數(shù)，還可以從知識庫中檢索相關(guān)信息，以產(chǎn)生更準確和知情的響應(yīng)。

使用llamaindex構(gòu)建多文件代理抹布

多文件代理抹布通過使AI代理同時使用多個文檔來進一步採用此概念。這種方法對於需要從各種來源（例如學(xué)術(shù)研究，市場分析或法律文件審查）綜合信息的任務(wù)特別有價值。

為什麼多文件代理抹布是改變遊戲規(guī)則的？

讓我們理解為什麼多文件代理抹布是一個改變遊戲規(guī)則的人。

對上下文的更聰明理解：想像一下?lián)碛幸粋€超級聰明的助手，不僅讀了一本書，而且要讀一個圖書館來回答您的問題。這就是增強上下文理解的含義。通過分析多個文檔，AI可以將更完整的圖片拼湊在一起，從而為您提供真正捕捉大圖的答案。
提高棘手任務(wù)的準確性：我們都在小時候玩過“連接點”。多文檔代理抹布做類似的事情，但是信息。通過將各種來源的事實連接起來，它可以以更高的精度解決複雜的問題。這意味著更可靠的答案，尤其是在處理複雜的主題時。
處理信息超載，例如專業(yè)人士：在當(dāng)今的世界中，我們淹沒了數(shù)據(jù)。多文件代理抹布就像一個增壓過濾器，篩選大量信息以查找真正相關(guān)的內(nèi)容。這就像讓一群專家全天候工作，以消化和總結(jié)大量知識圖書館。
適應(yīng)性和可成長的知識庫：將其視為可以輕鬆學(xué)習(xí)和擴展的數(shù)字大腦。隨著新信息的可用，多文檔的代理抹布可以無縫地融合它。這意味著您的AI助手始終是最新的，隨時可以用最新鮮的信息來解決最新問題。

多文件代理抹布系統(tǒng)的關(guān)鍵優(yōu)勢

現(xiàn)在，我們將研究多文件代理抹布系統(tǒng)的關(guān)鍵優(yōu)勢。

增壓學(xué)術(shù)研究：研究人員經(jīng)?；〝?shù)週或數(shù)月的時間綜合數(shù)百篇論文的信息。多文件的代理抹布可以大大加快這一過程，幫助學(xué)者迅速確定廣大文獻體系之間的關(guān)鍵趨勢，知識差距以及潛在的突破。
革新法律文件分析：律師處理案件檔案，合同和法律先例的山。這項技術(shù)可以迅速分析數(shù)千個文檔，發(fā)現(xiàn)關(guān)鍵細節(jié)，不一致和相關(guān)判例法，這可能需要人類的幾天或幾週才能揭露。
渦輪增壓市場情報：企業(yè)需要領(lǐng)先於趨勢和競爭。多文件代理抹布可以不斷掃描新聞文章，社交媒體和行業(yè)報告，提供實時見解，並幫助公司比以往任何時候都更快地做出數(shù)據(jù)驅(qū)動的決策。
輕鬆地導(dǎo)航技術(shù)文檔：對於工程師和IT專業(yè)人員，在鋪設(shè)技術(shù)文檔中找到正確的信息可能就像在乾草堆中搜索針頭一樣。這種AI驅(qū)動的方法可以快速查明各種手冊，故障排除指南和代碼存儲庫的相關(guān)部分，從而節(jié)省了無數(shù)小時的挫敗感。

多文件代理抹布的構(gòu)建塊

想像一下，您正在建立一個超級智能的數(shù)字圖書館助理。該助手可以閱讀數(shù)千本書，了解複雜的問題，並使用來自多個來源的信息為您提供詳細的答案。從本質(zhì)上講，這就是多文檔的代理抹布系統(tǒng)。讓我們分解使其成為可能的關(guān)鍵組件：

使用llamaindex構(gòu)建多文件代理抹布

文檔處理

將所有類型的文檔（PDF，網(wǎng)頁，文字文件等）轉(zhuǎn)換為我們的AI可以理解的格式。

創(chuàng)建嵌入

將處理的文本轉(zhuǎn)換為代表信息含義和上下文的數(shù)值向量（數(shù)字序列）。

簡而言之，想像一下庫中每個段落的超含量摘要，但是您使用唯一的代碼，而不是單詞。該代碼以計算機快速比較和分析的方式捕獲信息的本質(zhì)。

索引

它創(chuàng)建了一個有效的結(jié)構(gòu)來存儲和檢索這些嵌入。這就像為我們的數(shù)字圖書館創(chuàng)建世界上最有效的卡目錄。它允許我們的AI快速找到相關(guān)信息，而無需詳細掃描每個文檔。

檢索

它使用查詢（您的問題）從索引嵌入中找到最相關(guān)的信息。當(dāng)您提出一個問題時，該組件會通過我們的數(shù)字圖書館進行比賽，使用該超高效卡目錄來刪除所有潛在的相關(guān)信息。

基於代理的推理

AI代理在查詢的上下文中解釋檢索到的信息，決定如何使用它來提出答案。這就像擁有一個天才的AI代理，他不僅找到了正確的文件，而且還了解您的問題的更深層次的含義。他們可以連接不同來源的點，並找出回答您的最佳方法。

一代

它根據(jù)代理商的推理和檢索到的信息產(chǎn)生可讀的答案。這是我們的天才代理商用清晰，簡潔的語言向您解釋他們的發(fā)現(xiàn)的地方。他們採用了他們收集和分析的所有復(fù)雜信息，並以直接回答您的問題的方式呈現(xiàn)它。

這種功能強大的組合允許多文檔的代理抹布系統(tǒng)提供洞察力和答案，從大量知識中汲取的洞察力和答案，使它們對於許多領(lǐng)域的複雜研究，分析和解決問題的任務(wù)非常有用。

實施基本的多文檔代理抹布

首先，讓我們構(gòu)建一個可以與三本學(xué)術(shù)論文一起使用的簡單代理抹布。我們將使用Llama_index庫，該庫為構(gòu)建抹布系統(tǒng)提供了強大的工具。

步驟1：安裝所需庫

要開始構(gòu)建AI代理，您需要安裝必要的庫。這是設(shè)置您的環(huán)境的步驟：

安裝Python：確保您在系統(tǒng)上安裝了Python。您可以從Python官方網(wǎng)站下載它：下載Python
設(shè)置虛擬環(huán)境：為您的項目管理依賴項創(chuàng)建虛擬環(huán)境是一個好習(xí)慣。運行以下命令來設(shè)置虛擬環(huán)境：

 Python -M Venv ai_agent_env
源ai_agent_env/bin/activate＃在Windows上，使用`ai_agent_env \ scripts \ activate`

安裝OpenAI API和LlamainDex：

 PIP安裝OpenAi Llama-index == 0.10.27 Llama-index-llms-openai == 0.1.15
PIP安裝Llama-index-embeddings-openai == 0.1.7

步驟2：設(shè)置API鍵和環(huán)境變量

要使用OpenAI API，您需要一個API鍵。請按照以下步驟設(shè)置您的API密鑰：

獲取API密鑰：在OpenAI網(wǎng)站上註冊帳戶，並從API部分獲取您的API密鑰。
設(shè)置環(huán)境變量：將API密鑰存儲在環(huán)境變量中以確保其安全。將以下行添加到您的.bashrc或.zshrc文件（或為操作系統(tǒng)使用適當(dāng)?shù)姆椒ǎ?/li>

導(dǎo)出openai_api_key ='your_openai_api_key_here'

訪問代碼中的API鍵：在Python代碼，導(dǎo)入必要的庫，然後使用OS模塊訪問API鍵

導(dǎo)入操作系統(tǒng)
進口Openai
導(dǎo)入NEST_ASYNCIO
來自llama_index.core.node_parser import stonencesplitter
來自llama_index.core.tools import functionTool，queryenginetool
來自llama_index.core.core.vector_stores導(dǎo)入元數(shù)據(jù)，濾波器條件
來自llama_index.core.agent intimpt functionCallingAgentWorker
來自llama_index.core.gagent Import Agentrunner
從輸入導(dǎo)入列表，可選
導(dǎo)入子過程
OpenAI.API_KEY = OS.GEGENV（'OpenAi_Api_Key'）

＃optionion，您只需直接添加OpenAI鍵即可。 （不是一個好練習(xí)）
＃openai.api_key ='your_openai_api_key_here'

nest_asyncio.apply（）

步驟3：下載文檔

如前所述，我只使用三篇論文來製作這種代理抹布，以後我們將在其他博客中將其擴展到更多論文。您可以使用自己的文檔（可選）。

 ＃要下載的URL列表
urls = [
    “ https://openreview.net/pdf?id=vtmbagcn7o”，
    “ https://openreview.net/pdf?id=6pmjorfdak”，
    “ https://openreview.net/pdf?id=hsyw5go0v8”，
這是給出的

＃對應(yīng)的文件名將文件保存為
論文= [
    “ metagpt.pdf”，
    “ longlora.pdf”，
    “ selfrag.pdf”，
這是給出的

＃在這兩個列表上循環(huán)並下載每個文件都有其各自的名稱
對於URL，郵政紙（URL，紙）：
    subprocess.run（[[“ wget”，url，“ -o”，paper]）

步驟4：創(chuàng)建向量和摘要工具

以下功能get_doc_tools旨在創(chuàng)建兩個工具：矢量查詢工具和摘要查詢工具。這些工具有助於使用基於代理的檢索生成（RAG）方法查詢和匯總文檔。以下是步驟及其解釋。

 def get_doc_tools（
    file_path：str，
    名稱：str，，
） - > str：
    “”“從文檔獲取矢量查詢和摘要查詢工具?！薄啊?/pre>
加載文檔並準備向量索引
該函數(shù)首先使用SimpleDirectoryReader加載文檔，該函數(shù)採用提供的File_path並讀取文檔的內(nèi)容。加載文檔後，它將通過SendencesPlitter處理，該句子將文檔分解為較小的塊或節(jié)點，每個節(jié)點最多包含1024個字符。然後使用VectorStoreIndex索引這些節(jié)點，該工具允許有效的基於向量的查詢。該索引將稍後將用於基於向量相似性對文檔內(nèi)容進行搜索，從而更容易檢索相關(guān)信息。
 ＃從指定的文件路徑加載文檔
documents = simperedirectoryReader（input_files = [file_path]）。 load_data（）

＃將加載的文檔分為1024個字符的較小塊（節(jié)點）
splitter = sensencesplitter（chunk_size = 1024）
nodes = splitter.get_nodes_from_documents（文檔）

＃從節(jié)點創(chuàng)建一個矢量索引，以進行有效的基於矢量的查詢
vector_index = vectorstoreIndex（節(jié)點）
定義向量查詢功能
在這裡，該函數(shù)定義了vector_query，該功能負責(zé)回答有關(guān)文檔的特定問題。該功能接受查詢字符串和頁碼的可選列表。如果沒有提供頁碼，則查詢整個文檔。該功能首先檢查是否提供了page_numbers；如果沒有，則默認為空列表。
然後，它創(chuàng)建與指定的頁碼相對應(yīng)的元數(shù)據(jù)過濾器。這些過濾器有助於將搜索範(fàn)圍縮小到文檔的特定部分。 query_engine是使用向量索引創(chuàng)建的，並配置為使用這些過濾器以及相似性閾值，以找到最相關(guān)的結(jié)果。最後，該功能使用此引擎執(zhí)行查詢並返迴響應(yīng)。
 ＃向量查詢功能
    def vector_query（
        查詢：str， 
        page_numbers：可選[list [str]] =無
    ） - > str：
        ”“”用於通過給定論文回答問題。
    
        如果您對論文有特定的問題，有用。
        始終將page_numbers留為無，除非您要搜索特定頁面。
    
        args：
            查詢（str）：要嵌入的字符串查詢。
            page_numbers（可選[list [str]]）：通過一組頁過濾。沒有離開 
                如果我們想執(zhí)行矢量搜索
                在所有頁面上。否則，通過指定頁面的集合過濾。
        
        ”“”
    
        page_numbers = page_numbers或[]
        metadata_dicts = [
            {“鍵”：“ page_label”，“ value”：p in page_numbers中的p
        這是給出的
        
        query_engine = vector_index.as_query_engine（
            samelity_top_k = 2，
            過濾器= metadatafilters.from_dicts（
                metadata_dicts，
                條件= filterCondition.or
            ）
        ）
        響應(yīng)= query_engine.query（query）
        返迴響應(yīng)
創(chuàng)建向量查詢工具
該函數(shù)的這一部分創(chuàng)建了vector_query_tool，該工具將先前定義的vector_query函數(shù)鏈接到基於調(diào)用get_doc_tools時提供的名稱參數(shù)的動態(tài)生成名稱。
該工具是使用functionTool.from_defaults創(chuàng)建的，該工具會自動使用必要的默認設(shè)置配置它。現(xiàn)在，該工具可用於使用前面定義的函數(shù)對文檔進行基於向量的查詢。
       
    ＃創(chuàng)建向量查詢工具
    vector_query_tool = functionTool.from_defaults（
        name = f“ vector_tool_ {name}”，
        fn = vector_query
    ）
創(chuàng)建摘要查詢工具
在最後一節(jié)中，該函數(shù)創(chuàng)建了用於匯總文檔的工具。首先，它從先前被拆分和索引的節(jié)點創(chuàng)建了一個摘要。該索引專為摘要任務(wù)而設(shè)計。然後以“ Tree_summarize”的響應(yīng)模式創(chuàng)建summary_query_engine，該模式允許該工俱生成文檔內(nèi)容的簡明摘要。
最終使用queryenginetool.from_defaults創(chuàng)建了summary_tool，該工具將查詢引擎鏈接到基於名稱參數(shù)的動態(tài)生成的名稱。還給出了該工具的描述，指示其目的是與匯總相關(guān)的查詢?，F(xiàn)在，可以使用此摘要工具根據(jù)用戶查詢來生成文檔的摘要。
 ＃摘要查詢工具
    summary_index = summaryIndex（節(jié)點）
    summary_query_engine = summary_index.as_query_engine（
        response_mode =“ tree_summarize”，
        use_async = true，
    ）
    summary_tool = queryenginetool.from_defaults（
        name = f“ summary_tool_ {name}”，
        query_engine = summary_query_engine，
        描述=（（
            f“對{名稱}有關(guān)的摘要問題有用”
        ），
    ）

    返回vector_query_tool，summary_tool
調(diào)用功能為每篇論文構(gòu)建工具
paper_to_tools_dict = {}
紙中的紙：
    打印（f“獲取紙的工具：{paper}”）
    vector_tool，summary_tool = get_doc_tools（紙，路徑（PAPE）.stem）
    Paper_to_tools_dict [Paper] = [vector_tool，summary_tool]

prient_tools = [T paper_to_tools_dict [paper]]的紙張中的紙張
len（initial_tools）

該代碼處理每篇論文並為每個論文創(chuàng)建兩個工具：用於語義搜索的向量工具，以及用於生成簡明摘要的摘要工具，在這種情況下為6個工具。
步驟5：創(chuàng)建代理
早些時候，我們?yōu)榇韯?chuàng)建了工具，現(xiàn)在我們將使用然後使用FunctionCallingAgentWorker類創(chuàng)建代理。我們將使用“ GPT-3.5-Turbo”作為LLM。
 llm = OpenAI（型號=“ GPT-3.5-Turbo”）

agent_worker = functionCallingAgentWorker.from_tools（
    initial_tools， 
    llm = llm， 
    冗長= true
）
代理= AgentRunner（Agent_worker）
該代理現(xiàn)在可以回答有關(guān)我們處理過的三篇論文的問題。
步驟6：分析代理的響應(yīng)
我們從三篇論文中詢問了代理商的不同問題，這是它的回答。以下是有關(guān)其內(nèi)部工作方式的示例和解釋。

解釋代理商與Longlora論文的互動
在此示例中，我們詢問我們的代理商從三個研究論文中提取特定信息，特別是關(guān)於評估數(shù)據(jù)集以及Longlora研究中使用的結(jié)果。代理使用Vector查詢工具與文檔進行交互，這是對信息進行逐步處理的方式：


用戶輸入：用戶詢問了有關(guān)Longlora評估方面的兩個順序問題：首先關(guān)於評估數(shù)據(jù)集，然後涉及結(jié)果。

代理的查詢執(zhí)行：代理商確定需要專門搜索Longlora文檔以獲取有關(guān)評估數(shù)據(jù)集的信息。它使用vector_tool_longlora函數(shù)，該功能是專門為longlora設(shè)置的向量查詢工具。

 ===調(diào)用功能===
呼叫函數(shù)：vector_tool_longlora with args：{“ query”：“評估數(shù)據(jù)集”}


評估數(shù)據(jù)集的功能輸出：代理從文檔中檢索相關(guān)部分，確定Longlora中使用的評估數(shù)據(jù)集是“ PG19測試拆分”，這是由於其長形式文本性質(zhì)而用於語言模型評估的數(shù)據(jù)集。

代理商的第二個查詢執(zhí)行：在第一個響應(yīng)之後，代理然後處理用戶問題的第二部分，向文檔查詢了longlora的評估結(jié)果。

 ===調(diào)用功能===
調(diào)用功能：with args：{“ query”：“評估結(jié)果”}



評估結(jié)果的功能輸出：代理返回的詳細結(jié)果，顯示模型在更大的上下文大小的困惑方面表現(xiàn)更好。它突出了關(guān)鍵發(fā)現(xiàn)，例如具有較大上下文窗口的改進和特定的上下文長度（100K，65536和32768）。它還指出了一個權(quán)衡，因為擴展模型在較小的上下文大小上經(jīng)歷了由於位置插值而導(dǎo)致的某些困惑降低，這是由於位置插值而導(dǎo)致的 - 這種模型中的常見限制。

最終LLM響應(yīng)：代理將結(jié)果綜合為簡潔的響應(yīng)，回答有關(guān)數(shù)據(jù)集的初始問題。評估結(jié)果將進一步解釋，總結(jié)了績效結(jié)果及其含義。

其他論文的示例很少

解釋代理商的行為：總結(jié)自lag和longlora
在這種情況下，代理人的任務(wù)是提供自橡膠和longlora的摘要。在這種情況下觀察到的行為與上一個示例不同：
摘要工具用法
===調(diào)用功能===
調(diào)用函數(shù)：summary_tool_selfrag with args：{“ input”：“ self-rag”}
與較早的示例不同，該示例涉及查詢特定細節(jié)（例如評估數(shù)據(jù)集和結(jié)果），這裡的代理直接利用了為自lag和longlora設(shè)計的summary_tool函數(shù)。這表明了代理商根據(jù)問題的性質(zhì)在查詢工具之間自適應(yīng)切換的能力 - 當(dāng)需要更廣泛的概述時摘要。
獨立的呼叫來分開摘要工具
===調(diào)用功能===
調(diào)用功能：summary_tool_longlora with args：{“ input”：“ longlora”}
代理分別稱為summary_tool_selfrag和summary_tool_longlora獲得摘要，證明其有效處理多部分查詢的能力。它確定了需要為每篇論文量身定制的不同摘要工具，而不是執(zhí)行單個合併的檢索。
回應(yīng)的簡潔性和直接性
代理商提供的答復(fù)是簡潔的，並直接解決了提示。這表明代理可以有效提取高級見解，與上一個示例形成鮮明對比，在該示例中，它根據(jù)特定的向量查詢提供了更多顆粒狀的數(shù)據(jù)點。
這種相互作用強調(diào)了代理商提供高級概述與先前觀察到的詳細的，特定於上下文的響應(yīng)的能力。行為的這種轉(zhuǎn)變強調(diào)了代理抹布系統(tǒng)根據(jù)用戶問題的性質(zhì)調(diào)整其查詢策略的多功能性 - 無論是需要深入細節(jié)還是廣泛的摘要。
挑戰(zhàn)和考慮因素
雖然多文檔的代理抹布很強大，但要記住一些挑戰(zhàn)：


可伸縮性：隨著文檔的數(shù)量的增加，有效的索引和檢索變得至關(guān)重要。

連貫性：確保代理在整合來自多個來源的信息時會產(chǎn)生連貫的響應(yīng)。

偏見和準確性：系統(tǒng)的輸出僅與其輸入文檔和檢索機制一樣好。

計算資源：處理和嵌入大量文檔可能是資源密集的。

結(jié)論
多文檔代理抹布代表了AI領(lǐng)域的重大進步，通過綜合來自多個來源的信息來實現(xiàn)更準確和上下文感知的響應(yīng)。這種方法在研究，法律分析和技術(shù)文檔等複雜領(lǐng)域中尤其有價值，而精確的信息檢索和推理至關(guān)重要。通過利用嵌入，基於代理的推理和強大的檢索機制，該系統(tǒng)不僅可以增強AI生成的內(nèi)容的深度和可靠性，而且還為在知識密集型行業(yè)中更複雜的應(yīng)用鋪平了道路。隨著技術(shù)的不斷發(fā)展，多文件代理抹布有望成為從大量數(shù)據(jù)中提取有意義見解的重要工具。
關(guān)鍵要點

多文件代理抹布通過整合來自多個來源的信息來提高AI響應(yīng)精度。
嵌入和基於代理的推理增強了系統(tǒng)生成上下文感知和可靠內(nèi)容的能力。
該系統(tǒng)在研究，法律分析和技術(shù)文檔等複雜領(lǐng)域中特別有價值。
高級檢索機制可確保精確的信息提取，並支持知識密集型行業(yè)。
多文檔代理抹布代表了AI驅(qū)動的內(nèi)容生成和數(shù)據(jù)分析中向前邁出的重要一步。

常見問題
Q1。什麼是多文檔代理抹布？答：多文件代理RAG結(jié)合了檢索功能生成（RAG）與基於代理的系統(tǒng)，使AI能夠跨多個文檔進行推理。
 Q2。多文件代理抹佈如何提高準確性？答：通過綜合來自各種來源的信息，使AI可以連接事實並提供更精確的答案，從而提高了準確性。
 Q3。在哪些領(lǐng)域是多文件代理抹布最有益的？答：它在學(xué)術(shù)研究，法律文檔分析，市場情報和技術(shù)文檔中特別有價值。
 Q4。多文檔代理抹布系統(tǒng)的關(guān)鍵組件是什麼？答：關(guān)鍵組件包括文檔處理，創(chuàng)建嵌入，索引，檢索，基於代理的推理和生成。
 Q5。嵌入在該系統(tǒng)中的作用是什麼？ A.嵌入將文本轉(zhuǎn)換為數(shù)值向量，從而捕獲信息的含義和上下文，以進行有效的比較和分析。
本文所示的媒體不由Analytics Vidhya擁有，並由作者酌情使用。
以上是使用llamaindex構(gòu)建多文件代理抹布的詳細內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！