一个人在线高清免费观看,自拍偷自拍亚洲精品10p

ホームページ

テクノロジー周辺機(jī)器

スライドデッキ上のマルチモーダルラグのコンテキスト検索

Lisa Kudrow

Mar 06, 2025 am 11:29 AM

マルチモーダルラグのパワーのロックを解除：ステップバイステップガイド

質(zhì)問をするだけで、単にテキストと畫像をシームレスに統(tǒng)合する回答を受信するだけで、ドキュメントから情報(bào)を簡(jiǎn)単に取得することを想像してください。このガイドでは、これを達(dá)成するマルチモーダル検索の高性能発電（RAG）パイプラインの構(gòu)築について詳しく説明しています。 Llamaparseを使用してPDFスライドデッキからの解析テキストと畫像をカバーし、検索の改善のためのコンテキスト要約を作成し、クエリ応答のためにGPT-4などの高度なモデルを活用します。また、コンテキスト検索がどのように精度を高め、迅速なキャッシュを通じてコストを最適化し、ベースラインとパイプラインのパフォーマンスを強(qiáng)化する方法を探ります。 Ragの可能性を解き放ちましょう！

Contextual Retrieval for Multimodal RAG on Slide Decks

主要な學(xué)習(xí)目標(biāo)：

マスタリングPDFスライドデッキの解析（テキストと畫像）をllamaparse。テキストチャンクにコンテキストの要約を追加することにより、検索の精度を強(qiáng)化します。
マルチモーダルデータをGPT-4などのモデルに統(tǒng)合します
（この記事はデータサイエンスブログの一部です。）

コンテキストマルチモーダルラグパイプラインの構(gòu)築環(huán)境のセットアップと依存関係

コンテキストの要約を組み込む
コンテキストマルチモーダルラグパイプラインの構(gòu)築

文脈検索は、最初に人類のブログ投稿で導(dǎo)入され、各テキストチャンクにドキュメントの全體的なコンテキスト內(nèi)でその場(chǎng)所の簡(jiǎn)潔な要約を提供します。これにより、高レベルの概念とキーワードを組み込むことで検索が向上します。 LLMコールは高価であるため、効率的な迅速なキャッシュが重要です。この例では、Claude 3.5-Sonnetには、コンテキストの要約には、ドキュメントテキストトークンをキャッシュしながら、解析されたテキストチャンクから概要を生成します。テキストと畫像の両方のチャンクが、応答生成のために最終的なマルチモーダルラグパイプラインに供給されます。

標(biāo)準(zhǔn)のRAGには、データの解析、テキストチャンクの埋め込みとインデックス作成、クエリの関連するチャンクの取得、LLMを使用した応答の合成が含まれます。コンテキスト検索は、各テキストチャンクにコンテキストの要約を注釈し、テキストと正確に一致しないが、全體的なトピックに関連するクエリの検索精度を改善することにより、これを強(qiáng)化します。マルチモーダルラグパイプラインの概要：

このガイドは、PDFスライドデッキを使用してマルチモーダルラグパイプラインの構(gòu)築を示しています。

プライマリLLMとして

（claude 3.5-sonnet） voyageai
検索と索引付けの場(chǎng)合、 llamaindex
PDFからテキストと畫像を抽出するために、llamaparse
openai gpt-4
コストを最小限に抑えるために、 llmコールキャッシュが実裝されています

結(jié)論

このチュートリアルは、堅(jiān)牢なマルチモーダルラグパイプラインの構(gòu)築を?qū)g証しました。 LamaParse、コンテキストの要約を備えた強(qiáng)化された検索、および統(tǒng)合されたテキストと視覚データを強(qiáng)力なLLM（GPT-4など）に使用してPDFスライドデッキを解析しました。ベースラインとコンテキストインデックスの比較により、検索精度が改善されました。このガイドは、さまざまなデータソース向けに効果的なマルチモーダルAIソリューションを構(gòu)築するツールを提供します。キーテイクアウト：

コンテキスト検索により、概念的に関連するクエリの検索が大幅に向上します

マルチモーダルラグは、包括的な回答のためにテキストとビジュアルデータの両方をレバレッジします。

迅速なキャッシュは、特に大きなチャンクを使用するために費(fèi)用対効果のために不可欠です。

このアプローチは、Webコンテンツ（Scrapegraphaiを使用）を含むさまざまなデータソースに適応します。

この適応可能なアプローチは、エンタープライズの知識(shí)ベースからマーケティング資料まで、PDFまたはデータソースで機(jī)能します。よくある質(zhì)問