


Llamaindex: un cadre de données pour les applications basées sur les modèles de grande langue (LLMS)
Mar 10, 2025 am 10:22 AMLlamaindex: Frame de données qui permet des modèles de gros langues
llamaindex est un cadre de données d'application basé sur des modèles de langues importants (LLM). Les LLM comme GPT-4 pré-entra?nent une quantité massive d'ensembles de données publiques pour fournir de puissantes capacités de traitement du langage naturel hors de la bo?te. Cependant, leur utilitaire sera limité sans accès à vos propres données privées.
Llamaindex vous permet d'ingérer des données des API, des bases de données, des PDF et d'autres sources via des connecteurs de données flexibles. Ces données sont indexées dans des représentations intermédiaires optimisées pour LLM. Llamaindex autorise ensuite la requête en langage naturel et la conversation avec vos données via un moteur de requête, une interface de chat et un agent axé sur LLM. Il permet à votre LLM d'accéder et d'interpréter des données privées à grande échelle sans recycler le modèle.
Que vous soyez un débutant à la recherche d'une méthode de langage naturel simple pour interroger les données, ou un utilisateur avancé qui a besoin d'une personnalisation profonde, Llamaindex a les outils correspondants. L'API avancée vous permet de commencer avec seulement un code à cinq éléments, tandis que l'API de bas niveau vous permet de contr?ler complètement l'ingestion de données, l'indexation, la récupération et plus encore.
Comment fonctionne Llamaindex
Llamaindex utilise un système de génération améliorée (RAG) de récupération qui combine des modèles de grandes langues avec une base de connaissances privée. Il se compose généralement de deux phases: la phase d'indexation et la phase de requête.
Les images proviennent de concepts avancés
phase d'index
Pendant la phase d'indexation, Llamaindex indexera efficacement les données privées dans les indices de vecteur. Cette étape aide à créer une base de connaissances consultable spécifique à votre domaine. Vous pouvez saisir des documents texte, des enregistrements de base de données, des graphiques de connaissances et d'autres types de données.
Essentiellement, l'index convertit les données en un vecteur numérique ou l'intégration pour capturer sa signification sémantique. Il permet des recherches rapides de similitude entre le contenu.
étape de requête
à l'étape de la requête, le pipeline de chiffon recherche les informations les plus pertinentes en fonction de la requête de l'utilisateur. Ces informations sont ensuite fournies au LLM avec la requête pour créer une réponse précise.
Cette procédure permet à LLM d'accéder aux informations actuelles et mises à jour qui peuvent ne pas être incluses dans sa formation initiale.
Le principal défi à ce stade est de récupérer, d'organiser et de raisonner sur les informations provenant de plusieurs bases de connaissances qui peuvent exister.
En savoir plus sur le chiffon dans notre échantillon de code de génération amélioré de récupération de Pinecone.
Paramètres de Llamaindex
Avant de plonger dans les tutoriels et projets Llamaindex, nous devons installer le package Python et configurer l'API.
Nous pouvons simplement installer Llamaindex en utilisant PIP.
<code>pip install llama-index</code>
Par défaut, Llamaindex utilise le modèle OpenAI GPT-3 Text-Davinci-003. Pour utiliser ce modèle, vous devez définir OpenAI_API_KEY. Vous pouvez créer un compte gratuit et obtenir la clé API en vous connectant au nouveau jeton API d'Openai.
<code>pip install llama-index</code>
Aussi, assurez-vous que vous avez installé le package OpenAI.
<code>import os os.environ["OPENAI_API_KEY"] = "INSERT OPENAI KEY"</code>
Ajouter des données personnelles à LLM à l'aide de Llamaindex
Dans cette section, nous apprendrons à créer un lecteur de CV à l'aide de Llamaindex. Vous pouvez télécharger votre CV en visitant la page de profil LinkedIn, en cliquant sur "plus", puis "Enregistrer sous le nom de PDF".
Veuillez noter que nous utilisons Datalab pour exécuter le code Python. Vous pouvez accéder à tous les code et sorties pertinents dans le Llamaindex: Ajouter des données personnelles à LLM Workbook; vous pouvez facilement créer votre propre copie pour exécuter tout votre code sans rien installer sur votre ordinateur!
Nous devons installer Llama-Index, OpenAI et PYPDF avant d'exécuter quoi que ce soit. Nous installons le PYPDF afin que nous puissions lire et convertir les fichiers PDF.
<code>pip install openai</code>
Chargez les données et créez un index
Nous avons un répertoire appelé "Private-Data" qui ne contient qu'un seul fichier PDF. Nous le lirons en utilisant SimpledirectoryReader, puis le convertirons en index à l'aide de TreeIndex.
<code>%pip install llama-index openai pypdf</code>
Exécutez la requête
Une fois les données indexées, vous pouvez commencer à poser des questions en utilisant AS_Query_Engine (). Cette fonction vous permet de poser des questions sur des informations spécifiques dans le document et d'obtenir la réponse correspondante à l'aide du modèle OpenAI GPT-3 Text-DavinciCI-003.
Remarque: vous pouvez configurer l'API OpenAI dans Datalab en suivant les instructions d'utilisation de GPT-3.5 et GPT-4 via l'API OpenAI dans Python Tutorial.
Comme nous pouvons le voir, le modèle LLM répond avec précision à la requête. Il a recherché l'index et a trouvé des informations pertinentes.
<code>from llama_index import TreeIndex, SimpleDirectoryReader resume = SimpleDirectoryReader("Private-Data").load_data() new_index = TreeIndex.from_documents(resume)</code>
<code>query_engine = new_index.as_query_engine() response = query_engine.query("When did Abid graduated?") print(response)</code>
Nous pouvons en outre demander des informations de certification. Il semble que Llamaindex ait pleinement compris les candidats, ce qui peut être bénéfique pour les entreprises à la recherche de talents spécifiques.
<code>Abid graduated in February 2014.</code>
<code>response = query_engine.query("What is the name of certification that Abid received?") print(response)</code>
Enregistrer et charger le contexte
La création d'un index est un processus long. Nous pouvons éviter de recréer l'index en enregistrant le contexte. Par défaut, la commande suivante enregistrera l'index Store stocké dans le répertoire ./Storage.
<code>Data Scientist Professional</code>
Lorsque nous avons terminé, nous pouvons rapidement charger le contexte de stockage et créer un index.
<code>new_index.storage_context.persist()</code>
Pour vérifier que cela fonctionne correctement, nous poserons les questions du moteur de requête dans le CV. Il semble que nous ayons réussi le contexte.
<code>from llama_index import StorageContext, load_index_from_storage storage_context = StorageContext.from_defaults(persist_) index = load_index_from_storage(storage_context)</code>
<code>query_engine = index.as_query_engine() response = query_engine.query("What is Abid's job title?") print(response)</code>
chatbot
En plus des questions et réponses, nous pouvons également créer des chatbots personnels à l'aide de Llamaindex. Nous avons juste besoin d'utiliser la fonction AS_CHAT_ENGINE () pour initialiser l'index.
Nous poserons une question simple.
<code>Abid's job title is Technical Writer.</code>
<code>query_engine = index.as_chat_engine() response = query_engine.chat("What is the job title of Abid in 2021?") print(response)</code>
Et sans fournir un contexte supplémentaire, nous poserons des questions de suivi.
<code>Abid's job title in 2021 is Data Science Consultant.</code>
<code>response = query_engine.chat("What else did he do during that time?") print(response)</code>
Il est évident que le moteur de chat fonctionne parfaitement.
Après avoir créé une application linguistique, la prochaine étape de votre calendrier consiste à lire les avantages et les inconvénients de l'utilisation de modèles de gros langage (LLM) dans le cloud par rapport à les exécuter localement. Cela vous aidera à déterminer quelle approche est la meilleure pour vos besoins.
construire wikitext en discours avec Llamaindex
Notre prochain projet consiste à développer une application qui peut répondre aux questions de Wikipedia et les convertir en voix.
La source de code et des informations supplémentaires peuvent être trouvées dans le classeur de données.
Page de wikipedia Wikipedia
du site WebTout d'abord, nous ramperons les données de la page Web italienne-Wikipedia et les enregistrerons en tant que fichier italy_text.txt dans le dossier de données.
<code>pip install llama-index</code>
Chargement des données et index de construction
Ensuite, nous devons installer les packages nécessaires. Le package ElevenLabs nous permet de convertir facilement du texte en discours à l'aide de l'API.
<code>import os os.environ["OPENAI_API_KEY"] = "INSERT OPENAI KEY"</code>
En utilisant SimpledirectoryReader, nous chargerons les données et convertirons le fichier TXT en un magasin vectoriel à l'aide de VectorStoreIndex.
<code>pip install openai</code>
requête
Notre plan est de poser des questions générales sur le pays et d'obtenir une réponse de LLM Query_Engine.
<code>%pip install llama-index openai pypdf</code>
Texte à voix
Après
, nous utiliserons le module LLAMA_INDEX.TTS pour accéder à l'API Elevenlabstts. Vous devez fournir la clé API ElevenLabs pour activer la fonction de génération audio. Vous pouvez obtenir des clés API gratuitement sur le site Web ElevenLabs.<code>from llama_index import TreeIndex, SimpleDirectoryReader resume = SimpleDirectoryReader("Private-Data").load_data() new_index = TreeIndex.from_documents(resume)</code>
Nous ajoutons la réponse à la fonction générée_audio pour générer une parole naturelle. Pour écouter l'audio, nous utiliserons la fonction audio d'Ipython.Display.
<code>query_engine = new_index.as_query_engine() response = query_engine.query("When did Abid graduated?") print(response)</code>
Ceci est un exemple simple. Vous pouvez utiliser plusieurs modules pour créer votre assistant, comme Siri, qui répond à vos questions en interprétant vos données privées. Pour plus d'informations, consultez la documentation Llamaindex.
En plus de Llamaindex, Langchain vous permet également de créer des applications basées sur LLM. De plus, vous pouvez lire le démarrage de Langchain avec l'ingénierie des données et les applications de données pour apprendre un aper?u de ce que vous pouvez faire avec Langchain, y compris les exemples de cas d'utilisation des problèmes et des données que Langchain résout.
Cas d'utilisation Llamaindex
Llamaindex fournit une bo?te à outils complète pour construire des applications basées sur le langage. Plus important encore, vous pouvez utiliser les différents chargeurs de données et outils d'agent dans LLAMA Hub pour développer des applications complexes avec plusieurs capacités.
Vous pouvez utiliser un ou plusieurs chargeurs de données de plugin pour connecter une source de données personnalisée à votre LLM.
Chargeur de données de Llama Hub
Vous pouvez également utiliser l'outil Agent pour intégrer des outils et des API tiers.
Tool agistrateur de Llama Hub
En bref, vous pouvez construire avec Llamaindex:
- Q&A basée sur des documents
- chatbot
- agences
- Données structurées
- Application Web complète de pile complète
- Paramètres privés
Pour en savoir plus sur ces cas d'utilisation, visitez la documentation Llamaindex.
Conclusion
Llamaindex fournit une bo?te à outils puissante pour construire des systèmes de génération d'amélioration de récupération qui combinent les avantages des modèles de grande langue et des bases de connaissances personnalisées. Il est capable de créer une réserve d'index de données spécifiques au domaine et de l'utiliser pendant l'inférence pour fournir un contexte pertinent pour que LLM génére des réponses de haute qualité.
Dans ce tutoriel, nous avons appris Llamaindex et ses principes de travail. De plus, nous avons construit un lecteur de CV et un projet de texte à dispection en utilisant seulement quelques lignes de code Python. La création d'une application LLM avec Llamaindex est très simple, et elle fournit une énorme bibliothèque de plugins, de chargeurs de données et d'agents.
Pour devenir un développeur LLM expert, la prochaine étape consiste à suivre le concept de concept de modèle grand langage. Ce cours vous donnera une compréhension complète des LLM, y compris leurs applications, leurs méthodes de formation, ses considérations éthiques et les dernières recherches.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Mais nous n'aurons probablement pas à attendre même 10 ans pour en voir un. En fait, ce qui pourrait être considéré comme la première vague de machines vraiment utiles, de type humain, est déjà là. Les dernières années ont vu un certain nombre de prototypes et de modèles de production sortant de T

Jusqu'à l'année précédente, l'ingénierie rapide était considérée comme une compétence cruciale pour interagir avec les modèles de langage grand (LLM). Récemment, cependant, les LLM ont considérablement progressé dans leurs capacités de raisonnement et de compréhension. Naturellement, nos attentes

Je suis s?r que vous devez conna?tre l'agent général de l'IA, Manus. Il a été lancé il y a quelques mois, et au cours des mois, ils ont ajouté plusieurs nouvelles fonctionnalités à leur système. Maintenant, vous pouvez générer des vidéos, créer des sites Web et faire beaucoup de MO

Construit sur le moteur de profondeur neuronale propriétaire de Leia, l'application traite des images fixes et ajoute de la profondeur naturelle avec un mouvement simulé - comme les casseroles, les zooms et les effets de parallaxe - pour créer de courts bobines vidéo qui donnent l'impression de pénétrer dans le SCE

Une nouvelle étude de chercheurs du King’s College de Londres et de l’Université d’Oxford partage les résultats de ce qui s'est passé lorsque Openai, Google et Anthropic ont été jetés ensemble dans un concours fardé basé sur le dilemme du prisonnier itéré. Ce n'était pas

Imaginez quelque chose de sophistiqué, comme un moteur d'IA prêt à donner des commentaires détaillés sur une nouvelle collection de vêtements de Milan, ou une analyse de marché automatique pour une entreprise opérant dans le monde entier, ou des systèmes intelligents gérant une grande flotte de véhicules.
