Langchain: une puissante bibliothèque Python pour la construction, l'expérimentation et l'analyse des modèles de langage et des agents
Points de base:
- Langchain est une bibliothèque Python qui simplifie la création, l'expérimentation et l'analyse des modèles de langage et des agents, offrant un large éventail de fonctions pour le traitement du langage naturel.
- Il permet la création d'agents multifonctionnels qui sont capables de comprendre et de générer du texte et peuvent configurer des comportements et des sources de données spécifiques pour effectuer diverses taches liées à la langue.
- Langchain fournit trois types de modèles: modèle grand langage (LLM), modèle de chat et modèle d'intégration de texte, chacun offrant une fonctionnalité unique pour les taches de traitement du langage.
- Il fournit également des fonctionnalités telles que la segmentation du grand texte en blocs faciles à gérer, liant plusieurs fonctions LLM via des cha?nes pour effectuer des taches complexes et s'intégrer à divers services LLM et AI en dehors de l'OpenAI.
Langchain est une puissante bibliothèque Python qui permet aux développeurs et aux chercheurs de créer, expérimenter et analyser les modèles et les agents de langage. Il offre aux amateurs de traitement du langage naturel (NLP) avec un riche ensemble de fonctionnalités, de la construction de modèles personnalisés à une manipulation efficace de données texte. Dans ce guide complet, nous creuserons dans les composants de base de Langchain et montrerons comment profiter de son pouvoir à Python.
Paramètres d'environnement:
Pour apprendre cet article, créez un nouveau dossier et installez Langchain et Openai à l'aide de PIP:
pip3 install langchain openai
AGENTS:
Dans Langchain, un agent est une entité qui peut comprendre et générer du texte. Ces agents peuvent configurer des comportements et des sources de données spécifiques et sont formés pour effectuer diverses taches liées à la langue, ce qui en fait un outil multifonctionnel pour une variété d'applications.
Créer Langchain Agent:
Les agences peuvent être configurées pour utiliser des "outils" pour collecter les données requises et développer une bonne réponse. Veuillez consulter l'exemple ci-dessous. Il utilise l'API SERP (une API de recherche Internet) pour rechercher des informations liées à une question ou une entrée et à répondre. Il utilise également l'outil LLM-Math pour effectuer des opérations mathématiques - par exemple, la conversion des unités ou la recherche d'un pourcentage de variation entre deux valeurs:
from langchain.agents import load_tools from langchain.agents import initialize_agent from langchain.agents import AgentType from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" os.environ["SERPAPI_API_KEY"] = "YOUR_SERP_API_KEY" # 獲取你的Serp API密鑰:https://serpapi.com/ OpenAI.api_key = "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" llm = OpenAI(model="gpt-3.5-turbo", temperature=0) tools = load_tools(["serpapi", "llm-math"], llm=llm) agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True) agent.run("How much energy did wind turbines produce worldwide in 2022?")
Comme vous pouvez le voir, après avoir terminé toutes les importations de base et l'initialisation de LLM (llm = openai (Model = "GPT-3.5-Turbo", température = 0)), le code utilise des outils = load_tools (["serpapi" , "LLM-Math"], llm = llm) Chargez les outils requis pour que l'agent fonctionne. Il utilise ensuite la fonction initialize_agent pour créer un agent, lui fournir l'outil spécifié et lui fournit une description zéro_shot_react_description, ce qui signifie qu'il ne se souviendra pas du problème précédent.
Exemple de test d'agence 1:
Testons cet agent avec l'entrée suivante:
<code>"How much energy did wind turbines produce worldwide in 2022?"</code>
Comme vous pouvez le voir, il utilise la logique suivante:
- Rechercher "Production d'énergie d'éoliennes dans le monde entier 2022" en utilisant l'API de recherche Internet SERP
- les meilleurs résultats pour l'analyse
- Obtenez des numéros pertinents
- Utilisez l'outil LLM-Math pour convertir 906 GW en Joule parce que nous demandons l'énergie, pas la puissance
Exemple de test d'agence 2:
Langchain L'agent ne se limite pas à la recherche sur Internet. Nous pouvons connecter presque toutes les sources de données (y compris la n?tre) à l'agent de Langchain et poser des questions sur les données. Essayons de créer un agent formé sur un ensemble de données CSV.
Téléchargez cet ensemble de données de films et d'émissions de télévision Netflix à partir de Shivam Bansal sur Kaggle et de le déplacer vers votre répertoire. Ajoutez maintenant ce code à un nouveau fichier python:
pip3 install langchain openai
Ce code appelle la fonction create_csv_agent et utilise l'ensemble de données Netflix_titles.csv. La figure suivante montre notre test.
Comme indiqué ci-dessus, sa logique consiste à rechercher toutes les occurrences de "chrétienne" dans la colonne des acteurs.
Nous pouvons également créer un agent Pandas DataFrame comme ceci:
from langchain.agents import load_tools from langchain.agents import initialize_agent from langchain.agents import AgentType from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" os.environ["SERPAPI_API_KEY"] = "YOUR_SERP_API_KEY" # 獲取你的Serp API密鑰:https://serpapi.com/ OpenAI.api_key = "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" llm = OpenAI(model="gpt-3.5-turbo", temperature=0) tools = load_tools(["serpapi", "llm-math"], llm=llm) agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True) agent.run("How much energy did wind turbines produce worldwide in 2022?")
Si nous l'exécutons, nous verrons le résultat comme indiqué ci-dessous.
Ce ne sont que quelques exemples. Nous pouvons utiliser presque toutes les API ou ensembles de données avec Langchain.
Modèles:
Il existe trois types de modèles dans Langchain: modèle grand langage (LLM), modèle de chat et modèle d'intégration de texte. Explorons chaque type de modèle avec quelques exemples.
Modèle de grande langue:
Langchain fournit un moyen d'utiliser de grands modèles de langage dans Python pour générer une sortie de texte en fonction de l'entrée de texte. Il n'est pas aussi complexe que le modèle de chat et est le mieux adapté aux taches de langage de sortie d'entrée. Voici un exemple utilisant Openai:
<code>"How much energy did wind turbines produce worldwide in 2022?"</code>
Comme indiqué ci-dessus, il utilise le modèle GPT-3.5-turbo pour générer une sortie pour l'entrée fournie ("trouver un nom de rap pour Matt Nikonorov"). Dans cet exemple, j'ai réglé la température à 0,9 pour rendre le LLM plus créatif. Il est venu avec ?Mc Megamatt?. Je lui ai donné une marque 9/10.
Modèle de chat:
C'est amusant d'amener le modèle LLM à proposer des noms de rap, mais si nous voulons des réponses et des conversations plus complexes, nous devons utiliser le modèle de chat pour améliorer nos compétences. Techniquement, en quoi le modèle de chat est-il différent d'un modèle grand langage? Dans les mots du document Langchain:
Le modèle de chat est une variante du modèle de grande langue. Bien que les modèles de chat utilisent de grands modèles de langue en arrière-plan, ils utilisent des interfaces légèrement différentes. Ils n'utilisent pas l'API "Entrée de texte, sortie de texte", mais utilisent "Messages de chat" comme interface pour l'entrée et la sortie.
Il s'agit d'un simple script de modèle de chat Python:
pip3 install langchain openai
Comme indiqué ci-dessus, le code envoie d'abord un SystemMessage et dit au chatbot d'être amical et informel, puis il envoie un HumanMessage et dit au chatbot de nous convaincre que Djokovich est meilleur que Federer.
Si vous exécutez ce modèle de chatbot, vous verrez les résultats indiqués ci-dessous.
Embeddings:
Emballage fournit un moyen de convertir les mots et les nombres en blocs de texte en vecteurs qui peuvent ensuite être associés à d'autres mots ou nombres. Cela peut sembler abstrait, alors regardons un exemple:
from langchain.agents import load_tools from langchain.agents import initialize_agent from langchain.agents import AgentType from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" os.environ["SERPAPI_API_KEY"] = "YOUR_SERP_API_KEY" # 獲取你的Serp API密鑰:https://serpapi.com/ OpenAI.api_key = "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" llm = OpenAI(model="gpt-3.5-turbo", temperature=0) tools = load_tools(["serpapi", "llm-math"], llm=llm) agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True) agent.run("How much energy did wind turbines produce worldwide in 2022?")
Cela renverra une liste de numéros de points flottants: [0,022762885317206383, -0.01276398915797472, 0,00481598172368168, -0.0094353929068]. Voilà à quoi ressemble l'intégration.
Cas d'utilisation des modèles intégrés:
Si nous voulons former un chatbot ou un LLM pour répondre aux questions liées à nos données ou à des échantillons de texte spécifiques, nous devons utiliser l'intégration. Créons un fichier CSV simple (EMBS.CSV) avec une colonne "texte" contenant trois informations:
<code>"How much energy did wind turbines produce worldwide in 2022?"</code>
Maintenant, c'est un script qui utilisera des intégres pour obtenir la question "qui était l'humain le plus grand de tous les temps?"
from langchain.llms import OpenAI from langchain.chat_models import ChatOpenAI from langchain.agents.agent_types import AgentType from langchain.agents import create_csv_agent import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" agent = create_csv_agent( OpenAI(temperature=0), "netflix_titles.csv", verbose=True, agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION, ) agent.run("In how many movies was Christian Bale casted")Si nous exécutons ce code, nous verrons qu'il sortira "Robert Wadlow était le plus haut humain de tous les temps". Le code trouve la bonne réponse en obtenant l'incorporation de chaque élément d'information et en trouvant l'intégration qui est la plus pertinente pour la question "qui était l'homme le plus grand de tous les temps?". Puissance intégrée!
morceaux:
Les modèles Langchain ne peuvent pas traiter de grands textes en même temps et les utiliser pour générer des réponses. C'est là que la segmentation des blocs et du texte entrera en jeu. Examinons deux fa?ons simples de diviser les données de texte en blocs avant de les nourrir à Langchain.
Blocs de segment par caractère:
Pour éviter les interruptions soudaines dans les blocs, nous pouvons diviser le texte par paragraphe en divisant le texte à chaque occurrence d'une nouvelle ligne ou d'une double nouvelle ligne:
from langchain.agents import create_pandas_dataframe_agent from langchain.chat_models import ChatOpenAI from langchain.agents.agent_types import AgentType from langchain.llms import OpenAI import pandas as pd import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_KEY" df = pd.read_csv("netflix_titles.csv") agent = create_pandas_dataframe_agent(OpenAI(temperature=0), df, verbose=True) agent.run("In what year were the most comedy movies released?")
Bloc de segmentation récursive:
Si nous voulons strictement diviser le texte par des caractères d'une certaine longueur, nous pouvons utiliser RecursiVECHarAtteTtexTsPlitter:
from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" llm = OpenAI(model="gpt-3.5-turbo", temperature=0.9) print(llm("Come up with a rap name for Matt Nikonorov"))
Taille et chevauchement des blocs:
Lorsque vous regardez l'exemple ci-dessus, vous voudrez peut-être savoir exactement ce que signifient la taille du bloc et les paramètres de chevauchement et comment ils affectent les performances. Cela peut être expliqué de deux manières:- La taille du bloc détermine le nombre de caractères dans chaque bloc. Plus la taille du bloc est grande, plus il y a de données dans le bloc, plus il faut Langchain pour le traiter et générer la sortie, et vice versa.
- Le chevauchement des blocs est le contenu qui partage des informations entre les blocs afin qu'ils partagent un certain contexte. Plus le chevauchement du bloc est élevé, plus nos blocs sont redondants, plus le chevauchement du bloc est bas, moins le contexte est partagé entre les blocs. En règle générale, un bon chevauchement de blocs est de 10% à 20% de la taille du bloc, bien que le chevauchement de bloc souhaité varie selon différents types de texte et cas d'utilisation.
cha?nes:
Les chapitressont essentiellement des fonctions LLM multiples liées ensemble pour effectuer des taches plus complexes qui ne peuvent pas être accomplies via la sortie LLM simple. Regardons un exemple sympa:
pip3 install langchain openai
Ce code entre deux variables dans ses invites et développe une réponse créative (température = 0,9). Dans cet exemple, nous lui demandons de proposer un bon titre pour un film d'horreur sur les mathématiques. La sortie après l'exécution de ce code est "la malédiction calculatrice", mais cela ne montre pas vraiment la pleine fonctionnalité de la cha?ne.
Regardons un exemple plus pratique:
from langchain.agents import load_tools from langchain.agents import initialize_agent from langchain.agents import AgentType from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" os.environ["SERPAPI_API_KEY"] = "YOUR_SERP_API_KEY" # 獲取你的Serp API密鑰:https://serpapi.com/ OpenAI.api_key = "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" llm = OpenAI(model="gpt-3.5-turbo", temperature=0) tools = load_tools(["serpapi", "llm-math"], llm=llm) agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True) agent.run("How much energy did wind turbines produce worldwide in 2022?")
Ce code peut sembler déroutant, alors expliquons-le pas à pas.
Ce code lit une courte biographie de NAS (artiste hip hop) et extrait les valeurs suivantes du texte et les formats comme des objets JSON:
- Nom de l'artiste
- Genre de musique de l'artiste
- Le premier album de l'artiste
- L'année de sortie du premier album de l'artiste
Dans l'invite, nous avons également spécifié "Assurez-vous de répondre au format correct" afin que nous obtenions toujours la sortie au format JSON. Voici la sortie de ce code:
<code>"How much energy did wind turbines produce worldwide in 2022?"</code>
En fournissant le motif JSON à la fonction create_structed_output_chain, nous faisons la cha?ne de mettre sa sortie dans le format JSON.
au-delà de l'Openai:
Bien que j'aie utilisé le modèle OpenAI comme exemple de différentes fonctions de Langchain, il n'est pas limité au modèle OpenAI. Nous pouvons utiliser Langchain avec de nombreux autres services LLM et AI. (Il s'agit de la liste complète des LLM intégrés de Langchain.)
Par exemple, nous pouvons utiliser Cohere avec Langchain. Il s'agit de la documentation de l'intégration de Langchain Cohere, mais pour fournir un exemple pratique, après avoir installé Cohere à l'aide de PIP3 Installer Cohere, nous pouvons écrire un simple code de questions-réponses à l'aide de Langchain et Cohere comme suit:
from langchain.llms import OpenAI from langchain.chat_models import ChatOpenAI from langchain.agents.agent_types import AgentType from langchain.agents import create_csv_agent import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" agent = create_csv_agent( OpenAI(temperature=0), "netflix_titles.csv", verbose=True, agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION, ) agent.run("In how many movies was Christian Bale casted")
Le code ci-dessus produit la sortie suivante:
from langchain.agents import create_pandas_dataframe_agent from langchain.chat_models import ChatOpenAI from langchain.agents.agent_types import AgentType from langchain.llms import OpenAI import pandas as pd import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_KEY" df = pd.read_csv("netflix_titles.csv") agent = create_pandas_dataframe_agent(OpenAI(temperature=0), df, verbose=True) agent.run("In what year were the most comedy movies released?")
Conclusion:
Dans ce guide, vous avez vu différents aspects et fonctions de Langchain. Une fois que vous avez ma?trisé ces connaissances, vous pouvez utiliser les capacités de Langchain pour effectuer un travail de PNL, que vous soyez chercheur, développeur ou passionné.
Vous pouvez trouver un référentiel sur GitHub qui contient toutes les images et les fichiers nas.txt dans cet article.
Je vous souhaite un codage heureux et expérimentant avec Langchain dans Python!
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Le polymorphisme est un concept de base dans la programmation orientée objet Python, se référant à "une interface, plusieurs implémentations", permettant le traitement unifié de différents types d'objets. 1. Le polymorphisme est implémenté par la réécriture de la méthode. Les sous-classes peuvent redéfinir les méthodes de classe parent. Par exemple, la méthode Spoke () de classe animale a des implémentations différentes dans les sous-classes de chiens et de chats. 2. Les utilisations pratiques du polymorphisme comprennent la simplification de la structure du code et l'amélioration de l'évolutivité, tels que l'appel de la méthode Draw () uniformément dans le programme de dessin graphique, ou la gestion du comportement commun des différents personnages dans le développement de jeux. 3. Le polymorphisme de l'implémentation de Python doit satisfaire: la classe parent définit une méthode, et la classe enfant remplace la méthode, mais ne nécessite pas l'héritage de la même classe parent. Tant que l'objet implémente la même méthode, c'est ce qu'on appelle le "type de canard". 4. Les choses à noter incluent la maintenance

Les paramètres sont des espaces réservés lors de la définition d'une fonction, tandis que les arguments sont des valeurs spécifiques transmises lors de l'appel. 1. Les paramètres de position doivent être passés dans l'ordre, et l'ordre incorrect entra?nera des erreurs dans le résultat; 2. Les paramètres de mots clés sont spécifiés par les noms de paramètres, qui peuvent modifier l'ordre et améliorer la lisibilité; 3. Les valeurs de paramètres par défaut sont attribuées lorsqu'elles sont définies pour éviter le code en double, mais les objets variables doivent être évités comme valeurs par défaut; 4. Les args et * kwargs peuvent gérer le nombre incertain de paramètres et conviennent aux interfaces générales ou aux décorateurs, mais doivent être utilisées avec prudence pour maintenir la lisibilité.

Les itérateurs sont des objets qui implémentent __iter __ () et __Next __ (). Le générateur est une version simplifiée des itérateurs, qui implémentent automatiquement ces méthodes via le mot clé de rendement. 1. L'ITERATOR renvoie un élément chaque fois qu'il appelle Next () et lance une exception d'arrêt lorsqu'il n'y a plus d'éléments. 2. Le générateur utilise la définition de la fonction pour générer des données à la demande, enregistrer la mémoire et prendre en charge les séquences infinies. 3. Utilisez des itérateurs lors du traitement des ensembles existants, utilisez un générateur lors de la génération de Big Data ou de l'évaluation paresseuse, telles que le chargement ligne par ligne lors de la lecture de fichiers volumineux. Remarque: les objets itérables tels que les listes ne sont pas des itérateurs. Ils doivent être recréés après que l'itérateur a atteint sa fin, et le générateur ne peut le traverser qu'une seule fois.

Une méthode de classe est une méthode définie dans Python via le décorateur @classMethod. Son premier paramètre est la classe elle-même (CLS), qui est utilisée pour accéder ou modifier l'état de classe. Il peut être appelé via une classe ou une instance, qui affecte la classe entière plut?t que par une instance spécifique; Par exemple, dans la classe de personne, la méthode show_count () compte le nombre d'objets créés; Lorsque vous définissez une méthode de classe, vous devez utiliser le décorateur @classMethod et nommer le premier paramètre CLS, tel que la méthode Change_var (new_value) pour modifier les variables de classe; La méthode de classe est différente de la méthode d'instance (auto-paramètre) et de la méthode statique (pas de paramètres automatiques), et convient aux méthodes d'usine, aux constructeurs alternatifs et à la gestion des variables de classe. Les utilisations courantes incluent:

La clé pour gérer l'authentification de l'API est de comprendre et d'utiliser correctement la méthode d'authentification. 1. Apikey est la méthode d'authentification la plus simple, généralement placée dans l'en-tête de demande ou les paramètres d'URL; 2. BasicAuth utilise le nom d'utilisateur et le mot de passe pour la transmission de codage Base64, qui convient aux systèmes internes; 3. OAuth2 doit d'abord obtenir le jeton via client_id et client_secret, puis apporter le Bearertoken dans l'en-tête de demande; 4. Afin de gérer l'expiration des jetons, la classe de gestion des jetons peut être encapsulée et rafra?chie automatiquement le jeton; En bref, la sélection de la méthode appropriée en fonction du document et le stockage en toute sécurité des informations clés sont la clé.

Les MagicMethodes de Python (ou Méthodes Dunder) sont des méthodes spéciales utilisées pour définir le comportement des objets, qui commencent et se terminent par un double soulignement. 1. Ils permettent aux objets de répondre aux opérations intégrées, telles que l'addition, la comparaison, la représentation des cha?nes, etc.; 2. Les cas d'utilisation courants incluent l'initialisation et la représentation des objets (__init__, __repr__, __str__), les opérations arithmétiques (__add__, __sub__, __mul__) et les opérations de comparaison (__eq__, ___lt__); 3. Lorsque vous l'utilisez, assurez-vous que leur comportement répond aux attentes. Par exemple, __Repr__ devrait retourner les expressions d'objets refactorables et les méthodes arithmétiques devraient renvoyer de nouvelles instances; 4. Des choses sur l'utilisation ou la confusion doivent être évitées.

PythonManagesMemoryAutomAticalusingreferenceCountandAgarBageCollect

@Property est un décorateur de Python utilisé pour masquer les méthodes comme propriétés, permettant des jugements logiques ou un calcul dynamique des valeurs lors de l'accès aux propriétés. 1. Il définit la méthode Getter via le décorateur @property, de sorte que l'extérieur appelle la méthode comme l'accès aux attributs; 2. Il peut contr?ler le comportement d'attribution avec .setter, tel que la validité de la valeur de vérification, si le .setter n'est pas défini, il s'agit d'un attribut en lecture seule; 3. Il convient à des scènes telles que la vérification de l'attribution de propriétés, la génération dynamique de valeurs d'attribut et la masquage des détails de l'implémentation interne; 4. Lorsque vous l'utilisez, veuillez noter que le nom d'attribut est différent du nom de variable privé pour éviter les boucles mortes et convient aux opérations légères; 5. Dans l'exemple, la classe Circle restreint le rayon non négatif, et la classe de personne génère dynamiquement l'attribut Full_name
