Bulbul-V2 par Sarvam AI: Inde & # 039; s MEILLEUR MODèLE TTS
May 09, 2025 am 10:52 AML'Inde est un pays diversifié avec une riche tapisserie de langues, faisant de la communication transparente entre les régions un défi persistant. Cependant, Bulbul-V2 de Sarvam contribue à combler cette lacune avec sa technologie avancée de texte / dispection (TTS). En livrant des voix naturelles et authentiques régionalement, le modèle apporte la saveur locale aux plates-formes numériques et rend l'IA plus inclusive et accessible pour des desi comme vous et moi. Alors que le contenu numérique continue de se développer, des outils comme Bulbul-V2 deviennent de plus en plus vitaux pour les développeurs et les créateurs de contenu. Dans cet article, je couvrirai l'exploration de Bulbul-V2 de Sarvam AI pour TTS.
Table des matières
- Qu'est-ce que Saravm?
- Explorer les modèles de Sarvam
- Quelle est la particularité de Bulbul-V2?
- Comment accéder à Bulbul-V2 via API?
- Bulbul-V2 en action: voix de différentes langues
- Tache 1: Test de TTS humoristique
- Tache 2: Punjabi à la traduction tamoule
- Tache 3: traduction malayalam à gujarati
- Performance globale
- Cas d'utilisation
- Bulbul-V2 vs d'autres modèles TTS populaires
- Conclusion
Qu'est-ce que Saravm?
Sarvam est une startup indienne de l'IA basée à Bengaluru, fondée par une équipe d'ingénieurs d'apprentissage automatique. Récemment reconnu par le gouvernement indien pour ses travaux sur les modèles indiens de grande langue (LLMS), Sarvam se concentre sur le développement de modèles d'IA basés sur la parole adaptés aux langues indiennes. Son objectif est de créer des voix synthétiques au son naturel qui capturent les nuances de la parole humaine. Contrairement aux systèmes TTS conventionnels qui semblent souvent robotiques et sans émotion, les modèles de Sarvam mettent l'accent sur la livraison expressive, y compris les pauses naturelles et le contexte émotionnel.
Explorer les modèles de Sarvam
Sarvam fournit des services de parole haute performance avec un accent sur les voix synthétisées naturelles et expressives, optimisées pour l'IA conversationnelle. Leur modèle phare, Bulbul-V2, est un système de texte à dispection (TTS) de pointe construit spécifiquement pour les langues indic. Il s'adapte à diverses langues régionales et styles de parole, comprend les indices contextuels du texte environnant et prononce la parole avec un ton émotionnel et une prosodie naturels appropriés. Sarvam propose 4 modèles d'IA con?us pour répondre à divers besoins en langue indienne:
- Mayura: un modèle de traduction multilingue qui prend en charge l'anglais et 11 langues indiennes avec détection automatique de la langue, préserver le sens et le contexte.
- Saras: un modèle de parole à texte qui transcrit l'audio et se traduit entre les langues indiennes en un seul pipeline.
- SAARIKA: Un modèle de texte vocale à haute précision pour plusieurs langues indiennes, offrant une production claire et intelligible.
- Bulbul: L'équipement TTS de Sarvam, Bulbul propose une prosodie humaine, des personnalités de la voix multiple et une synthèse en temps réel adaptées aux accents et aux langues indiennes.
Lire aussi: 9 meilleurs moteurs de texte vocale open source (TTS)
Quelle est la particularité de Bulbul-V2?
Bulbul-V2 est le modèle TTS le plus avancé de Sarvam à ce jour, en s'appuyant sur le succès de son prédécesseur avec plusieurs améliorations innovantes. Il soutient 11 langues indiennes, livrant des voix à consonance native avec des accents régionaux authentiques. Bulbul-V2 est con?u pour la vitesse et la rentabilité. Il est bien adapté pour un large éventail de cas d'utilisation. Celles-ci vont des applications à grande échelle aux déploiements plus petits. Le modèle propose plusieurs personnalités de la voix, telles que Meera et Arvind. Il prend en charge la création de voix personnalisée qui permet aux entreprises de créer une marque audio distincte.
Caractéristiques clés de Bulbul-V2
- Contr?le vocal: contr?le fin sur la hauteur (-1 à 1), le rythme (0,3 à 3) et le volume (0,1 à 3)
- Options de taux d'échantillonnage: Taux d'échantillonnage multiples: 8 kHz, 16 kHz, 22,05 kHz, 24 kHz.
- Prétraitement du texte: normalisation intelligente des nombres, dates et texte en langue mixte
- Support linguistique: support de 11 langues indiennes avec des codes BCP-47.
Comment accéder à Bulbul-V2 via API?
Pour commencer, allez sur le site Web de Sarvam et cliquez sur Sign avec Google:
Maintenant, une fois que vous aurez signé, il vous redirigera vers le tableau de bord, où vous obtiendrez des crédits gratuits d'une valeur de 1000 INR.
Vérifiez la section ?clé d'abonnement? pour copier la clé API de votre Sarvam.
Faire le premier appel API
1. Installation des bibliothèques requises
! Pip installer Sarvamai de Sarvamai Import Sarvamai de Sarvamai.Play Play Importation Importer la base64
- Sarvamai: la classe SDK principale utilisée pour interagir avec l'API Sarvam.
- PAAY: une fonction d'assistance qui joue audio dans votre système.
- Base64: le module intégré de Python pour décoder l'audio de Base64 (l'API renvoie l'audio de cette fa?on).
2. Initialisation du client API
Client = Sarvamai ( api_subscription_key = "your_api_key" )
- Crée un objet client Sarvamai.
3. Convertir du texte à la dissection
réponse = client.text_to_speech.convert ( entrées = ["Bienvenue à Sarvam AI!"], modèle = "bulbul: v2", Target_Language_Code = "en-in", haut-parleur = "anushka", tangage = 0,5, # plage: -1 à 1 rythme = 1,0, # plage: 0,3 à 3 Grandment = 1,2, # Plage: 0,1 à 3 Speech_sample_rate = 8000, # Options: 8000, 16000, 22050, 24000 activer_preprocessing = true # gère les nombres, les dates et le texte mixte ) jouer (réponse)
- Modèle: utilise le modèle Bulbul: V2 TTS.
- Target_Language_code: Spécifie l'anglais (Inde) avec Accent (en-in).
- Pitch, rythme, intensité: contr?le le ton, la vitesse et le volume.
- Speech_sample_rate: choisit la qualité de l'échantillon audio. 8000 Hz est basique (niveau de téléphonie).
- activer_preprocessing: Lorsqu'il est vrai, il normalise automatiquement l'entrée (par exemple, dates / nombres)
- Conférencier: utilise la voix prédéfinie ?Anushka?. Les autres options disponibles sont:
4. Enregistrer la sortie
Audio_Base64 = Response.Audios [0] # Ceci est un STR, codé de base64 Audio_bytes = base64.b64decode (Audio_Base64) # Decode to octets avec Open ("output.wav", "wb") comme f: F.Write (Audio_Bytes)
- Prend l'audio codé en base64 en entrée et le décode en octets.
- L'enregistre en tant que fichier Output.wav.
Lire aussi: Modèles de texte vocale multilingue pour les langues indic
Bulbul-V2 en action: voix de différentes langues
Dans cette section, nous allons tester les performances de Bulbul-V2 sur trois taches majeures. Comme le dit Sarvam Ai que Bulbul-V2 offre des voix naturelles et humaines avec des accents régionaux dans 11 langues. Donc, pour tester cela, nous le vérifierons:
- Conversion du texte en parole (dans la même langue (c'est-à-dire, punjabi en punjabi ou en hindi en hindi)
- Les 2 taches suivantes consistent à vérifier si elle prend en charge la conversion inter-langage ou non, (c'est-à-dire hindi en tamoul ou malayalam en bengali)
Tache 1: Test de TTS humoristique
Cette démo pratique aidera à analyser à quel point Bulbul-V2 capture le son et la sensation de la diversité linguistique indienne. Dans cette tache, je passerai un texte humoristique au modèle TTS et analyserai sa réponse en fonction de sa réponse.
Invite: ? ?? ???? ???????? ???? ??? ??-???, ????! ????! ????? ????, '??? ??? ?? ???' ?? ???? ???? ????, '???? ???? ?? ???? ????? ?? ??? ??!' ????! ??????! ?? ??? ???, ???? ?? ???? ??????? ?? ????? ?????? ?????? ?????? ????, ?? ?????????? !
Client = Sarvamai ( api_subscription_key = "api_key" # Mettez votre clé API ici ) réponse = client.text_to_speech.convert ( entrées = [invite], modèle = "bulbul: v2", Target_Language_Code = "Gu-in", Speaker = "Karun", # naturel et conversationnel tangage = 0,3, rythme = 1,0, Grandment = 1,0, speech_sample_rate = 16000, activer_preprocessing = true ) jouer (réponse) Audio_base64 = réponse.audios [0] Audio_bytes = base64.b64decode (Audio_Base64) avec open ("output_hindi.wav", "wb") comme f: F.Write (Audio_Bytes)
Sortir:
Analyse
Dans cette tache, nous avons utilisé une invite dr?le et humoristique pour tester Bulbul-V2. Le modèle a parlé couramment et a bien géré le langage, cependant, il n'a pas capturé le ton dr?le ou ludique. Les blagues et les rires semblaient à plat et manquant de la partie expressive. Dans l'ensemble, la clarté était bonne, mais la livraison émotionnelle a encore besoin d'amélioration.
Tache 2: Punjabi à la traduction tamoule
Dans cette tache, nous donnerons une invite punjabi et demanderons au modèle de le changer en tamoul.
Prompt: “ ?? ?????? ?? ?? ???? ??? ???? ??? ??? ???? ??? ??? ???? ????? ??, ?? ???? ??? ??? ??? ??? ?? ???? ???, ???? ?? ??? ????? ???? ?? ????? ??? ??? ????? ?? ?? ?????? '?? ??? ???? ??? ?? ?? ???? ?? ??? ????? ??????, ?? ??? ???? ??????? '?? ??? ??????? ?????? ?? ???? ????? ??? ??? ?? ?????? ?????? ?????? ?????? ?????? ?????? ??????
de Sarvamai Import Sarvamai de Sarvamai.Play Play Importation Importer la base64 Client = Sarvamai ( api_subscription_key = "api_key" # Mettez votre clé API ici ) réponse = client.text_to_speech.convert ( entrées = [invite], modèle = "bulbul: v2", Target_Language_Code = "Ta-in", haut-parleur = "manisha", tangage = 0,3, rythme = 1,0, Grandment = 1,0, speech_sample_rate = 16000, activer_preprocessing = true ) jouer (réponse) Audio_base64 = réponse.audios [0] Audio_bytes = base64.b64decode (Audio_Base64) avec open ("output_tamil.wav", "wb") comme f: F.Write (Audio_Bytes)
Sortir:
Analyse
Pour cette tache, j'ai fourni une invite punjabi et demandé à Bulbul-V2 de générer une parole tamoule. Cependant, la sortie commence par le punjabi puis commence soudainement tamoul, au lieu de donner une réponse tamoule fluide. Cela montre que le modèle n'a pas encore effectué de traduction. Il ne lit que l'entrée et, par conséquent, il n'a pas la capacité de traduire correctement en tamoul.
Tache 3: traduction malayalam à gujarati
Dans cette tache, nous donnerons une invite malayalam et demanderons au modèle de le changer en gujarati.
Invite: ” ??????? ??? ???????????????? ?????? ???????? ?????????????! ??? ?????? ?????????? ????????????! ????? ??????! ??????? ??????? ???? ????? ????? ????????????? ???????????????! ?????? ????????? ???????????? ? ??????? ???? ??????? ??????????? ??????????? ???????????? ??????????!"
de Sarvamai Import Sarvamai de Sarvamai.Play Play Importation Importer la base64 Client = Sarvamai ( api_subscription_key = "your_api_key" # Mettez votre clé API ici ) réponse = client.text_to_speech.convert ( entrées = [invite], modèle = "bulbul: v2", Target_Language_Code = "Gu-in", haut-parleur = "abhilash", tangage = 0,3, rythme = 1,0, Grandment = 1,0, speech_sample_rate = 16000, activer_preprocessing = true ) jouer (réponse) Audio_base64 = réponse.audios [0] Audio_bytes = base64.b64decode (Audio_Base64) avec open ("output_gujrati.wav", "wb") comme f: F.Write (Audio_Bytes)
Sortir:
Analyse
Pour cette tache, j'ai fourni une invite malayalam et demandé au modèle de générer une parole gujarati. Cependant, le modèle ne parvient pas à traduire l'invite vers Gujarati. Au lieu de cela, il donne un malayalam lisse en réponse. Cela montre que le modèle n'a pas encore effectué de traduction. Pour une conversion précise du langage, une étape de traduction externe devrait être incluse avant de passer le texte aux modes TTS.
Performance globale
Tache | Langue d'entrée | Langue cible | Comment ?a a bien fonctionné | Ce qui s'est passé | Que faire ensuite |
1 | Invite dr?le (anglais) | Anglais | Bien | Parla clairement et en douceur, mais manquait d'humour ou de vivacité. | Améliorez la voix pour mieux exprimer des émotions comme le rire. |
2 | Punjabi | Tamoul | Pas bon | Commencé en punjabi, puis est soudainement passé à la phrase tamoule. | Utilisez un service de traduction approprié avant TTS. |
3 | Malayalam | Gujarati | échoué | La sortie était encore en malayalam; aucune traduction ne s'est produite. | Traduire le texte manuellement avant d'utiliser TTS. |
Doit lire: GPT 4O vs indic LLMS - Qui gagnera la guerre linguistique?
Cas d'utilisation
Les capacités rapides et naturelles de Text-the-Speech de Bulbul-V2 en font un bon ajustement dans de nombreux cas du monde réel où la conversion inter-langue n'est pas impliquée. Voici quelques exemples pratiques où cela peut être utilisé:
- Technologie d'assistance: TTS transforme le texte en discours pour les utilisateurs contre visuellement. Les lecteurs d'écran alimentés par ce type de technologie peuvent offrir une expérience naturelle et engageante aux utilisateurs. Parallèlement à cela, les TT peuvent également aider les individus non verbaux à communiquer.
- Apprentissage en ligne et création de contenu: les modèles TTS peuvent être utilisés pour fabriquer des livres audio, d'autres matériels éducatifs et une voix off pour les vidéos. Cela aide à rendre l'apprentissage plus engageant, car les individus peuvent l'utiliser dans leur langue maternelle, et le rend également plus inclusif.
- Traduction et localisation linguistiques: la technologie TTS soutient la création de contenu localisé. Il permet une traduction en temps réel pour les applications. Bulbul-V2 a une faible latence, ce qui le rend adapté aux applications en temps réel. Il s'agit notamment de l'assistance d'interprétation des conférences et de l'interaction en direct du service client. Les plateformes éducatives peuvent également l'utiliser pour aider les individus à entendre correctement.
Bulbul-V2 vs d'autres modèles TTS populaires
Bulbul-V2 fait une forte impression dans le domaine des modèles TTS, en particulier pour le marché indien. Son principal avantage sur les autres est qu'il soutient 11 langues indiennes indigènes, qui couvrent la majorité du sous-continent indien.
Tout en comparant Bulbul-V2 avec des rivaux mondiaux comme les Elevenlabs. Bulbul-V2 se démarque avec ses performances rapides, avec la latence de la livraison P90 en 0,398 seconde, ce qui est environ deux fois plus rapide que onzelabs.
Bulbul-V2 offre également un paramètre comme le contr?le sur la hauteur, le rythme, le volume et la fréquence d'échantillonnage, ainsi que le traitement intelligent pour les nombres et les dates. Il s'agit non seulement de suivre les dirigeants internationaux du TTS, mais aussi de créer de nouvelles références en vitesse, en efficacité et en abordabilité.
Découvrez: Autres LLMS indicatifs populaires
Conclusion
Bulbul-V2 fait un bond en avant dans le parcours de l'Inde pour développer son propre LLM, en particulier dans le domaine des modèles d'essai-végétal en livrant des voix rapides, naturelles et régionales. Sa vitesse exceptionnelle et son prix abordable le rendent accessible à un large éventail d'applications, variant des appareils d'assistance à la création de contenu. Bien qu'il n'ait actuellement pas de prise en charge de la traduction automatique entre les langues, cela peut être exagéré en combinant Bulbul-V2 avec des outils externes comme Google Translate. Avec des améliorations continues de l'expressivité et des fonctionnalités élargies pour créer des expériences vocales plus engageantes. Avec cela, Bulbul-V2 devrait jouer un r?le clé dans l'avenir de l'Indian IA.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

L'investissement est en plein essor, mais le capital seul ne suffit pas. Avec la montée et la décoloration des évaluations, les investisseurs dans les fonds de capital-risque axés sur l'IA doivent prendre une décision clé: acheter, construire ou partenaire pour gagner un avantage? Voici comment évaluer chaque option et PR

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Se dirigeant vers Agi et

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Pour ces lecteurs qui h

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Par exemple, si vous posez une question à un modèle comme: "Que fait (x) personne à (x) l'entreprise?" Vous pouvez voir une cha?ne de raisonnement qui ressemble à quelque chose comme ceci, en supposant que le système sait comment récupérer les informations nécessaires: localiser les détails sur le CO

Le Sénat a voté le 99-1 mardi matin pour tuer le moratoire après un tumulte de dernière minute de groupes de défense des groupes de défense, des législateurs et des dizaines de milliers d'Américains qui l'ont vu comme une dangereuse dépassement. Ils ne sont pas restés silencieux. Le Sénat écouté.

Les essais cliniques sont un énorme goulot d'étranglement du développement de médicaments, et Kim et Reddy pensaient que le logiciel compatible AI qu'ils avait construit chez PI Health pourrait les aider à les faire plus rapidement et moins cher en élargissant le bassin de patients potentiellement éligibles. Mais le
