亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

Table des matières
Table des matières
Qu'est-ce que Saravm?
Explorer les modèles de Sarvam
Quelle est la particularité de Bulbul-V2?
Caractéristiques clés de Bulbul-V2
Comment accéder à Bulbul-V2 via API?
Faire le premier appel API
Bulbul-V2 en action: voix de différentes langues
Tache 1: Test de TTS humoristique
Tache 2: Punjabi à la traduction tamoule
Tache 3: traduction malayalam à gujarati
Performance globale
Cas d'utilisation
Bulbul-V2 vs d'autres modèles TTS populaires
Conclusion
Maison Périphériques technologiques IA Bulbul-V2 par Sarvam AI: Inde & # 039; s MEILLEUR MODèLE TTS

Bulbul-V2 par Sarvam AI: Inde & # 039; s MEILLEUR MODèLE TTS

May 09, 2025 am 10:52 AM

L'Inde est un pays diversifié avec une riche tapisserie de langues, faisant de la communication transparente entre les régions un défi persistant. Cependant, Bulbul-V2 de Sarvam contribue à combler cette lacune avec sa technologie avancée de texte / dispection (TTS). En livrant des voix naturelles et authentiques régionalement, le modèle apporte la saveur locale aux plates-formes numériques et rend l'IA plus inclusive et accessible pour des desi comme vous et moi. Alors que le contenu numérique continue de se développer, des outils comme Bulbul-V2 deviennent de plus en plus vitaux pour les développeurs et les créateurs de contenu. Dans cet article, je couvrirai l'exploration de Bulbul-V2 de Sarvam AI pour TTS.

Table des matières

  • Qu'est-ce que Saravm?
  • Explorer les modèles de Sarvam
  • Quelle est la particularité de Bulbul-V2?
  • Comment accéder à Bulbul-V2 via API?
  • Bulbul-V2 en action: voix de différentes langues
    • Tache 1: Test de TTS humoristique
    • Tache 2: Punjabi à la traduction tamoule
    • Tache 3: traduction malayalam à gujarati
  • Performance globale
  • Cas d'utilisation
  • Bulbul-V2 vs d'autres modèles TTS populaires
  • Conclusion

Qu'est-ce que Saravm?

Sarvam est une startup indienne de l'IA basée à Bengaluru, fondée par une équipe d'ingénieurs d'apprentissage automatique. Récemment reconnu par le gouvernement indien pour ses travaux sur les modèles indiens de grande langue (LLMS), Sarvam se concentre sur le développement de modèles d'IA basés sur la parole adaptés aux langues indiennes. Son objectif est de créer des voix synthétiques au son naturel qui capturent les nuances de la parole humaine. Contrairement aux systèmes TTS conventionnels qui semblent souvent robotiques et sans émotion, les modèles de Sarvam mettent l'accent sur la livraison expressive, y compris les pauses naturelles et le contexte émotionnel.

Explorer les modèles de Sarvam

Sarvam fournit des services de parole haute performance avec un accent sur les voix synthétisées naturelles et expressives, optimisées pour l'IA conversationnelle. Leur modèle phare, Bulbul-V2, est un système de texte à dispection (TTS) de pointe construit spécifiquement pour les langues indic. Il s'adapte à diverses langues régionales et styles de parole, comprend les indices contextuels du texte environnant et prononce la parole avec un ton émotionnel et une prosodie naturels appropriés. Sarvam propose 4 modèles d'IA con?us pour répondre à divers besoins en langue indienne:

  • Mayura: un modèle de traduction multilingue qui prend en charge l'anglais et 11 langues indiennes avec détection automatique de la langue, préserver le sens et le contexte.
  • Saras: un modèle de parole à texte qui transcrit l'audio et se traduit entre les langues indiennes en un seul pipeline.
  • SAARIKA: Un modèle de texte vocale à haute précision pour plusieurs langues indiennes, offrant une production claire et intelligible.
  • Bulbul: L'équipement TTS de Sarvam, Bulbul propose une prosodie humaine, des personnalités de la voix multiple et une synthèse en temps réel adaptées aux accents et aux langues indiennes.

Lire aussi: 9 meilleurs moteurs de texte vocale open source (TTS)

Quelle est la particularité de Bulbul-V2?

Bulbul-V2 est le modèle TTS le plus avancé de Sarvam à ce jour, en s'appuyant sur le succès de son prédécesseur avec plusieurs améliorations innovantes. Il soutient 11 langues indiennes, livrant des voix à consonance native avec des accents régionaux authentiques. Bulbul-V2 est con?u pour la vitesse et la rentabilité. Il est bien adapté pour un large éventail de cas d'utilisation. Celles-ci vont des applications à grande échelle aux déploiements plus petits. Le modèle propose plusieurs personnalités de la voix, telles que Meera et Arvind. Il prend en charge la création de voix personnalisée qui permet aux entreprises de créer une marque audio distincte.

Caractéristiques clés de Bulbul-V2

  • Contr?le vocal: contr?le fin sur la hauteur (-1 à 1), le rythme (0,3 à 3) et le volume (0,1 à 3)
  • Options de taux d'échantillonnage: Taux d'échantillonnage multiples: 8 kHz, 16 kHz, 22,05 kHz, 24 kHz.
  • Prétraitement du texte: normalisation intelligente des nombres, dates et texte en langue mixte
  • Support linguistique: support de 11 langues indiennes avec des codes BCP-47.

Comment accéder à Bulbul-V2 via API?

Pour commencer, allez sur le site Web de Sarvam et cliquez sur Sign avec Google:

Bulbul-V2 par Sarvam AI: Inde & # 039; s MEILLEUR MODèLE TTS

Maintenant, une fois que vous aurez signé, il vous redirigera vers le tableau de bord, où vous obtiendrez des crédits gratuits d'une valeur de 1000 INR.

Bulbul-V2 par Sarvam AI: Inde & # 039; s MEILLEUR MODèLE TTS

Vérifiez la section ?clé d'abonnement? pour copier la clé API de votre Sarvam.

Faire le premier appel API

1. Installation des bibliothèques requises

 ! Pip installer Sarvamai
de Sarvamai Import Sarvamai
de Sarvamai.Play Play Importation
Importer la base64
  • Sarvamai: la classe SDK principale utilisée pour interagir avec l'API Sarvam.
  • PAAY: une fonction d'assistance qui joue audio dans votre système.
  • Base64: le module intégré de Python pour décoder l'audio de Base64 (l'API renvoie l'audio de cette fa?on).

2. Initialisation du client API

 Client = Sarvamai (
   api_subscription_key = "your_api_key"
)
  • Crée un objet client Sarvamai.

3. Convertir du texte à la dissection

 réponse = client.text_to_speech.convert (
   entrées = ["Bienvenue à Sarvam AI!"],
   modèle = "bulbul: v2",
   Target_Language_Code = "en-in",
   haut-parleur = "anushka",
   tangage = 0,5, # plage: -1 à 1
   rythme = 1,0, # plage: 0,3 à 3
   Grandment = 1,2, # Plage: 0,1 à 3
   Speech_sample_rate = 8000, # Options: 8000, 16000, 22050, 24000
   activer_preprocessing = true # gère les nombres, les dates et le texte mixte


)
jouer (réponse)
  • Modèle: utilise le modèle Bulbul: V2 TTS.
  • Target_Language_code: Spécifie l'anglais (Inde) avec Accent (en-in).
  • Pitch, rythme, intensité: contr?le le ton, la vitesse et le volume.
  • Speech_sample_rate: choisit la qualité de l'échantillon audio. 8000 Hz est basique (niveau de téléphonie).
  • activer_preprocessing: Lorsqu'il est vrai, il normalise automatiquement l'entrée (par exemple, dates / nombres)
  • Conférencier: utilise la voix prédéfinie ?Anushka?. Les autres options disponibles sont:

Bulbul-V2 par Sarvam AI: Inde & # 039; s MEILLEUR MODèLE TTS

4. Enregistrer la sortie

 Audio_Base64 = Response.Audios [0] # Ceci est un STR, codé de base64
Audio_bytes = base64.b64decode (Audio_Base64) # Decode to octets
avec Open ("output.wav", "wb") comme f:
   F.Write (Audio_Bytes)
  • Prend l'audio codé en base64 en entrée et le décode en octets.
  • L'enregistre en tant que fichier Output.wav.

Lire aussi: Modèles de texte vocale multilingue pour les langues indic

Bulbul-V2 en action: voix de différentes langues

Dans cette section, nous allons tester les performances de Bulbul-V2 sur trois taches majeures. Comme le dit Sarvam Ai que Bulbul-V2 offre des voix naturelles et humaines avec des accents régionaux dans 11 langues. Donc, pour tester cela, nous le vérifierons:

  • Conversion du texte en parole (dans la même langue (c'est-à-dire, punjabi en punjabi ou en hindi en hindi)
  • Les 2 taches suivantes consistent à vérifier si elle prend en charge la conversion inter-langage ou non, (c'est-à-dire hindi en tamoul ou malayalam en bengali)

Tache 1: Test de TTS humoristique

Cette démo pratique aidera à analyser à quel point Bulbul-V2 capture le son et la sensation de la diversité linguistique indienne. Dans cette tache, je passerai un texte humoristique au modèle TTS et analyserai sa réponse en fonction de sa réponse.

Invite: ? ?? ???? ???????? ???? ??? ??-???, ????! ????! ????? ????, '??? ??? ?? ???' ?? ???? ???? ????, '???? ???? ?? ???? ????? ?? ??? ??!' ????! ??????! ?? ??? ???, ???? ?? ???? ??????? ?? ????? ?????? ?????? ?????? ????, ?? ?????????? !

 Client = Sarvamai (
   api_subscription_key = "api_key" # Mettez votre clé API ici
)


réponse = client.text_to_speech.convert (
   entrées = [invite],
   modèle = "bulbul: v2",
   Target_Language_Code = "Gu-in",
   Speaker = "Karun", # naturel et conversationnel
   tangage = 0,3,
   rythme = 1,0,
   Grandment = 1,0,
   speech_sample_rate = 16000,
   activer_preprocessing = true
)


jouer (réponse)
Audio_base64 = réponse.audios [0]
Audio_bytes = base64.b64decode (Audio_Base64)


avec open ("output_hindi.wav", "wb") comme f:
   F.Write (Audio_Bytes)

Sortir:

Analyse

Dans cette tache, nous avons utilisé une invite dr?le et humoristique pour tester Bulbul-V2. Le modèle a parlé couramment et a bien géré le langage, cependant, il n'a pas capturé le ton dr?le ou ludique. Les blagues et les rires semblaient à plat et manquant de la partie expressive. Dans l'ensemble, la clarté était bonne, mais la livraison émotionnelle a encore besoin d'amélioration.

Tache 2: Punjabi à la traduction tamoule

Dans cette tache, nous donnerons une invite punjabi et demanderons au modèle de le changer en tamoul.

Prompt: “ ?? ?????? ?? ?? ???? ??? ???? ??? ??? ???? ??? ??? ???? ????? ??, ?? ???? ??? ??? ??? ??? ?? ???? ???, ???? ?? ??? ????? ???? ?? ????? ??? ??? ????? ?? ?? ?????? '?? ??? ???? ??? ?? ?? ???? ?? ??? ????? ??????, ?? ??? ???? ??????? '?? ??? ??????? ?????? ?? ???? ????? ??? ??? ?? ?????? ?????? ?????? ?????? ?????? ?????? ??????

 de Sarvamai Import Sarvamai
de Sarvamai.Play Play Importation
Importer la base64


Client = Sarvamai (
   api_subscription_key = "api_key" # Mettez votre clé API ici
)
réponse = client.text_to_speech.convert (
   entrées = [invite],
   modèle = "bulbul: v2",
   Target_Language_Code = "Ta-in",
   haut-parleur = "manisha", 
   tangage = 0,3,
   rythme = 1,0,
   Grandment = 1,0,
   speech_sample_rate = 16000,
   activer_preprocessing = true
)
jouer (réponse)
Audio_base64 = réponse.audios [0]
Audio_bytes = base64.b64decode (Audio_Base64)


avec open ("output_tamil.wav", "wb") comme f:
   F.Write (Audio_Bytes)

Sortir:

Analyse

Pour cette tache, j'ai fourni une invite punjabi et demandé à Bulbul-V2 de générer une parole tamoule. Cependant, la sortie commence par le punjabi puis commence soudainement tamoul, au lieu de donner une réponse tamoule fluide. Cela montre que le modèle n'a pas encore effectué de traduction. Il ne lit que l'entrée et, par conséquent, il n'a pas la capacité de traduire correctement en tamoul.

Tache 3: traduction malayalam à gujarati

Dans cette tache, nous donnerons une invite malayalam et demanderons au modèle de le changer en gujarati.

Invite: ” ??????? ??? ???????????????? ?????? ???????? ?????????????! ??? ?????? ?????????? ????????????! ????? ??????! ??????? ??????? ???? ????? ????? ????????????? ???????????????! ?????? ????????? ???????????? ? ??????? ???? ??????? ??????????? ??????????? ???????????? ??????????!"

 de Sarvamai Import Sarvamai
de Sarvamai.Play Play Importation
Importer la base64


Client = Sarvamai (
   api_subscription_key = "your_api_key" # Mettez votre clé API ici
)


réponse = client.text_to_speech.convert (
   entrées = [invite],
   modèle = "bulbul: v2",
   Target_Language_Code = "Gu-in",
   haut-parleur = "abhilash", 
   tangage = 0,3,
   rythme = 1,0,
   Grandment = 1,0,
   speech_sample_rate = 16000,
   activer_preprocessing = true
)
jouer (réponse)
Audio_base64 = réponse.audios [0]
Audio_bytes = base64.b64decode (Audio_Base64)


avec open ("output_gujrati.wav", "wb") comme f:
   F.Write (Audio_Bytes)

Sortir:

Analyse

Pour cette tache, j'ai fourni une invite malayalam et demandé au modèle de générer une parole gujarati. Cependant, le modèle ne parvient pas à traduire l'invite vers Gujarati. Au lieu de cela, il donne un malayalam lisse en réponse. Cela montre que le modèle n'a pas encore effectué de traduction. Pour une conversion précise du langage, une étape de traduction externe devrait être incluse avant de passer le texte aux modes TTS.

Performance globale

Tache Langue d'entrée Langue cible Comment ?a a bien fonctionné Ce qui s'est passé Que faire ensuite
1 Invite dr?le (anglais) Anglais Bien Parla clairement et en douceur, mais manquait d'humour ou de vivacité. Améliorez la voix pour mieux exprimer des émotions comme le rire.
2 Punjabi Tamoul Pas bon Commencé en punjabi, puis est soudainement passé à la phrase tamoule. Utilisez un service de traduction approprié avant TTS.
3 Malayalam Gujarati échoué La sortie était encore en malayalam; aucune traduction ne s'est produite. Traduire le texte manuellement avant d'utiliser TTS.

Doit lire: GPT 4O vs indic LLMS - Qui gagnera la guerre linguistique?

Cas d'utilisation

Les capacités rapides et naturelles de Text-the-Speech de Bulbul-V2 en font un bon ajustement dans de nombreux cas du monde réel où la conversion inter-langue n'est pas impliquée. Voici quelques exemples pratiques où cela peut être utilisé:

  • Technologie d'assistance: TTS transforme le texte en discours pour les utilisateurs contre visuellement. Les lecteurs d'écran alimentés par ce type de technologie peuvent offrir une expérience naturelle et engageante aux utilisateurs. Parallèlement à cela, les TT peuvent également aider les individus non verbaux à communiquer.
  • Apprentissage en ligne et création de contenu: les modèles TTS peuvent être utilisés pour fabriquer des livres audio, d'autres matériels éducatifs et une voix off pour les vidéos. Cela aide à rendre l'apprentissage plus engageant, car les individus peuvent l'utiliser dans leur langue maternelle, et le rend également plus inclusif.
  • Traduction et localisation linguistiques: la technologie TTS soutient la création de contenu localisé. Il permet une traduction en temps réel pour les applications. Bulbul-V2 a une faible latence, ce qui le rend adapté aux applications en temps réel. Il s'agit notamment de l'assistance d'interprétation des conférences et de l'interaction en direct du service client. Les plateformes éducatives peuvent également l'utiliser pour aider les individus à entendre correctement.

Bulbul-V2 vs d'autres modèles TTS populaires

Bulbul-V2 fait une forte impression dans le domaine des modèles TTS, en particulier pour le marché indien. Son principal avantage sur les autres est qu'il soutient 11 langues indiennes indigènes, qui couvrent la majorité du sous-continent indien.

Tout en comparant Bulbul-V2 avec des rivaux mondiaux comme les Elevenlabs. Bulbul-V2 se démarque avec ses performances rapides, avec la latence de la livraison P90 en 0,398 seconde, ce qui est environ deux fois plus rapide que onzelabs.

Bulbul-V2 offre également un paramètre comme le contr?le sur la hauteur, le rythme, le volume et la fréquence d'échantillonnage, ainsi que le traitement intelligent pour les nombres et les dates. Il s'agit non seulement de suivre les dirigeants internationaux du TTS, mais aussi de créer de nouvelles références en vitesse, en efficacité et en abordabilité.

Découvrez: Autres LLMS indicatifs populaires

Conclusion

Bulbul-V2 fait un bond en avant dans le parcours de l'Inde pour développer son propre LLM, en particulier dans le domaine des modèles d'essai-végétal en livrant des voix rapides, naturelles et régionales. Sa vitesse exceptionnelle et son prix abordable le rendent accessible à un large éventail d'applications, variant des appareils d'assistance à la création de contenu. Bien qu'il n'ait actuellement pas de prise en charge de la traduction automatique entre les langues, cela peut être exagéré en combinant Bulbul-V2 avec des outils externes comme Google Translate. Avec des améliorations continues de l'expressivité et des fonctionnalités élargies pour créer des expériences vocales plus engageantes. Avec cela, Bulbul-V2 devrait jouer un r?le clé dans l'avenir de l'Indian IA.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefa?on, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

L'investisseur de l'IA est resté à l'arrêt? 3 chemins stratégiques pour acheter, construire ou s'associer avec les fournisseurs d'IA L'investisseur de l'IA est resté à l'arrêt? 3 chemins stratégiques pour acheter, construire ou s'associer avec les fournisseurs d'IA Jul 02, 2025 am 11:13 AM

L'investissement est en plein essor, mais le capital seul ne suffit pas. Avec la montée et la décoloration des évaluations, les investisseurs dans les fonds de capital-risque axés sur l'IA doivent prendre une décision clé: acheter, construire ou partenaire pour gagner un avantage? Voici comment évaluer chaque option et PR

AGI et AI Superintelligence vont fortement frapper la barrière d'hypothèse du plafond humain AGI et AI Superintelligence vont fortement frapper la barrière d'hypothèse du plafond humain Jul 04, 2025 am 11:10 AM

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Se dirigeant vers Agi et

Kimi K2: le modèle agentique open source le plus puissant Kimi K2: le modèle agentique open source le plus puissant Jul 12, 2025 am 09:16 AM

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

Prévision future d'une explosion de renseignement massive sur la voie de l'IA à AGI Prévision future d'une explosion de renseignement massive sur la voie de l'IA à AGI Jul 02, 2025 am 11:19 AM

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Pour ces lecteurs qui h

Grok 4 vs Claude 4: Quel est le meilleur? Grok 4 vs Claude 4: Quel est le meilleur? Jul 12, 2025 am 09:37 AM

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Cha?ne de pensée pour le raisonnement Les modèles peuvent ne pas fonctionner à long terme Cha?ne de pensée pour le raisonnement Les modèles peuvent ne pas fonctionner à long terme Jul 02, 2025 am 11:18 AM

Par exemple, si vous posez une question à un modèle comme: "Que fait (x) personne à (x) l'entreprise?" Vous pouvez voir une cha?ne de raisonnement qui ressemble à quelque chose comme ceci, en supposant que le système sait comment récupérer les informations nécessaires: localiser les détails sur le CO

Le Sénat tue l'interdiction de l'IA au niveau de l'état à 10 ans niché dans le projet de loi budgétaire de Trump Le Sénat tue l'interdiction de l'IA au niveau de l'état à 10 ans niché dans le projet de loi budgétaire de Trump Jul 02, 2025 am 11:16 AM

Le Sénat a voté le 99-1 mardi matin pour tuer le moratoire après un tumulte de dernière minute de groupes de défense des groupes de défense, des législateurs et des dizaines de milliers d'Américains qui l'ont vu comme une dangereuse dépassement. Ils ne sont pas restés silencieux. Le Sénat écouté.

Cette startup a construit un h?pital en Inde pour tester son logiciel AI Cette startup a construit un h?pital en Inde pour tester son logiciel AI Jul 02, 2025 am 11:14 AM

Les essais cliniques sont un énorme goulot d'étranglement du développement de médicaments, et Kim et Reddy pensaient que le logiciel compatible AI qu'ils avait construit chez PI Health pourrait les aider à les faire plus rapidement et moins cher en élargissant le bassin de patients potentiellement éligibles. Mais le

See all articles