亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
目錄
什麼是Saravm?
探索Sarvam的模型
Bulbul-V2有什麼特別之處?
Bulbul-V2的主要特徵
如何通過API訪問Bulbul-V2?
進行第一個API電話
Bulbul-V2在行動中:來自不同語言的聲音
任務1:幽默TTS測試
任務2:旁遮普語到泰米爾語翻譯
任務3:馬拉雅拉姆語到古吉拉特語翻譯
總體表現(xiàn)
用例
Bulbul-V2與其他流行的TTS模型
結論
首頁 科技週邊 人工智慧 Sarvam AI的Bulbul-V2:印度最佳TTS模型

Sarvam AI的Bulbul-V2:印度最佳TTS模型

May 09, 2025 am 10:52 AM

印度是一個多元化的國家,具有豐富的語言,使整個地區(qū)的無縫溝通成為持續(xù)的挑戰(zhàn)。但是,Sarvam的Bulbul-V2正在幫助其先進的文本到語音(TTS)技術彌合這一差距。通過傳達自然,具有真實性的聲音,該模型將本地風味帶到了數(shù)字平臺上,並使您和我這樣的Desi人更具包容性和訪問權限。隨著數(shù)字內容的不斷擴展,Bulbul-V2等工具對於開發(fā)人員和內容創(chuàng)建者而變得越來越重要。在本文中,我將介紹Sarvam AI的TTS探索Bulbul-V2。

目錄

  • 什麼是Saravm?
  • 探索Sarvam的模型
  • Bulbul-V2有什麼特別之處?
  • 如何通過API訪問Bulbul-V2?
  • Bulbul-V2在行動中:來自不同語言的聲音
    • 任務1:幽默TTS測試
    • 任務2:旁遮普語到泰米爾語翻譯
    • 任務3:馬拉雅拉姆語到古吉拉特語翻譯
  • 總體表現(xiàn)
  • 用例
  • Bulbul-V2與其他流行的TTS模型
  • 結論

什麼是Saravm?

Sarvam是一家位於班加羅爾的印度AI初創(chuàng)公司,由機器學習工程師團隊創(chuàng)立。薩爾瓦姆(Sarvam)最近因其在印度大語模型(LLM)上的工作而受到印度政府的認可,專注於開發(fā)針對印度語言量身定制的基於語音的AI模型。它的目標是創(chuàng)造自然聽起來的綜合聲音,以捕捉人類言語的細微差別。與傳統(tǒng)的TTS系統(tǒng)通常聽起來很機器人且無情,Sarvam的模型強調了表達性傳遞,包括自然的暫停和情感環(huán)境。

探索Sarvam的模型

Sarvam提供了高性能的語音服務,重點是自然和表現(xiàn)力的綜合聲音,對會話AI進行了優(yōu)化。他們的旗艦模型Bulbul-V2是專門為指示語言構建的最先進的文本對語音(TTS)系統(tǒng)。它適應各種區(qū)域語言和說話風格,了解周圍文本的上下文線索,並以適當?shù)那楦姓Z調和自然韻律提供語音。 Sarvam提供4種旨在滿足印度語言需求的AI模型:

  • Mayura:一種多語言翻譯模型,支持具有自動語言檢測的英語和11種印度語言,並保留含義和上下文。
  • 薩拉斯(Saras):一種語音到文本模型,可轉錄音頻並在單個管道中翻譯印度語言之間。
  • Saarika:一種用於多種印度語言的高準確性文本到語音模型,可提供清晰且可理解的輸出。
  • Bulbul: Bulbul Sarvam的TTS骨架提供了類似人類的韻律,多種語音個性以及針對印度口音和語言量身定制的實時綜合。

另請閱讀:9個最佳開源文本到語音(TTS)引擎

Bulbul-V2有什麼特別之處?

Bulbul-V2是薩爾瓦姆迄今為止最先進的TTS模型,它以其前身的成功,並通過幾種創(chuàng)新的增強功能為基礎。它支持11種印度語言,並提供帶有真實區(qū)域口音的原始聲音。 Bulbul-V2均設計用於速度和成本效率。它非常適合各種用例。這些範圍從大規(guī)模應用到較小的部署。該模型提供了多種語音個性,例如Meera和Arvind。它支持自定義語音創(chuàng)建,使企業(yè)能夠建立獨特的音頻品牌。

Bulbul-V2的主要特徵

  • 語音控制:對音高的細粒度控制(-1至1),速度(0.3至3)和響度(0.1至3)
  • 樣本率選擇:多個樣本率:8kHz,16kHz,22.05kHz,24kHz。
  • 文本預處理:數(shù)字,日期和混合語言文本的智能標準化
  • 語言支持:使用BCP-47代碼支持11種印度語言。

如何通過API訪問Bulbul-V2?

要開始它,請訪問Sarvam網(wǎng)站,然後單擊Google的標誌:

Sarvam AI的Bulbul-V2:印度最佳TTS模型

現(xiàn)在,一旦您簽名,它將將您重定向到儀表板,在那裡您將獲得價值1000印度盧比的免費積分。

Sarvam AI的Bulbul-V2:印度最佳TTS模型

檢查“訂閱密鑰”部分以復制您的Sarvam的API鍵。

進行第一個API電話

1。安裝所需庫

! PIP安裝Sarvamai
來自Sarvamai進口Sarvamai
來自Sarvamai。
導入基礎64
  • Sarvamai:主要SDK類用於與Sarvam API互動。
  • PAAY:在系統(tǒng)中播放音頻的輔助功能。
  • BASE64: Python的內置模塊從base64解碼音頻(API以這種方式返回音頻)。

2。初始化API客戶端

客戶= sarvamai(
   api_subscription_key =“ your_api_key”
)
  • 創(chuàng)建一個sarvamai客戶對象。

3。轉換文本到語音

響應= client.text_to_speech.convert(
   輸入= [“歡迎來到sarvam ai!”],
   型號=“ bulbul:v2”,
   target_language_code =“ in-in”,
   揚聲器=“ Anushka”,
   音高= 0.5,#範圍:-1至1
   pace = 1.0,#範圍:0.3至3
   響度= 1.2,#範圍:0.1至3
   speep_sample_rate = 8000,#選項:8000,16000,22050,24000
   enable_preprocessing = true#處理數(shù)字,日期和混合文本


)
播放(響應)
  • 模型:使用Bulbul:V2 TTS模型。
  • target_language_code:指定帶有口音的英語(印度)。
  • 音高,節(jié)奏,響度:控制音調,速度和音量。
  • Secrip_sample_rate:選擇音頻樣品質量。 8000 Hz是基本的(電話級)。
  • enable_preprocessing:當正確時,它會自動化輸入(例如,日期/數(shù)字)
  • 揚聲器:使用預定義的聲音“ Anushka”。其他可用選項是:

Sarvam AI的Bulbul-V2:印度最佳TTS模型

4。保存輸出

audio_base64 = response.audios [0]#這是一個str,base64編碼
audio_bytes = base64.b64decode(audio_base64)#解碼為字節(jié)
以F:開放(“ output.wav”,“ wb”)為f:
   F.Write(Audio_bytes)
  • 將基本64編碼的音頻作為輸入並將其解碼為字節(jié)。
  • 將其保存為upput.wav文件。

另請閱讀:指示語言的多語言文本對語音模型

Bulbul-V2在行動中:來自不同語言的聲音

在本節(jié)中,我們將在三個主要任務上測試Bulbul-V2的性能。正如Sarvam AI所說,Bulbul-V2發(fā)出了自然的,類似於人類的聲音,並具有11種語言的區(qū)域口音。因此,要進行測試,我們將檢查它:

  • 文字到語音轉換(以相同的語言(即,旁遮普語到旁遮普語或印地語)到印地語)
  • 接下來的兩個任務是檢查它是否支持語言中的轉換(即印地語,泰米爾語或馬拉雅拉姆語到孟加拉語)

任務1:幽默TTS測試

該動手演示將有助於分析Bulbul-V2如何捕捉印度語言多樣性的聲音和感覺。在此任務中,我將把幽默的文本傳遞給TTS模型,並根據(jù)其響應分析其響應。

提示:“ ???????,????! '''''?????????!'!'! ????!! ??????!!

客戶= sarvamai(
   api_subscription_key =“ api_key”#將您的API密鑰放在此處
)


響應= client.text_to_speech.convert(
   輸入= [提示],
   型號=“ bulbul:v2”,
   target_language_code =“ gu-in”,
   揚聲器=“ karun”,#自然和對話
   音高= 0.3,
   pace = 1.0,
   響度= 1.0,
   specy_sample_rate = 16000,
   enable_preprocessing = true
)


播放(響應)
audio_base64 = response.audios [0]
audio_bytes = base64.b64decode(audio_base64)


打開(“ output_hindi.wav”,“ wb”)作為f:
   F.Write(Audio_bytes)

輸出:

分析

在此任務中,我們使用了一個有趣而幽默的提示來測試Bulbul-V2。該模型流利地說了語言,但是它並沒有捕捉到有趣或嬉戲的語氣。笑話和笑聲聽起來很平坦,缺乏富有表現(xiàn)力的部分。總體而言,清晰度很好,但是情緒傳遞仍然需要一些改進。

任務2:旁遮普語到泰米爾語翻譯

在此任務中,我們將給旁遮普提示,並要求該模型將其更改為泰米爾語。

提示: “`????????????????????????????????????,??????????????????????????,??????????????????????????????????????????????????????????? ???????????????????????????? ??????????????????

來自Sarvamai進口Sarvamai
來自Sarvamai。
導入基礎64


客戶= sarvamai(
   api_subscription_key =“ api_key”#將您的API密鑰放在此處
)
響應= client.text_to_speech.convert(
   輸入= [提示],
   型號=“ bulbul:v2”,
   target_language_code =“ ta-in”,
   揚聲器=“ Manisha”, 
   音高= 0.3,
   pace = 1.0,
   響度= 1.0,
   specy_sample_rate = 16000,
   enable_preprocessing = true
)
播放(響應)
audio_base64 = response.audios [0]
audio_bytes = base64.b64decode(audio_base64)


打開(“ output_tamil.wav”,“ wb”)作為f:
   F.Write(Audio_bytes)

輸出:

分析

為此,我提供了旁遮普提示,並要求Bulbul-V2生成泰米爾語演講。但是,輸出始於旁遮普邦,然後突然開始泰米爾語,而不是給出光滑的泰米爾語響應。這表明該模型尚未執(zhí)行翻譯。它僅讀取輸入,因此缺乏在泰米爾語中正確翻譯的能力。

任務3:馬拉雅拉姆語到古吉拉特語翻譯

在此任務中,我們將給Malayalam提示,並要求該模型將其更改為Gujarati。

提示: “”???????? ??????! ! ???! ?????! ?????! ???????!

來自Sarvamai進口Sarvamai
來自Sarvamai。
導入基礎64


客戶= sarvamai(
   api_subscription_key =“ your_api_key”#將您的API密鑰放在此處
)


響應= client.text_to_speech.convert(
   輸入= [提示],
   型號=“ bulbul:v2”,
   target_language_code =“ gu-in”,
   揚聲器=“ abhilash”, 
   音高= 0.3,
   pace = 1.0,
   響度= 1.0,
   specy_sample_rate = 16000,
   enable_preprocessing = true
)
播放(響應)
audio_base64 = response.audios [0]
audio_bytes = base64.b64decode(audio_base64)


開放(“ output_gujrati.wav”,“ wb”)為f:
   F.Write(Audio_bytes)

輸出:

分析

對於此任務,我提供了一個馬拉雅拉姆語提示,並要求該模型生成古吉拉特語演講。但是,該模型完全無法將提示轉換為古吉拉特語。而不是這樣,它給出了平滑的馬拉雅拉姆語作為響應。這表明該模型尚未執(zhí)行翻譯。為了準確的語言轉換,必須在將文本傳遞給TTS模式之前包括外部翻譯步驟。

總體表現(xiàn)

任務 輸入語言 目標語言 效果如何 發(fā)生了什麼 下一步該怎麼辦
1 有趣的提示(英語) 英語 好的 說話清晰,平穩(wěn),但缺乏幽默或活潑。 提高聲音以更好地表達諸如笑聲之類的情緒。
2 旁遮普 泰米爾人 不好 從旁遮普人開始,然後突然轉到泰米爾語中句。 在TTS之前使用適當?shù)姆g服務。
3 馬拉雅拉姆語 古吉拉特語 失敗的 產(chǎn)出仍在馬拉雅拉姆語;沒有翻譯。 在使用TTS之前,請手動翻譯文本。

必須閱讀:GPT 4O vs INDIC LLMS - 誰將贏得語言戰(zhàn)爭?

用例

Bulbul-V2的快速自然文本到語音功能使其在許多不涉及語言轉換的現(xiàn)實情況下非常合適。以下是一些可以使用的實踐示例:

  • 輔助技術: TTS將文本轉換為視覺受損用戶的語音。用這種技術提供動力的屏幕閱讀器可以為用戶提供自然而引人入勝的體驗。隨之而來的是,TTS還可以幫助非語言個體進行交流。
  • 電子學習和內容創(chuàng)建: TTS模型可用於製作有聲讀物,其他教育材料和視頻配音。這有助於使學習變得更具吸引力,因為個人可以用母語使用它,並且還使其更具包容性。
  • 語言翻譯與本地化: TTS技術支持創(chuàng)建本地化內容。它為應用程序提供實時翻譯。 Bulbul-V2的延遲較低,使其適用於實時應用。其中包括會議解釋協(xié)助和實時客戶服務互動。教育平臺還可以使用它來幫助個人正確聽到。

Bulbul-V2與其他流行的TTS模型

Bulbul-V2在TTS模型的領域中給人留下了深刻的印象,尤其是對於印度市場。它在其他方面的主要優(yōu)勢是,它支持11種印度語言,這些語言涵蓋了印度次大陸的大多數(shù)。

在比較Bulbul-V2與Elevenlab等全球競爭對手的同時。 Bulbul-V2以其快速的性能脫穎而出,在0.398秒內交付P90延遲,大約是Elevenlab的兩倍。

Bulbul-V2還提供了一個參數(shù),例如控制音高,節(jié)奏,響度和樣本速率,以及數(shù)字和日期的智能處理。它不僅與國際TTS領導者保持同步,而且還設定了速度,效率和負擔能力的新基準。

結帳:其他流行的Indion LLMS

結論

Bulbul-V2在印度開發(fā)自己的LLM的旅程中取得了重大飛躍,尤其是通過傳遞快速,自然和區(qū)域性真實的聲音,尤其是在測試到語音模型的領域。它的出色速度和負擔能力使其可容納廣泛的應用程序,從輔助設備到內容創(chuàng)建都不同。儘管目前不支持語言之間的自動翻譯,但通過將Bulbul-V2與Google Translate(例如Google Translate)結合使用,可以過度使用。隨著表現(xiàn)力和擴展功能的持續(xù)改進,以建立更具吸引力的語音體驗。這樣,Bulbul-V2將在印度AI的未來中發(fā)揮關鍵作用。

以上是Sarvam AI的Bulbul-V2:印度最佳TTS模型的詳細內容。更多資訊請關注PHP中文網(wǎng)其他相關文章!

本網(wǎng)站聲明
本文內容由網(wǎng)友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權的內容,請聯(lián)絡admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
Kimi K2:最強大的開源代理模型 Kimi K2:最強大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時候破壞了Genai行業(yè)的大量開源中國模型嗎?儘管DeepSeek佔據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

Grok 4 vs Claude 4:哪個更好? Grok 4 vs Claude 4:哪個更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處於設計理念和部署平臺的相反端,但他們卻在

今天已經(jīng)在我們中間走了10個驚人的人形機器人 今天已經(jīng)在我們中間走了10個驚人的人形機器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個。實際上,可以被認為是真正有用的,類人類機器的第一波。 近年來,有許多原型和生產(chǎn)模型從T中走出來

上下文工程是' new'及時的工程 上下文工程是' new'及時的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認為是與大語言模型(LLM)互動的關鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

建立Langchain健身教練:您的AI私人教練 建立Langchain健身教練:您的AI私人教練 Jul 05, 2025 am 09:06 AM

許多人充滿熱情地打入健身房,並相信自己正在正確實現(xiàn)自己的健身目標。但是由於飲食計劃差和缺乏方向,結果不存在。僱用私人教練AL

6個任務Manus AI可以在幾分鐘內完成 6個任務Manus AI可以在幾分鐘內完成 Jul 06, 2025 am 09:29 AM

我相信您必須了解通用的AI代理Manus。它是幾個月前推出的,在過去的幾個月中,他們?yōu)橄到y(tǒng)添加了幾個新功能。現(xiàn)在,您可以生成視頻,創(chuàng)建網(wǎng)站並做很多MO

Leia的浸入式移動應用將3D深度帶入日常照片 Leia的浸入式移動應用將3D深度帶入日常照片 Jul 09, 2025 am 11:17 AM

基於Leia專有的神經(jīng)深度引擎,應用程序流程靜止圖像,並添加了自然深度以及模擬運動(例如Pans,Zooms和Alallax Effects),以創(chuàng)建簡短的視頻捲軸,從而給人以踏入SCE的印象

7種AI代理的7種類型是什麼? 7種AI代理的7種類型是什麼? Jul 11, 2025 am 11:08 AM

想像一些複雜的東西,例如AI引擎準備提供有關米蘭新服裝系列的詳細反饋,或者自動市場分析用於全球運營的企業(yè),或者智能係統(tǒng)管理大型車隊。

See all articles