GooeyAI · nikochiko · Aug 28, 2025 · Aug 28, 2025 · coderabbitai · Aug 28, 2025
diff --git a/daras_ai_v2/asr.py b/daras_ai_v2/asr.py
@@ -110,6 +110,15 @@
     "uz": "uzbek", "vi": "vietnamese", "cy": "welsh", "yi": "yiddish", "yo": "yoruba",
 }  # fmt: skip
 
+GEMINI_SUPPORTED = {
+   "af", "sq", "am", "ar", "hy", "as", "az", "eu", "be", "bn", "bs", "bg", "ca", "ceb", "zh",  "co", "hr", "cs", "da",
+    "dv", "nl", "en", "eo", "et", "fil", "fi", "fr", "fy", "gl", "ka", "de", "el", "gu", "ht", "ha", "haw", "iw", "hi",
+    "hmn", "hu", "is", "ig", "id", "ga", "it", "ja", "jv", "kn", "kk", "km", "ko", "kri", "ku", "ky", "lo", "la", "lv",
+    "lt", "lb", "mk", "mg", "ms", "ml", "mt", "mi", "mr", "mni-Mtei", "mn", "my", "ne", "no", "ny", "or", "ps",  "fa",
+    "pl", "pt", "pa", "ro", "ru", "sm", "gd", "sr", "st", "sn", "sd", "si", "sk", "sl", "so", "es", "su", "sw", "sv",
+    "tg", "ta", "te", "th", "tr", "uk", "ur", "ug", "uz", "vi", "cy", "xh", "yi", "yo", "zu"
+}  # fmt: skip
+
 # https://huggingface.co/facebook/seamless-m4t-v2-large#supported-languages
 # For now, below are listed the languages that support ASR. Note that Seamless only accepts ISO 639-3 codes.
 SEAMLESS_v2_ASR_SUPPORTED = {
@@ -272,6 +281,9 @@ class AsrModels(Enum):
     whisper_large_v3 = "Whisper Large v3 (openai)"
     gpt_4_o_audio = "GPT-4o (openai)"
     gpt_4_o_mini_audio = "GPT-4o mini (openai)"
+    gemini_2_5_flash_lite = "Gemini 2.5 Flash Lite (Google)"
+    gemini_2_5_flash = "Gemini 2.5 Flash (Google)"
+    gemini_2_5_pro = "Gemini 2.5 Pro (Google)"
     gcp_v1 = "Google Cloud V1"
     usm = "Chirp / USM (Google V2)"
     deepgram = "Deepgram"
@@ -336,6 +348,9 @@ def supports_input_prompt(self) -> bool:
 
 
 asr_model_ids = {
+    AsrModels.gemini_2_5_flash_lite: "gemini-2.5-flash-lite",
+    AsrModels.gemini_2_5_flash: "gemini-2.5-flash",
+    AsrModels.gemini_2_5_pro: "gemini-2.5-pro",
     AsrModels.gpt_4_o_audio: "gpt-4o-transcribe",
     AsrModels.gpt_4_o_mini_audio: "gpt-4o-mini-transcribe",
     AsrModels.whisper_large_v3: "vaibhavs10/incredibly-fast-whisper:3ab86df6c8f54c11309d4d1f930ac292bad43ace52d10c80d87eb258b3c9f79c",
@@ -365,6 +380,9 @@ def supports_input_prompt(self) -> bool:
 }
 
 asr_supported_languages = {
+    AsrModels.gemini_2_5_flash_lite: GEMINI_SUPPORTED,
+    AsrModels.gemini_2_5_flash: GEMINI_SUPPORTED,
+    AsrModels.gemini_2_5_pro: GEMINI_SUPPORTED,
     AsrModels.whisper_large_v3: WHISPER_LARGE_V3_SUPPORTED,
     AsrModels.gpt_4_o_audio: WHISPER_LARGE_V2_SUPPORTED,  # https://platform.openai.com/docs/guides/speech-to-text#supported-languages
     AsrModels.gpt_4_o_mini_audio: WHISPER_LARGE_V2_SUPPORTED,
@@ -1284,6 +1302,38 @@ def run_asr(
             prompt=input_prompt,
             response_format="text",
         )
+    elif selected_model in {
+        AsrModels.gemini_2_5_flash_lite,
+        AsrModels.gemini_2_5_flash,
+        AsrModels.gemini_2_5_pro,
+    }:
+        from daras_ai_v2.language_model import CHATML_ROLE_USER, call_gemini_api
+
+        if language:
+            lobj = langcodes.Language.get(language.strip())
+            prompt = f"Transcribe this audio without translation. The spoken language is {lobj.display_name()}."
+        else:
+            prompt = "Transcribe this audio."
+
+        return call_gemini_api(
+            model_id=asr_model_ids[selected_model],
+            contents=[
+                {
+                    "role": CHATML_ROLE_USER,
+                    "parts": [
+                        {
+                            "fileData": {
+                                "fileUri": audio_url,
+                                "mimeType": "audio/wav",
+                            }
+                        },
+                        {"text": prompt},
+                    ],
+                }
+            ],
+            max_output_tokens=16384,
+            temperature=0.0,
+        )
-    elif selected_model in {
-        AsrModels.gemini_2_5_flash_lite,
-        AsrModels.gemini_2_5_flash,
-        AsrModels.gemini_2_5_pro,
-    }:
-        from daras_ai_v2.language_model import CHATML_ROLE_USER, call_gemini_api
-
-        if language:
-            lobj = langcodes.Language.get(language.strip())
-            prompt = f"Transcribe this audio without translation. The spoken language is {lobj.display_name()}."
-        else:
-            prompt = "Transcribe this audio."
-
-        return call_gemini_api(
-            model_id=asr_model_ids[selected_model],
-            contents=[
-                {
-                    "role": CHATML_ROLE_USER,
-                    "parts": [
-                        {
-                            "fileData": {
-                                "fileUri": audio_url,
-                                "mimeType": "audio/wav",
-                            }
-                        },
-                        {"text": prompt},
-                    ],
-                }
-            ],
-            max_output_tokens=16384,
-            temperature=0.0,
-        )
+    elif selected_model in {
+        AsrModels.gemini_2_5_flash_lite,
+        AsrModels.gemini_2_5_flash,
+        AsrModels.gemini_2_5_pro,
+    }:
+        from daras_ai_v2.language_model import CHATML_ROLE_USER, call_gemini_api
+
+        if language:
+            lobj = langcodes.Language.get(language.strip())
+            prompt = f"Transcribe this audio without translation. The spoken language is {lobj.display_name()}."
+        else:
+            prompt = "Transcribe this audio."
+        if speech_translation_target:
+            tgt = langcodes.Language.get(speech_translation_target.strip())
+            prompt = f"Transcribe this audio and then translate the transcript into {tgt.display_name()}. Return only the translated text."
+
+        return call_gemini_api(
+            model_id=asr_model_ids[selected_model],
+            contents=[
+                {
+                    "role": CHATML_ROLE_USER,
+                    "parts": [
+                        {
+                            "fileData": {
+                                "fileUri": gs_url_to_uri(audio_url),
+                                "mimeType": "audio/wav",
+                            }
+                        },
+                        {"text": prompt},
+                    ],
+                }
+            ],
+            max_output_tokens=16384,
+            temperature=0.0,
+        )
-    elif selected_model in {
-        AsrModels.gemini_2_5_flash_lite,
-        AsrModels.gemini_2_5_flash,
-        AsrModels.gemini_2_5_pro,
-    }:
-        from daras_ai_v2.language_model import CHATML_ROLE_USER, call_gemini_api
-
-        if language:
-            lobj = langcodes.Language.get(language.strip())
-            prompt = f"Transcribe this audio without translation. The spoken language is {lobj.display_name()}."
-        else:
-            prompt = "Transcribe this audio."
-
-        return call_gemini_api(
-            model_id=asr_model_ids[selected_model],
-            contents=[
-                {
-                    "role": CHATML_ROLE_USER,
-                    "parts": [
-                        {
-                            "fileData": {
-                                "fileUri": audio_url,
-                                "mimeType": "audio/wav",
-                            }
-                        },
-                        {"text": prompt},
-                    ],
-                }
-            ],
-            max_output_tokens=16384,
-            temperature=0.0,
-        )
+    elif selected_model in {
+        AsrModels.gemini_2_5_flash_lite,
+        AsrModels.gemini_2_5_flash,
+        AsrModels.gemini_2_5_pro,
+    }:
+        from daras_ai_v2.language_model import CHATML_ROLE_USER, call_gemini_api
+
+        if language:
+            lobj = langcodes.Language.get(language.strip())
+            prompt = f"Transcribe this audio without translation. The spoken language is {lobj.display_name()}."
+        else:
+            prompt = "Transcribe this audio."
+        if speech_translation_target:
+            tgt = langcodes.Language.get(speech_translation_target.strip())
+            prompt = f"Transcribe this audio and then translate the transcript into {tgt.display_name()}. Return only the translated text."
+
+        return call_gemini_api(
+            model_id=asr_model_ids[selected_model],
+            contents=[
+                {
+                    "role": CHATML_ROLE_USER,
+                    "parts": [
+                        {
+                            "fileData": {
+                                "fileUri": gs_url_to_uri(audio_url),
+                                "mimeType": "audio/wav",
+                            }
+                        },
+                        {"text": prompt},
+                    ],
+                }
+            ],
+            max_output_tokens=16384,
+            temperature=0.0,
+        )
     # call one of the self-hosted models
     else:
         kwargs = {}

diff --git a/daras_ai_v2/language_model.py b/daras_ai_v2/language_model.py
@@ -2118,7 +2118,7 @@ def _run_gemini_pro(
                     "parts": [{"text": "OK"}],
                 },
             )
-    msg = _call_gemini_api(
+    msg = call_gemini_api(
         model_id=model_id,
         contents=contents,
         max_output_tokens=max_output_tokens,
@@ -2155,7 +2155,7 @@ def _run_gemini_pro_vision(
         }
     ]
     return [
-        _call_gemini_api(
+        call_gemini_api(
             model_id=model_id,
             contents=contents,
             max_output_tokens=max_output_tokens,
@@ -2166,7 +2166,7 @@ def _run_gemini_pro_vision(
 
 
 @retry_if(vertex_ai_should_retry)
-def _call_gemini_api(
+def call_gemini_api(
     *,
     model_id: str,
     contents: list[dict],

diff --git a/scripts/init_llm_pricing.py b/scripts/init_llm_pricing.py
@@ -623,6 +623,34 @@ def run():
 
     # Gemini
 
+    llm_pricing_create(
+        model_id="gemini-2.5-flash-lite",
+        model_name=LargeLanguageModels.gemini_2_5_flash_lite.name,
+        unit_cost_input=0.1,
+        unit_cost_output=0.4,
+        unit_quantity=10**6,
+        provider=ModelProvider.google,
+        pricing_url="https://ai.google.dev/gemini-api/docs/pricing#gemini-2.5-flash-lite",
+    )
+    llm_pricing_create(
+        model_id="gemini-2.5-pro",
+        model_name=LargeLanguageModels.gemini_2_5_pro.name,
+        unit_cost_input=1.25,
+        unit_cost_output=10,
+        unit_quantity=10**6,
+        provider=ModelProvider.google,
+        pricing_url="https://ai.google.dev/gemini-api/docs/pricing#gemini-2.5-pro",
+    )
+    llm_pricing_create(
+        model_id="gemini-2.5-flash",
+        model_name=LargeLanguageModels.gemini_2_5_flash.name,
+        unit_cost_input=0.30,
+        unit_cost_output=2.5,
+        unit_quantity=10**6,
+        provider=ModelProvider.google,
+        pricing_url="https://ai.google.dev/gemini-api/docs/pricing#gemini-2.5-flash",
+    )
+    # duplicate: because model_id is prefixed with "google/" with the OpenAI-compatible API
     llm_pricing_create(
         model_id="google/gemini-2.5-flash-lite",
         model_name=LargeLanguageModels.gemini_2_5_flash_lite.name,