Sprache transkribieren
Tipp
Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".
Die Sprachtranskription oder die Sprachausgabe umfasst das Übermitteln von Audioinhalten an ein Modell, das mit einer textbasierten Transkription der Sprache in der Audioquelle reagiert.
Modelle, die Sprach-zu-Text-Vorgänge unterstützen, umfassen:
- gpt-4o-transcribe
- gpt-4o-mini-transcribe
- gpt-4o-transcribe-diarize
Hinweis
Die Modellverfügbarkeit variiert je nach Region. Überprüfen Sie die Regionale Verfügbarkeitstabelle des Modells in der Microsoft Foundry-Dokumentation.
Verwenden eines Sprach-zu-Text-Modells
Um ein Sprach-zu-Text-Modell in Ihrer eigenen Anwendung zu verwenden, können Sie den AzureOpenAI-Client im OpenAI SDK verwenden, um eine Verbindung mit dem Endpunkt für Ihre Microsoft Foundry-Ressource herzustellen und den Inhalt einer Audiodatei für die Transkription in das Modell hochzuladen.
from openai import AzureOpenAI
from pathlib import Path
# Create an AzureOpenAI client
client = AzureOpenAI(
azure_endpoint=YOUR_FOUNDRY_ENDPOINT,
api_key=YOUR_FOUNDRY_KEY,
api_version="2025-03-01-preview"
)
# Get the audio file
file_path = Path("speech.mp3")
audio_file = open(file_path, "rb")
# Use the model to transcribe the audio file
transcription = client.audio.transcriptions.create(
model=YOUR_MODEL_DEPLOYMENT,
file=audio_file,
response_format="text"
)
print(transcription)