xAI hat die Text-to-Speech API von Grok veröffentlicht. Die API soll Text in natürlich klingende Sprache umwandeln und bietet dafür fünf Stimmen sowie Steuerungsmöglichkeiten für Aspekte wie Emotion, Pitch und Ton.
Für die Nutzung nennt xAI einen Preis von 4,20 US-Dollar pro 1 Million Zeichen. Als Limits werden 600 Requests pro Minute beziehungsweise 10 Requests pro Sekunde angegeben.
Im begleitenden Text wird hervorgehoben, dass bei TTS-APIs vor allem die Steuerung für Entwickler wichtig sei, wenn Sprache nicht nur als Demo, sondern als tatsächliche Produktoberfläche genutzt werde. Genannt werden dabei insbesondere Latenz, Prosody, Interruption Handling und eine Preisgestaltung, die auch dann tragfähig bleibt, wenn Sprache in einen Agent Loop eingebunden ist.
Als mögliche Anwendungen werden agentische Systeme genannt, die bei Anrufen etwa in Restaurants oder bei Buchungen natürlicher klingen sollen. Konkrete weitere technische Details zur API werden im vorliegenden Text nicht ausgeführt.
