VoiceBox - комбайн для копирования и создания речи из текста

VoiceBox - комбайн для копирования и создания речи из текста

Существует множество TTS моделей и подходов для генерации речи, но они либо платные и с ограничениями (Elevenlabs), либо требуют устанавливать и вручную настраивать сложный комбайн из серверов, моделей и агентов.

Возможности программы
Возможности программы

VoiceBox - это Ollama (ну или LM Studio) для генерации речи локально. В одной программе возможно склонировать голос из сэмпла, генерировать звук из текста, передавать его в MCP (можно сделать озвучку сообщений вашего AI), добавлять аудиоэффекты, редактировать во встроенном редакторе и транскрибировать речь в текст. Всё это работает локально на вашем компьютере и без всяких лимитов и ограничений (они ограничены мощностью вашего компьютера). Под капотом работает Qwen-TTS, Chatterbox, Whisper, TADA. К сожалению, не все модели поддерживают русский язык, но в Qwen поддержка есть.

Официальный сайт и github

3
1