#
Reconhecimento de Voz
Este guia irá orientá-lo na configuração do reconhecimento de voz para transcrever sua voz em texto dentro do SillyTavern.
#
Pré-requisitos
Antes de começar, certifique-se de ter atendido aos seguintes pré-requisitos:
- Certifique-se de estar usando a versão mais recente do SillyTavern.
- Instale a extensão "Speech Recognition" no menu "Download Extensions & Assets" no painel Extensions (ícone de blocos empilhados).
- Tenha o binário ffmpeg instalado. Consulte Configuração RVC para mais detalhes.
#
Configuração de Reconhecimento de Voz (Navegador)
Configure o SillyTavern:
- Inicie o SillyTavern e vá para Extensions > Speech Recognition.
- Selecione "Browser" nas opções dropdown.
- Se seu navegador não suportar reconhecimento de voz, um popup de erro aparecerá.
Selecione o Modo de Mensagem:
- Escolha o "Message Mode" que deseja:
- Append: Sua mensagem será anexada à área de texto da mensagem do usuário atual.
- Replace: Sua mensagem substituirá a mensagem do usuário atual na área de texto.
- Auto send: Sua mensagem será enviada automaticamente assim que o fim da fala for detectado.
- Escolha o "Message Mode" que deseja:
Habilite o Mapeamento de Mensagens (Opcional):
- Configure o mapeamento de frases para atalhos vocais.
- Por exemplo, ao adicionar "command delete = /del2", o comando "/del2" substituirá sua mensagem de voz quando "command delete" for detectado.
- Útil quando combinado com o modo de envio automático para controle de voz completo. Habilite isso marcando "Enable messages mapping".
Selecione o Idioma:
- Escolha o idioma que deseja falar (Nota: nem todos os navegadores suportam todos os idiomas).
Gravação:
- Para começar a gravar, clique no botão de microfone à direita da área de mensagem ao lado do botão enviar. Clique novamente para parar a gravação. A gravação pode parar automaticamente se nenhuma voz for detectada.
#
Configuração de Reconhecimento de Voz (Whisper/Vosk)
Habilite o Provedor:
Habilite o provedor de reconhecimento de voz desejado no servidor extras usando o seguinte comando:
python server.py --enable-modules=whisper-sttou
python server.py --enable-modules=vosk-sttVocê também pode usar um modelo personalizado adicionando a opção
--stt-vosk-model-pathou--stt-whisper-model-pathcom o caminho para o modelo.
Configure o SillyTavern:
- Inicie o SillyTavern e vá para Extensions > Speech Recognition.
- Selecione "Vosk" ou "Whisper" nas opções dropdown (whisper é mais preciso).
- As configurações são semelhantes à configuração do provedor "Browser" (exceto idioma) veja acima.
#
Configuração de Reconhecimento de Voz (Streaming)
Habilite o Provedor:
Habilite o módulo de reconhecimento de voz em streaming no Sillytavern-extras com o seguinte comando:
python server.py --enable-modules=streaming-stt
Configure o SillyTavern:
- (Opcional) Especifique um modelo Whisper personalizado como na configuração Whisper acima.
- (Opcional mas recomendado) Configure palavras-gatilho no SillyTavern. Apenas mensagens começando com essas palavras-gatilho serão enviadas ao SillyTavern como mensagens reais. Isso evita que fala aleatória ou ruído seja transcrito. Habilite isso com a caixa de seleção. As palavras-gatilho podem ser incluídas/excluídas da mensagem real usando uma caixa de seleção.
- Outras configurações são semelhantes a outros provedores.
Agora você está pronto para transcrever sua voz em texto usando reconhecimento de voz no SillyTavern.