O Data Bucket STT (speech to text), uma API para transcrição de áudio para texto em português do Brasil, ajuda em projetos de busca no mercado, com módulos de indexação para facilitar unir bancos de dados e aplicações como Lotus Notes, Sharepoint e Documentum, comparação de textos, OCR e transcrição de áudio para texto.
Desenvolvido pela E-Storage, o software funciona com lotes de dados ou em tempo real, e pode ser usado, por exemplo, para closed caption, além de permitir a navegação pelo vídeo por meio do texto e calibragem da transcrição por injeção de texto o que aumenta a confiabilidade da transcrição. “Até agora o conhecimento estava “preso” no conteúdo de áudio, sendo inacessível aos sistemas de indexação que são baseados em texto.”
Trata-se de uma ferramenta pensada para ambientes corporativos, desenhada para trabalhar com alta escala de transcrições de fala, ambientes de gravação simultânea multi-threads, possibilidade de incorporar em qualquer aplicação, calibragem por texto não precisando treinar o locutor, identificação automática de diversos locutores por gênero e customização para vocabulários específicos como uso médico, pesquisa cientifica e vocabulário jurídico.
“Ao falarmos em horas de transcrição, estamos falando em horas de fala, ou seja, a ferramenta identifica o silêncio na hora de transcrever, reconhece pelo timbre se a voz é feminina ou masculina, identifica o interlocutor, faz um log de cada palavra falada e cria uma indexação com XML e time code, permitindo a localização exata no conteúdo do vídeo onde o termo foi falado”, detalha Eduardo Guimarães, diretor da E-Storage.
O Data Bucket STT é comercializado em dois formatos: a ferramenta pode ser instalada dentro de um servidor Linux do cliente, ou como serviço, sendo cobrada por hora de uso.
Nos Estados Unidos, este tipo de solução já está sendo usada para fazer analytics, BI, Big data. “Na verdade, ela permite que você alcance o conteúdo falado em telefone, em vídeo, consegue extrair informação desses vídeos e mapear tendências”, explica Guimarães.
As aplicações são inúmeras e o potencial é grande. O Data Bucket STT pode ser útil em investigações, nas escutas telefônicas; gravação de depoimentos, audiências, sessões parlamentares, atas de reuniões, monitoramento de mídia, reduzindo drasticamente o tempo de produção e oferecendo acessibilidade em conteúdos corporativos, educativos e outros.
“Estamos também abertos a parcerias de OEM para trabalhar esse nicho e no atendimento ao mercado direto, começando pelo judiciário, onde já atuamos fortemente”, finaliza Guimarães.