A Samsung Research no Japão faz parte de uma série sobre as pessoas e inovações por trás da democratização da Inteligência Artificial móvel
À medida que a Samsung segue inovando em experiências móveis premium de Inteligência Artificial, visitamos os centros de pesquisa da Samsung em todo o mundo para saber como o Galaxy AI1 está ajudando mais pessoas a maximizar seu potencial.
O Galaxy AI oferece atualmente suporte a 16 idiomas, para que mais pessoas possam expandir seus recursos linguísticos, mesmo off-line, graças à tradução no dispositivo em recursos como Tradução Simultânea2, Intérprete3, Notas Inteligentes4 e Assistente de Navegação.
Mas o que está envolvido no desenvolvimento da linguagem de Inteligência Artificial? Da última vez, visitamos a Polônia para entender como os países europeus colaboram para alcançar seus objetivos. Desta vez, estamos no Japão para ver como os desenvolvedores estão sempre se adaptando a novos cenários e casos de uso.
O Instituto de P&D da Samsung no Japão (SRJ) foi criado para ser um centro de P&D focado em hardware, tais como eletrodomésticos e telas. Com o aumento da demanda por inovação em IA em todo o mundo, o SRJ em Yokohama também tem operado um laboratório de desenvolvimento de software para criar o recurso de Tradução Simultânea do Galaxy AI, que, desde o final do ano passado, traduz automaticamente chamadas de voz em tempo real.
“O recurso Tradução Simultânea é particularmente útil em viagens, como é o caso dos visitantes dos Jogos Olímpicos deste ano em Paris”, diz Takayuki Akasako, Diretor de Inteligência Artificial do SRJ. “No momento, estamos desenvolvendo um programa de reconhecimento de fala para pessoas fazendo turismo e assistindo aos Jogos Olímpicos de Paris e treinando o programa de reconhecimento de fala para aprender sobre os jogos e os locais dos estádios em Paris 2024”.
Compreensão do contexto no reconhecimento de voz
Para quem já usa os recursos de tradução do Galaxy AI, essas funcionalidades podem parecer muito úteis. Mas os desenvolvedores que criaram esses recursos sabem que conseguir se comunicar durante uma viagem ao exterior é algo que não pode ser dado como certo.
Uma das observações da equipe foi que há mais palavras homônimas em japonês do que em outros idiomas. Por exemplo, ‘pauzinhos’ (Hashi,箸) e ‘ponte’ (Hashi,橋) são relativamente fáceis de distinguir devido à diferença de entonação, mas palavras como ‘turismo’ (Kankō,観光), ‘costumes’ (Kankō,慣行), ‘público’ (Kōkyō,公共) e ‘prosperidade’ (Kōkyō,好況) devem ser interpretadas de acordo com o contexto.
“A interpretação fica mais difícil quando o contexto é ambíguo, como nomes de locais e pessoas, nomes próprios, dialetos e números”, diz Akasako. “Portanto, para melhorar a precisão do reconhecimento de fala são necessários muitos dados”.
“Estamos sempre buscando maneiras de fazer ajustes finos no modelo de IA para eventos e momentos importantes e em tempo hábil”, acrescenta Akasako. “Com muitas novas combinações de nomes de lugares e atividades, é importante que o contexto fique claro quando as pessoas estiverem usando o Galaxy AI”.
Desafios na coleta de dados eficientes
Embora o reconhecimento dos tipos de dados necessários também seja importante, a própria coleta de dados é um desafio à parte.
Antes, a equipe do SRJ usava dados gravados por pessoas para treinar o mecanismo de reconhecimento de fala do recurso de Tradução Simultânea, o que levava a uma coleta insuficiente de dados.
O Samsung Gauss, o Modelo de Linguagem Ampla (LLM, na sigla em inglês) da empresa, usa roteiros para estruturar frases com palavras ou expressões relevantes para cada cenário. Os dados coletados com o Samsung Gauss não são apenas gravados por pessoas, mas também gerados por dados de síntese de fala text-to-speech (TTS), por meio dos quais pessoas fazem a verificação final da qualidade. Usando esse método, a equipe observou uma melhoria significativa na eficiência da coleta de dados.
“Sempre que um problema é identificado e resolvido, a precisão do reconhecimento de fala melhora significativamente”, explica Akasako. “Independentemente de onde estejam, nosso objetivo é conectar as pessoas umas às outras, e as ferramentas com tecnologia Galaxy AI garantirão uma comunicação mais divertida e eficiente”.