Samsung Research no Vietnã mostra os resultados de pesquisas sobre as pessoas e as inovações que permitem que a IA móvel melhore mais vidas
A Samsung inova em experiências móveis premium de Inteligência Artificial. Para saber como o Galaxy AI1 está maximizando o potencial das pessoas, a Samsung Newsroom tem visitado os centros da Samsung Research em todo o mundo.
Com suporte para 16 idiomas, o Galaxy AI permite que mais pessoas expandam seus recursos linguísticos, mesmo estando off-line, graças à tradução no dispositivo em recursos como Tradução Simultânea2, Intérprete, Notas Inteligentes3 e Assistente de Navegação.
Recentemente, a Samsung Newsroom foi até a Jordânia para aprender as complexidades do desenvolvimento de um modelo de Inteligência Artificial para o árabe, uma língua com muitos dialetos. Desta vez, fomos ao Vietnã para explorar como os dados são preparados para treinar modelos de IA.
Qual é a diferença entre um fantasma, um túmulo e uma mãe em vietnamita? Resposta: muito pouca, especialmente para uma língua falada por 97 milhões de pessoas em todo o mundo. Cada palavra se traduz como “ma”, “mả” e “má”, respectivamente – e só pode ser distinguida pelo tom. Isto ilustra como pode ser difícil para os modelos de Inteligência Artificial aprender uma língua, considerando que não conseguem reconhecer em primeira mão o contexto e as emoções das conversas, nem as intenções de quem fala.
O Instituto Samsung P&D Vietnã (SRV) usou dados refinados para ajudar seu modelo de Inteligência Artificial a reconhecer adequadamente até mesmo as diferenças mais sutis do idioma.
A qualidade dos dados usados afeta diretamente a precisão do reconhecimento automático de fala (ASR), da tradução automática neural (NMT) e da conversão de texto em fala (TTS) — processos que auxiliam os recursos do Galaxy AI, como Tradução Simultânea, Intérprete, Assistente de Digitação e Assistente de Navegação a quebrar as barreiras linguísticas.
Um tufão de desafios
“O vietnamita é uma língua complexa e diversificada, com expressões ricas, muitas das quais são difíceis de capturar”, afirma Ngô Hồng Thái, Líder NMT no SRV. Dos 16 idiomas habilitados pelo Galaxy AI, o vietnamita foi particularmente difícil de desenvolver.
“Particularmente, criar um modelo de IA para os vietnamitas foi mais assustador do que os nossos tufões!”, acrescenta, antes de explicar os obstáculos enfrentados durante o processo de desenvolvimento.
O vietnamita é uma língua tonal com seis tons distintos. Como é evidente no exemplo “ma” acima, pequenas nuances na vocalização podem alterar drasticamente o significado das palavras. Portanto, era necessária uma abordagem meticulosa e detalhada.
“Quando palavras com sons semelhantes são divididas, uma palavra consiste em vários segmentos curtos, ou ‘conjuntos de quadros’”, diz Bui Ngoc Tung, Líder ASR do SRV. “O modelo de Inteligência Artificial diferencia os quadros de áudio curtos de cerca de 20 milissegundos para reconhecer quais palavras correspondem a um determinado conjunto de quadros consecutivos. Assim, é fundamental colocar um grande esforço nas fases iniciais do processo de aprendizagem da IA”.
Além disso, homófonos e homônimos são comuns em vietnamita. As pessoas normalmente podem confiar no contexto e em elementos não-verbais nas conversas para diferenciar palavras que têm o mesmo som ou são escritas da mesma forma, mas têm significados diferentes. No entanto, os modelos de Inteligência Artificial precisam ser ensinados a identificar e diferenciar com precisão tons e palavras semelhantes.
“Esta não é uma tarefa simples”, explica Thái. “Além da quantidade, os dados precisam ser precisos para garantir que sejam capazes de reconhecer as nuances linguísticas que existem no idioma vietnamita”.
Uma preparação exigente
O processo de refinamento de dados consiste em três etapas. Primeiro, o áudio e o texto usados para treinar o modelo de Inteligência Artificial devem ser revisados e corrigidos. Em seguida, esse conjunto de dados passa por verificações aleatórias de qualidade geral. Finalmente, o conjunto de dados é normalizado e limpo antes de ser usado no treinamento.
“Realizamos minuciosamente uma série de testes para verificar a precisão do nosso conjunto de dados”, disse Nguyen Manh Duy, Líder TTS no SRV que supervisiona a criação do banco de dados. “Enfrentamos uma série de problemas inesperados, incluindo palavras com erros ortográficos em scripts e ruído de fundo ou pronúncia incorreta durante gravações de áudio. Passamos um tempo significativo refinando e melhorando nossos dados de treinamento”.
Além dos desafios linguísticos únicos no vietnamita, há uma falta de dados universalmente acessíveis em comparação com as línguas mais faladas. “Esta é outra razão pela qual a etapa de refinamento dos dados é tão importante”, acrescenta. “Como tínhamos fontes limitadas, todos os dados tinham que ser totalmente confiáveis. Não havia margem para erro”.
Além disso, o modelo de Inteligência Artificial para vietnamitas deve considerar diferenças tonais e regionais. Para melhorar a precisão do modelo de IA, a equipe coletou grandes quantidades de dados com os sotaques do norte, centro e sul do Vietnã — resultando em uma enorme quantidade de informações para refinar e verificar.
Aperfeiçoamento contínuo
Os desenvolvedores do SRV concluíram o projeto após meses de trabalho árduo, e o vietnamita se tornou um dos primeiros idiomas a ser habilitado pelo Galaxy AI. Apesar deste sucesso, a equipe está trabalhando incessantemente para melhorar a experiência vietnamita do Galaxy AI.
“Continuamos a aprimorar o modelo de Inteligência Artificial incorporando feedback das pessoas sobre a relevância de palavras e frases no Galaxy AI”, disse Tran Tuan Minh, Líder do Projeto de Desenvolvimento de Linguagem de IA no SRV. “Acabamos de dar os primeiros passos em direção a um mundo mais aberto – e temos muito mais para explorar juntos”.
No próximo episódio da série “A Curva de Aprendizagem”, iremos à China para nos aprofundarmos em como os modelos de Inteligência Artificial são treinados e ajustados.