A Samsung Research na Indonésia participa da série “A Curva de Aprendizagem”, que fala sobre as pessoas e as inovações por trás da democratização da IA móvel
À medida que a Samsung segue inovando em experiências móveis premium de Inteligência Artificial, visitamos centros da Samsung Research em todo o mundo para saber como o Galaxy AI1 está permitindo a todos maximizar o seu potencial.
O Galaxy AI oferece atualmente suporte a 16 idiomas, para que mais pessoas possam expandir seus recursos linguísticos, mesmo off-line, graças à tradução no dispositivo em recursos como Tradução Simultânea2, Intérprete, Notas Inteligentes3 e Assistente de Navegação.
Mas o que implica o desenvolvimento da linguagem de Inteligência Artificial? Nesta série, “A Curva de Aprendizagem”, vamos examinar os desafios de trabalhar com IA móvel e como superamos essas limitações. Nesta primeira parte, fomos para a Indonésia saber como se começa a ensinar a Inteligência Artificial a falar um novo idioma.
O primeiro passo é estabelecer metas, segundo a equipe do Samsung P&D Institute Indonesia (SRIN). “Uma Inteligência Artificial excelente começa com dados relevantes e de boa qualidade. Cada idioma exige uma maneira diferente de processar, então nos aprofundamos para entender as necessidades linguísticas e as condições únicas do nosso país”, diz Junaidillah Fadlil, Head de IA da SRIN, cuja equipe recentemente habilitou suporte ao Bahasa Indonesia (língua indonésia) para o Galaxy AI. “O desenvolvimento de idiomas locais deve ser liderado por insights e ciência. Portanto, todo processo para adicionar idiomas ao Galaxy AI começa com o planejamento de quais informações precisamos e podemos obter de forma legal e ética”.
Os recursos do Galaxy AI, como Tradução Simultânea, executam três processos principais: reconhecimento automático de fala (ASR, sua sigla em inglês); tradução automática neural (NMT, sua sigla em inglês); e conversão de texto em fala (TTS, sua sigla em inglês). Cada processo precisa de um conjunto distinto de informações.
O ASR, por exemplo, precisa de gravações extensas de fala em vários ambientes, cada uma acompanhada de uma transcrição de texto precisa. Os níveis variados de ruído de fundo ajudam a explicar os diferentes ambientes.
“Não basta apenas adicionar ruídos às gravações”, explica Muchlisin Adi Saputra, líder de ASR da equipe. “Além dos dados de idioma que obtivemos de parceiros terceirizados autorizados, devemos ir a cafeterias ou ambientes de trabalho para gravar nossas próprias vozes. Isso nos permite capturar autenticamente sons únicos da vida real, como pessoas gritando ou o barulho de teclados”.
A natureza de constante mudança das línguas também deve ser considerada. Saputra acrescenta: “Precisamos nos manter atualizados com as gírias mais recentes e como elas são usadas, e principalmente as encontramos nas redes sociais”.
Em seguida, a NMT exige dados de treinamento de tradução. “Traduzir Bahasa Indonesia é um desafio”, diz Muhamad Faisal, líder da equipe de NMT. “Seu uso extensivo de significados contextuais e implícitos depende de indicativos sociais e situacionais, por isso precisamos de numerosos textos traduzidos para que a IA possa consultar novas palavras, palavras estrangeiras, nomes próprios e expressões idiomáticas– qualquer informação que ajude a IA a compreender o contexto e as regras de comunicação”.
A TTS requer gravações que cubram uma variedade de vozes e tons, com contexto adicional sobre como partes das palavras soam em diferentes circunstâncias. “Boas gravações de voz poderiam fazer metade do trabalho e cobrir todos os fonemas (unidades de som na fala) necessários para o modelo de IA”, acrescenta Harits Abdurrohman, líder de TTS. “Se um dublador fez um ótimo trabalho na fase anterior, o foco muda para refinar o modelo de IA para pronunciar palavras específicas com clareza”.
Juntos somos mais fortes
São necessários vastos recursos para planejar muitos dados e a SRIN trabalhou em estreita colaboração com especialistas em linguística.
“Este desafio requer criatividade, desenvoltura e experiência tanto em Bahasa Indonesia quanto em aprendizagem automática”, reflete Fadlil. “A filosofia de colaboração aberta da Samsung desempenhou um papel importante na realização do trabalho, assim como a nossa escala de operações e história de desenvolvimento de IA”.
Trabalhando com outros centros da Samsung Research em todo o mundo, a equipe da SRIN conseguiu adotar rapidamente as melhores práticas e superar as complexidades do estabelecimento de metas de dados.
Além disso, a colaboração foi benéfica para o avanço não só da tecnologia, mas também da cultura. Quando a equipe do SRIN se juntou aos seus correspondentes em Bangalore, na Índia, observaram os costumes locais de jejum, criando ligações mais profundas e expandindo a sua compreensão de diferentes culturas.
Para a equipe, o projeto de expansão linguística do Galaxy AI assumiu um novo significado. “Estamos particularmente orgulhosos das nossas conquistas aqui, pois este foi o nosso primeiro projeto de IA e não será o último, à medida que continuemos refinando os nossos modelos e melhorando a qualidade dos resultados”, conclui Fadlil. “Esta expansão não só reflete os nossos valores de abertura, mas também respeita e incorpora as nossas identidades culturais através da linguagem”.
No próximo episódio desta série “A Curva de Aprendizagem”, iremos ao Samsung P&D Institute Jordan para falar com a equipe que liderou o projeto de língua árabe do Galaxy AI.
Fique ligado na Samsung Newsroom Brasil para conhecer mais sobre as complexidades de construir e treinar um modelo de Inteligência Artificial para um idioma com diversos dialetos.