Eles olharam para 637 línguas distintas austronésias, que abrangem o Pacífico das Filipinas para o Havaí. Eles iriam começar, por exemplo, com a palavra “estrela”. Em Fiji, a palavra é kalokalo. Em Pazeh, uma língua indígena de Taiwan, é mintol. As pessoas que falam a língua Bornean de Melanau chamá-lo biten, e aqueles que falam o dialeto filipino chamado Inabaknon conhecem como bitu’on. A palavra de raiz, a partir do qual todas essas linguagens evoluído, é bituquen. O computador deduzido que corretamente.
O problema é que há um monte de front-end de trabalho antes de o computador poder fazer a sua análise. Linguistas têm de entrada uma lista de palavras em uma dada língua, além de seus significados, e gerar uma espécie de “árvore da vida” para a língua – um mapa filogenética mostrando como cada palavra está relacionada com os outros. (Assemelha-se em forma e função do mapa filogenética usada por botânicos e biólogos para mostrar como a vida está relacionada.) Mas quando se começa a trabalhar, o algoritmo é eficiente. Ele pode reconhecer cognatos, que são palavras com a mesma raiz, dentro de idiomas, e em seguida, descobrir a raiz provável.
Os pesquisadores reconhecem que ainda há mais trabalho avançado para ser feito, mas espero que seja uma bênção para os linguistas históricos da forma como a informação genética mudou de biologia. Em vez de mudança morfológica – olhando para uma coisa e ver como ele muda ou se compara a outras coisas – é muito mais simples do que olhar para os genes. Este algoritmo pode funcionar de uma forma semelhante, computacionalmente estudar as raízes de palavras e línguas, em vez de utilizar uma orelha especialmente treinado.
O artigo será publicado esta semana no Proceedings, da Academia Nacional de Ciências .