A IBM bateu todos os recordes de acesso a grandes conjuntos de dados. O sistema leu 10 bilhões de arquivos em um único sistema em apenas 43 minutos.
O recorde anterior era de 1 bilhão de arquivos em 3 horas.
Sistema de arquivos paralelo
A solução é proprietária da IBM, um sistema de arquivos de acesso paralelo chamado GPFS (General Parallel File System ).
O recorde foi alcançado em um cluster de 10 computadores dotados de processadores de oito núcleos e drives de armazenamento de estado sólido – em substituição aos discos rígidos – com uma capacidade de 6,8 terabytes.
O algoritmo do GPFS permite a utilização plena de todos os núcleos dos processadores, em todas as máquinas, em todas as fases da tarefa – leitura dos dados, classificação e avaliação de regras.
Os aplicativos mantêm de forma sustentada – e não apenas picos – centenas de milhões de operações de entrada e saída de dados, enquanto o GPFS continuamente identifica, seleciona e classifica o conjunto correto de arquivos entre os 10 bilhões acessáveis no sistema.
Armazenamento unificado
A escala de crescimento obtida – um fator de 37 – aponta para a possibilidade de unificação dos ambientes de dados em uma única plataforma, em vez de sua distribuição por diversos sistemas, que precisam ser gerenciados separadamente.
Além do aumento na velocidade de acesso, o crescimento também aponta para a redução de custos no armazenamento de dados, evitando a aquisição de um número crescente de equipamentos.
Esse sistema de arquivos foi projetado para aplicações que exigem alta velocidade de acesso a grandes volumes de dados.
Entre essas aplicações estão mineração de dados, para determinar os comportamentos de compra de clientes, processamento de dados sísmicos, gestão de risco e análise financeira, modelagem do tempo e pesquisas científicas.
Novos negócios
As empresas estão continuamente sob pressão para transformar rapidamente seus dados em insights para novos e melhores negócios, mas não é nem simples e nem barato lidar com tantos dados.
Conforme surgem novas aplicações para a tecnologia da informação, do sistema financeiro aos serviços de saúde, os sistemas tradicionais de gerenciamento de dados precisam de aumentos contínuos em sua capacidade, velocidade e segurança.
Estima-se que o repositório de dados digitais em todo o mundo tenha crescido 47% no ano passado.