Na era digital, os dados são a força vital das empresas; os dados que se acumulam a partir de vários pontos de contato de clientes ou operacionais precisam ser coletados e gerenciados com eficiência para que os negócios prosperem e prosperem. O Gerenciamento de dados afeta todas as principais funções de negócios, como RH, CRM, ERP ou Supply Chain. Nesse cenário, é natural que a Estratégia de Dados ou a Arquitetura de Dados desempenhem funções importantes na administração eficiente de um negócio.
Arquitetura de Dados e Estratégia de Dados
Arquitetura de dados define como os dados são adquiridos, armazenados, processados, distribuídos e consumidos. Por outro lado, o termo Estratégia de Dados implica a visão geral e a estrutura subjacente dos recursos e atividades centrados em dados de uma organização.
Nesse sentido, Data Strategy é o termo abrangente, que compreende todas as políticas e princípios significativos relacionados a dados, como Governança de Dados, Administração de Dados, Gerenciamento de Dados Mestres (MDM), gerenciamento de Big Data e assim por diante.
O objetivo geral da estratégia de dados de uma organização e suas atividades subordinadas é mitigar riscos, melhorar a qualidade de dados, agilizar os processos de negócios e reduzir custos operacionais, desenvolver e executar análises avançadas para ganhos de negócios, gerando ROI de iniciativas centradas em dados, alavancando e monetizando ativos de dados , cumprindo as políticas regulatórias, evitando violações de dados ou ataques cibernéticos e possibilitando novos produtos ou serviços.
Assim, unidas, a estratégia de dados e a arquitetura de dados de uma organização desempenham papéis-chave na execução eficiente dos negócios.
Volume, variedade e velocidade, os 3 Vs da arquitetura de dados 4.0
Volume: os dados estão ficando muito grandes para os sistemas legados
Quantidades cósmicas de dados saturam nosso mundo. Todos os dias, 3,5 bilhões de buscas no Google são realizadas, 300 milhões de fotos são enviadas para o Facebook e 2,5 quintilhões de bytes de dados são criados. O IDC prevê que os dados globais crescerão dez vezes entre 2016 e 2025, para impressionantes 163 zettabytes.
Gerenciar esses volumes crescentes de dados em uma configuração local é insustentável. A TI acaba investindo tempo e recursos valiosos na compra, instalação e gerenciamento de hardware. Eles também precisam escrever montes de código para operar os sistemas nos quais os dados residem (por exemplo, bancos de dados, data warehouses, etc.). As organizações que permitem essa abordagem ao gerenciamento de dados nunca alcançarão a profundidade de análise necessária na economia digital. Eles serão como surfistas remando incessantemente perto da costa, sem jamais passar pelos disjuntores.
Variedade: os dados são muito diferentes para sistemas legados rígidos
A maioria dos dados era de uma origem semelhante no passado. Em geral, foi estruturado e fácil de reunir. Não é assim hoje. Agora, alguns dados residem em bancos de dados locais, enquanto outros dados residem em aplicativos em nuvem. Uma determinada empresa pode coletar dados estruturados, não estruturados e semi-estruturados. A variedade continua aumentando.
De acordo com uma pesquisa, as empresas usam cerca de 1.180 serviços em nuvem, muitos dos quais produzem dados exclusivos. O processo de integração de todos esses dados descontroladamente separados é uma tarefa muito grande para sistemas legados. Dentro de uma arquitetura de dados legada, você geralmente precisa codificar manualmente seus pipelines de dados, que precisam ser reparados assim que uma API é alterada.
Você também pode precisar supervisionar um amálgama de soluções de integração, desde ferramentas ponto-a-ponto limitadas até plataformas volumosas que precisam ser alimentadas por meio de scripts. Essas abordagens tradicionais são lentas, cheias de complexidade e inadequadas para a crescente variedade de dados hoje em dia. Os sistemas legados frustram em grande parte os esforços das empresas para usar os dados que coletam.
Velocidade: os dados precisam se mover mais rápido do que os sistemas herdados podem manipular
Os cenários em que você precisava de processamento de dados em alta velocidade eram muito menores nos últimos anos do que vemos hoje. Agora, as operações de missão crítica dependem cada vez mais do processamento de dados em tempo real. Mesmo um atraso de 10 segundos na entrega de dados pode representar uma ameaça se você estiver lidando com, digamos, dados “hipercríticos” (dados sobre os quais a saúde e o bem-estar das pessoas dependem).
Curiosamente, o IDC estima que 10% de todos os dados serão de natureza hipercrítica até 2025. Em alguns casos, se esses dados não forem processados instantaneamente, as consequências podem ser terríveis. Viagens aéreas, carros autônomos e casos de uso da saúde vêm à mente.
As arquiteturas de dados legadas lutam para processar grandes volumes de dados com a velocidade e a consistência necessárias em situações de missão crítica. Uma razão para isso é que, em um ambiente local, a TI precisa, essencialmente, adivinhar quanto poder de computação eles precisarão em um determinado momento. Se eles fornecerem poucos servidores para um evento de “carga máxima”, o sistema poderá sofrer uma interrupção. Além disso, como o volume e a variedade de dados recebidos sobrecarregam seu tradicional sistema de gerenciamento de banco de dados, ele também impacta a velocidade de processamento de dados.
Conectando a arquitetura de dados com o SAP
As soluções SAP Big Data permitem conexões entre as plataformas existentes e as ferramentas emergentes de Big Data, mas a conectividade e o acesso continuam a apresentar desafios em tempo real. A plataforma HANA baseada em memória da SAP aborda um aspecto muito importante do Big Data – acesso rápido a análises preditivas e insights com as velocidades necessárias em tempo real. No entanto, o armazenamento na memória vem com um preço mais alto, que nem sempre pode ser justificado.
Uma abordagem híbrida utilizando as competências nativas do SAP e seus recursos superiores de integração apresenta uma alternativa atraente que proporciona um equilíbrio de velocidade, desempenho e custo. As melhores práticas para estabelecer uma arquitetura de referência conectada bem-sucedida incluem começar com um modelo de custo baseado em zero e construir capacidades de modularização e extensão antecipadamente. Além disso, a necessidade de gerenciar e pagar por vários servidores deve ser incorporada ao modelo de custo e a uma árvore de decisão apropriada estabelecida para mapear a ferramenta ideal para um desafio comercial importante.
Essa abordagem cooperativa permite que a arquitetura aproveite a estrutura e as ferramentas típicas do Big Data e, ao mesmo tempo, integre o SAP Landscape já implementado em muitas empresas maiores.
A maioria dos modelos de custo incluirá:
- Uma solução clássica de Big Data (baseada no Hadoop ou Sybase IQ) – para coleta e armazenamento de informações de Big Data. As configurações variam e dependem do sabor do Hadoop, mas incluem as funções Sistema de Arquivo Principal, Acesso a Dados, Suporte a Algoritmo e Importação de Dados.
- Um processador de streaming (SAP Hana Smart Data Streaming) – para coleta de dados, monitoramento de alertas e agregação de informações.
- Uma solução de ETL (SAP Business Object Data Services) – para transformação de dados.
- Uma solução In-Memory (SAP HANA) – para coleta e agregação de fatia de dados.
- Uma solução de Análise Preditiva (SAP Predictive Analysis, usando SAP HANA – Banco de Dados de Armazenamento de Coluna e Biblioteca de Análise Preditiva).
- Ferramentas de visualização (SAP BO WEBI e SAP Lumira) para exploração e exibição.