Data Mining

Data Mining: Etapas e benefícios

Com o passar do tempo, vemos cada vez mais o surgimento de termos que dizem respeito ao volume de informações e ao tratamento de dados, isso porque a geração desses dados tem aumentado de forma exponencial a cada ano. E hoje vamos falar um pouco sobre Data Mining.

Em português, mineração de dados, o termo Data Mining surgiu nos anos 90 constituindo um processo conhecido com KDD (Knowledge Discovery in Databases, ou, em português, “Descoberta de Conhecimento em Bases de Dado”), e consiste no processo de examinar grandes quantidades de dados para encontrar padrões consistentes.

O método tem como base três áreas do conhecimento: estatística clássica, inteligência artificial e machine learning e tem como objetivo gerar insights utilizando um conjunto de técnicas que permite filtrar do Big Data informações relevantes para o propósito da análise.

Para que seja efetuado esse diagnóstico, o Data Mining precisa percorrer algumas etapas, algumas com softwares para análise, outras que dependem de definições humanas:

  • Definição do problema / Traçar Metas;
  • Integração de todas as suas fontes de dados;
  • Seleção de dados;
  • Limpeza de dados que apresentem algum conflito;
  • Transformação de dados para possibilidade de agrupamento;
  • Mineração de dados;
  • Avaliação de padrões.

Aliada à essas etapas listadas, são utilizadas técnicas, que são aplicadas de acordo com cada cenário, mas todas com o objetivo de efetuar a identificação de padrões e possibilitar a geração de insights. São elas:

·         Descoberta de regras de associação (Indução de regras): Estabelece padrões de relacionamento entre itens de uma base de dados, como quando em um e-commerce surgem sugestões de produtos baseados naqueles em que já houve a visualização;

·         Regressão: Compreende a busca por uma função que mapeie os registros de um banco de dados em um intervalo de valores numéricos reais. Como por exemplo, para calcular o risco de determinados investimentos;

·         Redes neurais artificiais: São sistemas de computação com nós interconectados que funcionam como os neurônios do cérebro humano. Usando algoritmos, eles podem reconhecer padrões escondidos e correlações em dados brutos, agrupá-los, classificá-los e, com o tempo, aprender e melhorar continuamente.

·         Árvores de decisão: As árvores de decisão são representações muito similares a um fluxograma em que você adiciona um atributo e vai criando ramificações;

·         Visualização: Mapeia o dado sendo minerado de acordo com dimensões especificadas. Nenhuma análise é executada pelo programa além de manipulação estatística básica. O usuário, então, que deve interpretar o dado enquanto olha para o monitor.

 

Entre as vantagens de utilizar o Data Mining na gestão de uma empresa, temos:

 

·         Possibilidade da análise do comportamento de clientes;

·         Antecipação de demandas;

·         Análise da concorrência;

·         Diminuição de Custos;

·         Aumento do ROI;

·         Melhor aproveitamento de oportunidades;

·         Maior previsibilidade;

·         Facilita previsões de vendas, demandas e mais;

·         Permite as tomadas de decisão de maneira automatizada;

·         Agiliza os processos diários de análise de dados;

·         Oferece informações e dados qualificados.

Data Warehouse e Análise Preditiva

O termo Data Warehouse é comumente confundido com o Data Mining, porém diferente do Data Mining que consiste em um processo com diversas etapas e a utilização de softwares de análise, o Data Warehouse é o local específico onde os dados, que serão analisados no processo de Data Mining, são armazenados e centralizados, podendo ser em um servidor privado ou na nuvem.  Já a análise preditiva é a aplicação de modelos estatísticos de predição a dados já trabalhados e com correlações fundamentadas.