CRISP-DM – Conceitos

A Mineração de Dados é uma atividade que tem agregado muito valor na descoberta da informação e seus conceitos ganham força quando se utiliza o CRISP-DM como modelo de processo.

Por
6 min. de leitura

Salve, Salveee pessoal ! Tudo joinha com vocês?!

Bem, trago hoje um assunto super importante e que faz parte do universo dos dados, principalmente sobre a descoberta de padrões existentes em diversos fontes e tipos de dados  e que tem ajudado muitas organizações a tomarem decisões mais assertivas, bem como calibrar melhor os seus investimentos naquilo que realmente interessa. Estou falando do CRISP-DM, então, vem comigo !

CRISP-DM

O CRISP-DM – Cross Industry Standard Process for Data Mining (Processo Padrão Inter-Indústrias para Mineração de Dados) e surgiu em 1996 como forma de apoio ao processo de descoberta do conhecimento, o famoso KDDKnowledge Discovery in Databases (Descoberta de Conhecimento em Bases de Dados).

O CRISP-DM é constituído por 6 fases: Compreensão do Negócio, Compreensão dos Dados, Preparação dos Dados, Modelagem, Avaliação e Desenvolvimento. Vejamos abaixo uma figura que representa o processo CRISP-DM e como as fases se inter-relacionam:

Figura 1: CRISP-DM

 

Vamos conhecer cada uma das fases que fazem parte do CRISP-DM, vem comigo!

As 6 fases do CRISP-DM

1- Compreensão do Negócio

Conhecer e compreender o problema a ser resolvido é de suma importância neste processo. Muitas vezes nos deparamos com pessoas que fazem parte do negócio e possuem dificuldades de definir o que é de fato o seu negócio. Perceba que no próprio diagrama existem retornos para esta fase a partir de outras etapas do processo, ou seja, podem ocorrer falhas durante o processo por má compreensão do negócio. Para fins de tentar mitigar estes riscos de má compreensão, o CRISP-DM prevê algumas atividades nesta fase, conforme indico a seguir:

    • Identificar os especialistas na organização: Os especialistas da área de negócio (domínio), o pessoal da TI, bem como os responsáveis pela tomada de decisão precisam conhecer o processo . É comum nesta etapa, realizar treinamentos para fins de nivelamento de conhecimento do pessoal em torno do processo KDD e onde o CRISP-DM estará atuando.
    • Levantar e esboçar as necessidades e expectativas: As pessoas que estarão envolvidas no processo, precisam expor suas necessidades, principalmente aqueles que irão lidar com os dados e informações obtidos para posterior análise e tomada de decisão. É comum serem feitas rodadas de reuniões com estas pessoas para fins de elencar os objetivos e necessidades.
    • Levantamento dos hardwares e softwares: A organização não é feita apenas de pessoas, mas também de ferramentas e neste sentido se faz necessário conhecer o que existe disponível ou não. O CRISP-DM orienta que o processo seja realizado em plataforma que possua arquitetura expansível, com capacidade de suportar grandes volumes de dados, com grandes chances destes dados serem heterogêneos e que possa ter capacidade de processamento compatível com o volume de dados.
    • Fazer inventário das bases de dados existentes: É importante conhecer o que a organização possui de bases de dados internas e do acesso e uso de bases de dados externas. Neste momento, se faz necessário também observar potenciais bases de dados externas que guardem relação com o negócio da organização e por isso podem fazer parte do processo.
    • Verificar a existência e Data Warehouses na organização: Caso a organização possua dados armazenados em bases multidimensionais, como os Data Warehouses e Data Marts, é possível que ela já tenha estabelecido um processo ETL e neste caso haverá um ganho de esforço no restante do processo.

2- Compreensão dos Dados

Esta fase geralmente é executada juntamente com a fase anterior (Compreensão do Negócio), onde o estudo sobre as informações coletadas se faz necessário e deve ser feita de forma minuciosa.

Se a solução do problema de negócios é o objetivo, os dados compreendem a matéria-prima disponível a partir da qual a solução será construída. É importante entender os pontos fortes e as limitações dos dados, porque raramente há uma correspondência exata com o problema.  Por exemplo, uma base de dados de clientes, uma base de dados de vendas e-commerce e uma base de dados de respostas de satisfação dos clientes, contêm informações diferentes, podem abranger diferentes publicações, que se cruzam e podem ter assim diferentes graus de confiabilidade sobre estes dados, daí a necessidade de compreendê-los.

Vejamos algumas das principais atividades envolvidas nesta fase:

    • Conhecer e entender os dados disponíveis: É preciso entender bem os atributos e dados que foram levantados, para fins de definir os objetivos do restante do processo. É comum que não haja documentação completa sobre dos dados, através de metadados e dicionário de dados, o que vai requerer retorno à etapa anterior para fins de dirimir dúvidas e assim completar ou elaborar as documentações sobre os dados.
    • Avaliação da qualidade dos dados disponíveis: O propósito para o qual os dados foram disponibilizados é o principal alvo aqui. Os dados atendem ao propósito? Possuem muitos ruídos? Precisam ser transformados? Estes são alguns dos questionamentos feitos durante a avaliação da qualidade dos dados, e para isso recursos de limpeza dos dados serão usados, porém aderentes ao domínio do negócio.
    • Verificar se a volumetria dos dados atende ao negócio: Refere-se a quantidade de dados que será utilizada, pois amostras pequenas de dados podem não ser úteis para o processo, portanto é importante que seja feito um acordo para o fornecimento de volume de dados adequado.

3- Preparação dos Dados

Essa é uma fase do processo que antecede a construção de modelos  e que irá adequar os dados,  compreendendo ações de pré-processamento.

As diversas ferramentas analíticas que podem ser usadas nesta fase, apesar de oferecerem muitos recursos, impõem alguns requisitos sobre os dados quanto ao seu formato, gerando a necessidade de formatações e/ou transformações dos dados.

Alguns exemplos naturais da preparação de dados são a sua conversão para o formato tabular, retirando ou até inserindo valores ausentes e convertendo dados para diferentes tipos. Algumas técnicas de mineração focam em dados chamados de simbólicos e categóricos, enquanto outras lidam apenas com valores numéricos.

Vejamos algumas atividades importantes nesta fase:

    • Seleção dos dados para análise: Nesta etapa, serão selecionados apenas os dados que irão de fato ser analisados, sendo eles internos ou externos à organização, inclusive planejando quais destes dados serão indicados para carga.
    • Limpeza dos Dados: Inconsistências sempre surgem nos dados e nesta atividade elas serão removidas ou ajustadas, assim como completar dados que estejam ausentes com algum padrão de dados estabelecidos e que tenha relação com o negócio da organização.
    • Adequar formato dos dados;
    • Construir novos atributos com base nos atributos existentes (atributos derivados).

4- Modelagem

Nesta fase as atividades estão dentro das características similares ao da Mineração de Dados no KDD, onde por exemplo, serão escolhidas as técnicas mais adequadas  para modelagem, com base em algoritmos de mineração, onde testes iniciais voltados à calibração de parâmetros dos algoritmos serão feitos. Possa ser que durante esta atividade, haja necessidade de retorno à atividade de preparação dos dados, visto que algumas técnicas de modelagem apresentam demandas diferentes quanto ao formato do conjunto de dados utilizado, ou até mesmo podem ocorrer falhas durante a construção do modelo.

A modelagem é o principal local onde as técnicas de mineração de dados são aplicadas aos dados. É importante ter alguma compreensão dos conceitos sobre mineração de dados, incluindo os tipos de técnicas e algoritmos existentes.

5- Avaliação

O insumo desta fase é a saída da fase anterior em forma de um ou mais modelos. A avaliação vai checar se o modelo elaborado condiz com as expectativas da organização e do que foi definido anteriormente na fase inicial do processo. O resultado desta avaliação pode ser aceitável ou pode resultar na necessidade de revisão das fases anteriores, a fim de redefinir alguns passos.

6- Desenvolvimento (implantação)

Esta fase consiste da definição das fases de implantação do projeto de Mineração de Dados, levando em consideração que o modelo resultante da fase de modelagem precisa ser factível de ser usado, ou seja, o modelo para obtenção de conhecimento precisa, além ser aderente às necessidades da organização, necessita ser interpretável e com capacidade operacional.

Será elaborado relatório final do processo, que apresenta os resultados obtidos e possíveis alternativas de ação no processo de descoberta de conhecimento aplicado na organização.

Bem,  concluímos aqui o conhecimento sobre o processo de Mineração de Dados, conforme abordado pelo CRISP-DM, abaixo deixo um esquema para que você possa usar como forma de relembrar os principais pontos abordados.

Questões de Concursos

 (CEBRASPE/CESPE/MINISTÉRIO DA ECONOMIA/TI-CIÊNCIA DE DADOS/2020)

No que se refere à mineração de dados, julgue o item a seguir.

No modelo CRISP-DM, a fase na qual se planejam todas as atividades para carga dos dados é denominada entendimento dos dados.

A fase de Entendimento dos Dados, no modelo CRISP-DM, aborda uma série de tarefas que tem por objetivo conhecer as bases de dados que foram catalogadas, junto também com o objetivo da organização para aplicação do processo de mineração de dados, porém, ainda estamos em uma fase menos operacional do ponto de vista de manipulação destes dados.

Esta manipulação se torna presente nas atividades da fase de Preparação dos Dados, onde nela os dados serão analisados, limpos, adequados e até transformados, para então serem carregados em bases de dados que serão utilizadas na fase de modelagem.

Resumindo, a questão está errada em afirmar que o  “..o planejamento de todas as atividades para carga dos dados..” esteja na fase de Entendimento dos Dados.

Gabarito: Errado

(CEBRASPE/CESPE/TCM-BA/AUDITOR ESTADUAL DE CONTROLE EXTERNO/2018)

Assinale a opção correta a respeito do CRISP-DM.

a) CRISP-DM é uma suíte de ferramentas proprietárias que vem se tornando um padrão da indústria para mineração de dados, uma vez que fornece um plano completo e tecnologias para a realização de um projeto de mineração de dados.

b) A verificação da qualidade dos dados é uma atividade da fase de entendimento dos dados.

c) Durante a fase de preparação dos dados, é realizado um inventário de requisitos, suposições e restrições de recursos.

d) Na fase de avaliação dos dados, são realizadas as atividades de identificar valores especiais dos dados e catalogar seu significado.

e) Na fase de preparação dos dados, são realizadas as atividades de analisar o potencial de implantação de cada resultado e estimar o potencial de melhoria do processo atual.

Gabarito: Letra b)

 

Referências:

[1] GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel; BEZERRA,Eduardo. Data Mining – Conceitos, técnicas, algoritmos, orientações e aplicações.

[2] PROVOST, Foster; FAWCETT, Tom. Data Science para Negócios.

Por
6 min. de leitura