CRISP-DM- (Cross Industry Standard Process for Data Mining)
El ciclo de vida del proyecto de minería de datos consiste en seis fases
mostradas en la figura
siguiente.
Fase I. Business Understanding. Definición de necesidades del cliente
(comprensión del negocio)
Esta fase inicial se enfoca en la comprensión de los objetivos de
proyecto. Después se
convierte este conocimiento de los datos en la definición de un problema de
minería de datos
y en un plan preliminar diseñado para alcanzar los objetivos.
Fase II. Data Understanding. Estudio y comprensión de los datos
Comienza con la colección de datos inicial y continúa con las
actividades que permiten
familiarizarse con los datos, identificar los problemas de calidad,
descubrir conocimiento
preliminar sobre los datos
Fase III. Data Preparation. Análisis de los datos y selección de
características
La fase cubre todas las actividades necesarias para construir el conjunto
final de datos a
partir de los datos en bruto iniciales. Las tareas incluyen la selección de
tablas, registros
y atributos, así como la transformación y la limpieza de datos para las
herramientas que
modelan.
Fase IV. Modeling. Modelado
En esta fase, se seleccionan y aplican las técnicas de modelado que
sean pertinentes al
problema (cuantas más mejor), y se calibran sus parámetros a valores óptimos.
Fase V. Evaluation. Evaluación (obtención de resultados)
En esta etapa en el proyecto, se han construido uno o varios modelos que
parecen alcanzar
calidad suficiente desde la una perspectiva de análisis de datos.
Fase VI. Deployment. Despliegue (puesta en producción)
Generalmente, la creación del modelo no es el final del proyecto. Incluso si
el objetivo del
modelo es de aumentar el conocimiento de los datos, el conocimiento
obtenido tendrá que
organizarse y presentarse para que el cliente pueda usarlo. Dependiendo de
los requisitos, la
fase de desarrollo puede ser tan simple como la generación de un informe o
tan compleja como
la realización periódica y quizás automatizada de un proceso de
análisis de datos en la
organización.
La metodología CRISP-DM contempla el proceso de análisis de datos como un
proyecto profesional,
estableciendo así un contexto mucho más rico que influye en la elaboración de
los modelos. Este
contexto tiene en cuenta la existencia de un cliente que no es parte del equipo de
desarrollo, así
como el hecho de que el proyecto no sólo no acaba una vez se halla el modelo idóneo
(ya que después
se requiere un despliegue y un mantenimiento), sino que está relacionado con otros
proyectos, y es
preciso documentarlo de forma exhaustiva para que otros equipos de
desarrollo utilicen el
conocimiento adquirido y trabajen a partir de él.