Se llama data warehouse al almacén de datos que reúne la información histórica generada por todos los distintos departamentos de una organización, orientada a consultas complejas y de alto rendimiento. Un data warehouse tiene una orientación corporativa que pretende conseguir que cualquier departamento pueda acceder a la información de cualquiera de los otros mediante un único medio, así como obligar a que los mismos términos tengan el mismo significado para todos. Un data mart es un almacén de datos históricos relativos a un departamento de una organización, así que puede ser simplemente una copia de parte de un data warehouse para uso departamental.
Tanto el data warehouse como el data mart son sistemas orientados a la consulta, en los que se producen procesos en lote (batch) de carga de datos (altas) con una frecuencia baja y conocida.” Muchos almacenes de datos comienzan siendo data marts (para minimizar riesgos) y se va ampliando su ámbito ya que estos están centrados en un tema concreto y están diseñados para una unidad de negocio específica. La implementación incremental reduce riesgos y asegura que el tamaño del proyecto permanezca manejable en cada fase. Otro paso necesario es crear los meta datos (es decir, datos acerca de datos que describen los contenidos del almacén de datos). Los meta datos consisten en definiciones de los elementos de datos en el depósito, sistema(s) del (os) elemento(s) fuente. Cómo los datos se integran y transforman antes de ser almacenados en información similar, es necesario contar con un diccionario donde se explique el contexto y su procedencia.
Preparación de los datos
La staging área o preparación de los datos, es una colección de procesos que limpian, transforman, combinan, y preparan los datos originales para su utilización en el data warehouse. En la staging área los datos originales son transformados a formatos comunes, comprobada su consistencia y su integridad referencial, y preparados para cargar en la base de datos del data warehouse. Una vez localizadas las fuentes de datos, estos se han de preparar para que se les puedan aplicar los métodos o herramientas que construirán el modelo deseado. Esta fase aunque parezca sencilla conlleva aproximadamente el 70% del esfuerzo en los proyectos de data mining de nueva implantación. En este punto hay que asegurarse de unas cuantas cosas:
• Que los datos tengan la calidad suficiente: es decir, que no contengan errores, redundancias o que presenten otro tipo de problemas.
• Que los datos sean los necesarios, quizás haya que no nos harán falta y quizás tendremos que añadir.
• Que están en la forma adecuada: muchos métodos de construcción de modelos requieren que los datos estén en un formato determinado que no ha de coincidir necesariamente con el que están almacenados.
Las técnicas utilizadas para asegurar los tres aspectos comentados son la limpieza de datos, la transformación de los datos y la reducción de la dimensionalidad:
• La limpieza de datos, consiste en procesar los datos eliminando los atributos que sean erróneos o redundantes, siendo los factores de distorsión más importantes:
1. Datos incompletos, puede pasar especialmente en aquellos atributos en que cuando se diseñó el proceso correspondiente a la entrada de datos se decidió que no eran obligatorios o que tenían formato libre.
2. Datos redundantes, repetición de tuplas.
3. Datos incorrectos o inconsistentes, muy común cuando el tipo de valores que puede recibir un atributo no está controlado porque está declarado como "texto libre".
• Transformación de datos, no siempre los datos están en la forma más adecuada para poder aplicar los métodos que hacen falta para la tarea que se ha de llevar a cabo y el modelo que se quiere obtener.
• Reducción de la dimensionalidad, una de las justificaciones más frecuentes para la utilización de técnicas de data mining es su capacidad para trabajar con grandes conjuntos de datos. Ahora bien el tamaño de un conjunto de datos, o de un problema de data mining, la da tanto la cantidad de registros que tiene como el número de atributos que se manejan.
Modelado del almacén
En esta fase, varias técnicas de modelado son seleccionadas y aplicadas y sus parámetros son calibrados a valores óptimos. Existen varias técnicas para los mismos problemas, algunas de estas técnicas tienen requerimientos específicos en el formato de los datos, por lo que puede ser necesario el paso atrás a la fase de preparación de los datos.
Como primer paso se selecciona en función del problema la técnica a utilizar, en el caso que nos ocupa sobre el almacén construido se aplicarán técnicas de análisis en línea de la información u OLAP. Antes de construir el modelo, necesitamos generar un procedimiento o mecanismo para probar la calidad y validez del modelo.
Una vez construido el modelo el diseñador interpreta el modelo de acuerdo a sus conocimientos del dominio y al criterio de éxito del proyecto. Esta tarea interfiere con la fase de evaluación siguiente, el diseñador contacto con los analistas del negocio y expertos del dominio para discutir los resultados en el contexto del negocio.
Empresas que usan DATA WAREHOUSE
Royal bank of canada Paypal 3M Coca-Cola Company Verizon Ford Motor Company Herramientas de nivel usuario para acceder a los activos de datos. La arquitectura y complejidad en general del entorno.
creacion de data werehouse
http://www.eldiarioexterior.com/anterior/conocimiento/docs/BI_Inteligencia_aplicada_al_negocio.pdf