"comprehendere scire est"

Welcome divider

Consejo Nacional para el Entendimiento Público de la Ciencia.

Data warehouse, análisis de datos no estructurados


Dr. Sócrates Torres Ovalle + Universidad Autónoma De Coahuila; I. Alma Jovita Domínguez Lugo + Universidad Autónoma De Coahuila

1 Introducción
El Objetivo, proporcionar al usuario una mejor visión de los consumos telefónicos, generados en un periodo de tiempo, mediante la creación de un sistema de Información, el cual incluye un programa que permite mostrar en forma grafica y detallada los diversos tipos de llamada, tiempos y costos.
Los datos de entrada, no corresponden con datos electrónicos provenientes de alguna base de datos, se trata de datos tipo texto que residen normalmente en colecciones de recibos telefónicos. En este sentido se puede considerar que se trata de datos no estructurados ni electrónicos del tipo textual.
Mediante el programa, se logra diseñar una bodega de datos, en la cual se almacenan los metadatos documentales, que servirán de base para lograr definir las graficas, proporcionadas al usuario.

2. Bodega de Datos (Data Warehouse)

La definición más conocida para una bodega de datos, fue propuesta por Inmon (considerado el padre de las Bases de Datos) en 1992.
“Un Data Warehouse es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”.
No obstante si el Data Warehouse fuese exclusivamente un almacén de datos, los problemas seguirían siendo los mismos que en los Centros de Información.
Una Bodega de Datos, es un proceso, no un producto. Es una técnica para consolidar y administrar datos de variadas fuentes con el propósito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta ahora.
Los Data Warehouses tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el Data Warehouse
Detalle de datos actuales.- En gran parte, el interés más importante radica en el detalle de los datos actuales, debido a que:
 Refleja las ocurrencias más recientes, las cuales son de gran interés
 Es voluminoso, ya que se almacena al más bajo nivel de granularidad.
 Casi siempre se almacena en disco, el cual es de fácil acceso, aunque su administración sea costosa y compleja.
Detalle de datos antiguos.- La data antigua es aquella que se almacena sobre alguna forma de almacenamiento masivo. No es frecuentemente accesada y se almacena a un nivel de detalle, consistente con los datos detallados actuales.
Mientras no sea prioritario el almacenamiento en un medio de almacenaje alterno, a causa del gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utilizar el disco como medio de almacenamiento.
Datos ligeramente resumidos.- La data ligeramente resumida es aquella que proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel del Data Warehouse casi siempre se almacena en disco.

3 Diseño e implementación
3.1 Obtención de una colección de recibos telefónicos
La tarea de extracción de estos datos, fue complicada debido a que los documentos no se encontraban en formato electrónico, sino en papel. Dado que la compañía de teléfonos no permite el acceso a dicho tipo de datos, nos vimos en la tarea de extraerlos del documento físico, mediante un método óptico.
Se utilizó un sistema OCR1, para escanear y detectar la información textual contenida en los recibos telefónicos mencionados.
3.2 Transformación hacia una colección de documentos con formato electrónico.
En esta fase del proyecto, se desarrollo un programa en la plataforma Visual Basic 6.0, en el que diversos módulos permiten la detección de los datos de interés en el recibo telefónico.
La programación de cada módulo, se hizo coincidir con el formato del dato que se quería extraer, además de hacer uso de una base de datos diseñada especialmente para el manejo y control del archivo texto, generado por el recibo telefónico.
En la figura No. 1, se muestra una parte del programa, en la cual se localiza y almacenan las llamadas realizadas por el usuario a los servicios al cliente, que proporciona la compañía, como son: 030, 040, 050, 060.
1 Optical Character Recognition , Sistema Óptico de reconocimiento de caracteres
Fig. 1 Fragmento del programa en donde se localiza si el tipo de llamada fue Servicio al Cliente
3.3 Extracción de la información hacia una base de datos
La bodega de datos se compone de metadatos documentales [Sócrates, 2005], siguiente diseño, el cual consta de seis tablas, en donde se presentan los campos que nos permiten identificar la información necesaria para graficar. La tabla llamada, esta conformada por los siguientes campos:
Teléfono -Numero de teléfono del propietario de la línea telefónica
Tipo - Almacena el tipo de llamada como local, larga distancia, servicio al cliente
Localidad - Nombre de la ciudad, previamente localizada mediante la lada
Hora - Hora de la llamada
Telefono1 - Número telefónico destino de la llamada
Tiempo - Duración de la llamada
Importe - Costo generado por la llamada
Fech a - Fecha de la llamada

Fig. 2. Base de Datos Teléfonos
3.4 Análisis de la Información contenida en la bodega de datos
Para el análisis de la información fue utilizada la herramienta Power Play Transformer, la cual nos ayuda a estructurar datos. El Transformer genera un modelo basado en las relaciones que detecta en los datos fuente. En dicho modelo se pueden apreciar las dimensiones, los queries y los campos que serán medidos (Measures).
Dimensiones
Las dimensiones son amplias agrupaciones de los datos que representan segmentos importantes de la información, tal como localizaciones, horario, tipo de llamada y titular. Aparecen como línea de botones grises en la tapa del mapa de la dimensión. Las dimensiones consisten en una jerarquía de categorías, organizada por el nivel. Para los propósitos analíticos, cada uno se puede partir en trayectorias drill-down.
Drill-Down
Las trayectorias Drill-Down son unas o más trayectorias verticales dentro de cada dimensión, usada para los propósitos analíticos. Conducen de las categorías del más alto nivel en la jerarquía al más bajo.
Medidas (Measures)
Las medidas son datos numéricos usados para verificar el funcionamiento dentro de la información. Los valores de la medida se derivan de una pregunta transaccional o son calculados en transformador usando fórmulas específicas.
Una vez realizado el modelo, el siguiente paso consiste en crear nuestro CUBO, para ello es necesario que presionemos el icono POWERCUBE.

4 Resultados

Se presenta una interfaz grafica, que facilita al usuario el manejo de la información contenida en los recibos telefónicos, y almacenándolos en la bodega de datos.
La manera de operar este formulario, es sencilla para el usuario, solamente debe de indicar la unidad donde se encuentran almacenados, los recibos telefónicos (previamente escaneados, y grabados como tipo texto), luego presionar el botón revisa, y llena bodega, para asi dar las graficas que apoyaran en las decisiones futuras.
En la Figura No. 3, se muestra la cantidad de llamadas que el sistema recopila agrupándolas por el tipo de llamada mostrando el resultado en una grafica de barras donde se aprecia que el usuario genera mas gasto en las llamadas de larga distancia.
Fig. 3 Cantidad de llamadas agrupadas por tipo de servicio.
En la Figura No. 4. Se visualiza el costo de las llamadas, distribuidos por el estado al que se realizo, apreciando que la mayoría fue dentro del estado al que pertenece este usuario. La Figura No. 5, soporta esta información, en donde se muestra la cantidad de llamadas por estado.
Fig. 4 Costo generado por llamada a diversos estados de la Republica Mexicana
Fig. 5. Cantidad de llamadas agrupadas por estado.

5 Conclusiones y Trabajos futuros.

  • Proponer a la compañía de teléfonos la incorporación de esta herramienta, como un servicio adicional a sus usuarios, que basados en las tecnologías actuales, puede ser de mayor utilidad dentro de la página Web.
  • Proponer a las empresas y microempresas el uso de esta herramienta, que servirá para controlar gastos administrativos.
  • Abarcar hacia otro tipo de documentos: luz, agua, facturas, etc.

Fuentes.
Cómo citar este artículo ISO690.
Portada Aleph-Zero

Aleph-Zero No. 45


Revista de Educación y Divulgación de la Ciencia, Tecnología e Innovación

Richard Rorty; El pragmatismo y la filosofía como genero literario. In memoriam R. Rorty [1931-2007] .

Biografía. Dr. Adolfo Vásquez Rocca + Pontificia Universidad Católica De Valparaíso.

Cuentos sobre agua .

Cuento. Marisa Avogadro +.

Au revoir! Jean-Claude .

Divulgadores. Tania Papaqui + Benemérita Universidad Autónoma De Puebla.

Matemáticas y Escher .

Divulgadores. Liz Ramiro Fernández + Licenciatura en Matemáticas, Universidad de las Américas Puebla;.

Una vida sin recuerdos .

Divulgadores. .

Modelado de sistemas en tiempo real utilizando redes de petri .

Divulgadores. José De Jesús Medel Juárez + Centro De Investigación En Computación - Ipn; Pedro Guevara López + Dirección De Recursos Humanos – Ipn; Víctor Manuel Suárez Quezada + Centro De Investigación En Ciencia Aplicada Y Tecnología Avanzada – Ipn.

Telecontrol sobre TCP/IP .

Divulgadores. Alejandro Israel Barranco Gutiérrez + Centro De Investigación En Ciencia Aplicada Y Tecnología Avanzada, I. P. N; José De Jesús Medel Juárez + Centro De Investigación En Computación, Instituto Politécnico Nacional; Daniel Sánchez Guzmán + Centro De Investigación En Ciencia Aplicada Y Tecnología Avanzada, I. P. N.

Pseudociencia revelada: El secreto y la ley de la atracción .

Divulgadores. Liza Danielle Kelly Gutiérrez + ; Luis Javier Plata Rosas + .

La contaminación con metales, la salud y las estrategias preventivas, ¿qué hacemos para evitarla? .

Divulgadores. Teresa De Jesús Palacios Hernández + Universidad De Las Américas Puebla.

No divulgarás (45. julio -septiembre, 2007) .

Editorial. Miguel A. Méndez-Rojas + Universidad de las Américas, Puebla.

Estimulacion motriz para mejorar la adquisicion de la lecto-escritura .

Educadores. Lic. Lorenzo Alva Frías + ; Lic. Erika Andrade Ballesteros + ; Lic. Delia Banda Correa + ; M.c. Gustavo López Badilla + Universidad Estatal De Estudios Pedagógicos(ueep), .

Integración y marginacion dos grandes luchas de las organizaciones indígenas .

Gobernanza. Katherine Gómez Parra + Alumna De La Carrera De Trabajo Social Universidad De La Frontera.

Determinación de la biomasa zooplanctonica durante un ciclo diurno en la laguna de Barra de Navidad, Jalisco. .

Investigación. Ramiro Flores Vargas + Departamento De Estudios Para El Desarrollo Sustentable De Zonas Costeras Centro Universitario De La Costa Sur, Universidad De Guadalajara (udg-ca-341); José Ángel Hinojosa Larios + Departamento De Estudios Para El Desarrollo Sustentable De Zonas Costeras Centro Universitario De La Costa Sur, Universidad De Guadalajara (udg-ca-341); María Del Carmen Navarro Rodríguez + Departamento De Ciencias Médicas Y Biológicas, Centro Universitario De La Costa, Universidad De Guadalajara (udg-ca-345), Puerto Vallarta, Jalisco; Luis Fernando González Guevara + .

A la memoria de Federico Ferro Gay .

Kultur@leph. Carlos Macias Esparza + .

Data warehouse, análisis de datos no estructurados .

Tecnólogos. Dr. Sócrates Torres Ovalle + Universidad Autónoma De Coahuila; I. Alma Jovita Domínguez Lugo + Universidad Autónoma De Coahuila.