La historia sobre el uso del dato para el análisis es muy amplia, se podría remontar a finales del siglo XIX con la máquina de censo estadounidense. Existen al respecto diferentes perspectivas que se han establecido con diversa terminología como el Data analytics, en la que se busca llegar a entender los problemas a partir de datos.
También, se conoce el Data driven como la forma de tomar decisiones estratégicas a partir de datos. Todas ellas se basan en conceptos estadísticos o matemáticos que permiten llegar a obtener tendencias sobre un conjunto de datos y llegar a poder plantear hipótesis o acciones orientadas a la mejora del negocio.
A principios del siglo XXI, con el auge de las comunicaciones y las posibilidades que ofrece internet (superada la burbuja punto com), la generación de datos comienza un cambio brusco hacia lo que conocemos como Big Data. El uso de grandes cantidades de datos ha sido el motor de inversión en muchas organizaciones y una oportunidad de conocer más sobre el mundo, ofrecer mejores productos, solucionar problemas que antes no se podían medir o calcular, conocer mejor algunas enfermedades o poder descubrir nuevas galaxias.
Pero la clave de todo es: ¿cómo se puede llegar a obtener conocimiento a partir de datos? La datificación supone un gran problema que se aborda desde la Ciencia de Datos, disciplina que aúna la computación, la estadística, las matemáticas, la inteligencia artificial, el arte de la visualización y el desarrollo del negocio; en definitiva, trata del proceso de obtención de conocimiento a partir de datos según el problema con un objetivo determinado.
Las capacidades de obtención, procesamiento y almacenamiento de datos que existe hoy en día, han provocado que sean necesarias nuevas tecnologías para gestionar datos. Definido simplemente como las 3Vs (Velocidad, Variedad y Volumen), muchas organizaciones tienen la necesidad de aprovechar las ventajas del dato, pero necesitan adaptarse al nuevo paradigma que supone el Big Data. Para ello, se necesita un entendimiento profundo de tecnologías como las bases de datos NoSQL, el procesamiento y almacenamiento distribuido que ofrecen tecnologías como Spark o Hadoop, o la utilización de servicios en la nube, clave para desarrollar proyectos Big Data.
Las metodologías aplicadas a proyectos en ciencia de datos y el uso de marcos de trabajo ayudan a gestionar y controlar los procesos que deben de llevar estos trabajos. Existen distintas metodologías clásicas para abordar la obtención de conocimiento, como el proceso KDD (Knowledge Databases Discovery) y CRISP-DM, que junto con marcos de trabajo ágiles tales como Scrum o Kanban, pueden ayudar a completar satisfactoriamente proyectos Big Data. La fusión de ambos aplicado a los proyectos aporta un alto valor en la construcción de soluciones alineadas con los requisitos y necesidades del negocio.
En este contexto, se necesitan herramientas para extraer conocimiento de forma automática. Por ejemplo, algunas misiones espaciales como GAIA, generan terabytes de datos sobre objetos como galaxias. Esta información no puede ser analizada con las metodologías tradicionales. La inteligencia artificial, en concreto el aprendizaje automático, es fundamental para solucionar este y otros problemas con datos.
El acceso, tratamiento adecuado de los datos, los análisis estadísticos, el preprocesamiento… son fases que pueden llegar a abarcar un 60-80% del tiempo dedicado a un trabajo de Ciencia de Datos. Por tanto, no todo es hacer uso de librerías como Keras o scikit-learn, hay que seguir procesos y prácticas que aseguren el método científico del trabajo y conseguir llegar a solucionar problemas como la clasificación, predicción o agrupamiento en base a unos patrones. Es importante aplicar adecuadamente las técnicas de Ciencia de Datos en el problema concreto que se tenga para poder garantizar el éxito del trabajo en base a los objetivos.
En el Máster Universitario en Big Data y Ciencia de Datos de la Universidad Internacional de Valencia preparamos a nuestros alumnos para utilizar las herramientas del progreso de nuestra sociedad actual, ¿aceptas el reto?
Por Benjamín Arroquia Cuadros
Director del Máster Universitario en Big Data y Ciencia de Datos de la Universidad Internacional de Valencia
Lee también: