Empresa

De Hadoop a Google Cloud: 4 grandes hitos que han transformado la gestión del dato en los últimos años

PUE, líder en la implementación de proyectos de datos, cumple 25 años

El nacimiento de la nube supuso un cambio en la forma de gestionar los datos, con entornos cloud e híbridos, en función de la naturaleza del proyecto.

Estos nuevos entornos, Data Cloud, Smart Data y el crecimiento de los datos no estructurados, así como la calidad y el gobierno de la información, son los retos que PUE identifica en su 25 aniversario como compañía referente en proyectos Data.

A partir de la década de los 90 las grandes compañías comenzaron a comprender la trascendencia que los datos tenían como valor diferencial dentro del plan de negocio. Un fenómeno potenciado por la democratización de Internet y el ‘boom’ de las páginas web, que se ha acentuado a lo largo de los últimos 30 años.

En este sentido, un informe de Statista concluye que en 2025 se generará más del doble de datos que en el año pasado. Cerca de 180 zettabytes, aproximadamente 36 mil veces más que el volumen de datos que Google almacena actualmente.

Con motivo de su 25 aniversario, PUE, tecnológica española referente en consultoría e implementación de proyectos Data & Machine Learning, ha recopilado los hitos que ha atestiguado en la transición del legacy big data a las capacidades actuales y que le han servido para responder de forma innovadora a las necesidades de todos sus clientes:

La transición hacia una mayor eficiencia: de Hadoop al Data Cloud

En 2006 surgió Apache Hadoop, software sinónimo de innovación enfocado sobre todo a procesos de ETL por lotes para on-premise. No obstante, su reducido ecosistema de herramientas, y que sus desarrollos en Java fueran relativamente complejos, supusieron un obstáculo para este entorno de trabajo que acabo siendo muy rudimentario.

En pleno 2023, el data cloud se consolida como una innovación que mantiene intacto el espíritu de Hadoop, centrándose en los procesamientos batch, pero en streaming. Una ventaja orientada al tiempo real que, combinada con IA, permite desarrollar procesos en un amplio ecosistema: tanto en la nube como en híbrido, en entornos más cercanos al no-code y el low-code, y ofreciendo capacidades de data quality y data governance.

La evolución en la gestión del dato: de local a cloud e híbridos

Cuando nacieron los primeros proyectos de datos, las compañías no tenían otra opción que acabar decantándose por el on-premise. Tiempo después, el desarrollo de la nube abrió las puertas a una gestión del dato más ágil, flexible y eficiente y que, en una gran parte de los casos, conlleva una inversión menor.

En la actualidad, la base de una estrategia de datos optimizada es analizar la naturaleza de cada proyecto para determinar si la mejor opción pasa por el cloud, la infraestructura local o los entornos híbridos. Un amplio abanico de opciones que explica que, al mismo tiempo, un 72% de las empresas considere repatriar sus datos del cloud al on-premise, al mismo tiempo que el 94% asegura que moverá más datos a la nube, según un informe de la firma Cloudera.

Smart Data: el máximo exponente de la eficiencia en Big Data

A medida que crecía el número de compañías que se aventuraba a sacar partido a sus datos con el propósito de expandir el negocio, el mero hecho de ser una empresa data-driven pasó a ser insuficiente. Hoy en día no basta con recopilar y almacenar grandes dosis de datos, sino que es el momento de apostar por técnicas de análisis innovadoras que permitan hacer un uso más útil, accesible e intuitivo de los mismos.

En este sentido, transicionar del big data al smart data es el factor diferencial para que toda empresa, con independencia de su sector, aproveche al máximo sus datos, lo que repercute en una optimización de los procesos y las operaciones, una minimización de los riegos y amenazas, la apertura a nuevas oportunidades de negocio, la mejora de la experiencia de usuario y, en definitiva, reputar positivamente a la marca.

Un nuevo reto en el corto plazo: el crecimiento de los datos no estructurados

En los inicios, las empresas tenían que hacer frente a una cantidad de datos reducida y manejable. Como resultado, el desarrollo de los proyectos de datos primigenios no era excesivamente costoso en términos operativos. No obstante, conforme la infraestructura comenzó a crecer y se fueron incorporando nuevos avances -como las herramientas de IoT o los dispositivos conectados- el volumen de datos aumentó exponencialmente.

En el contexto actual es frecuente que las organizaciones encuentren volúmenes altos de datos no estructurados -aquellos que no pueden ser almacenados en bases de datos relacionales-. Según datos de la consultora Gartner, entre el 80% y el 90% de los nuevos datos captados por las empresas son no estructurados.

Una realidad que dificulta la gobernanza del dato y que sigue suponiendo un gran reto pendiente de resolver tanto por el conjunto del tejido empresarial como por el lado de la Administración Pública. Un desafío en el que la combinación de tecnología y enfoques analíticos adecuados es fundamental si queremos seguir extrayendo el máximo valor a nuestros datos.

Noticias de Empresa