Herramientas de Big Data que toda startup debe conocer

La cuarta revolución industrial ha democratizado herramientas y posibilidades; ha abierto las puertas a una competitividad creciente en igualdad de condiciones teóricas. Las compañías se adscriben a los nuevos campos digitales de estudio, mientras las startups florecen amparadas en la nube, la Inteligencia Artificial, y el resto de materias disruptivas. Todo ello se inscribe en un creciente flujo de datos tanto horizontal como vertical. Las empresas manejan volúmenes más y más grandes de información, buscando conocer soluciones que les permitan aprovechar esos inputs de forma eficiente. Y es ahí donde nace una veta de valor diferencial, regida por determinadas herramientas de Big Data.

Las definiciones son tan variadas como válidas. De acuerdo con TechAmerica Foundation, “el Big Data es un término que describe grandes, complejos y variables volúmenes de datos de alta velocidad, que requieren técnicas y tecnologías avanzadas para permitir la captura, el almacenamiento, la distribución, la gestión y el análisis de la información". El machine learning, el blockchain, y el resto de tendencias tecnológicas propias del sector financiero y digital, se sustentan en esta marea incontrolable de datos que discurren por redes internas y externas sin ser capitalizados. O al menos hasta ahora.

Firmas e instituciones están ya realizando esfuerzos manifiestos por adaptarse al futuro. El pasado 2019 la Comisión Europea proyectó un ambicioso plan de financiación y estímulos destinados a un sector que se espera crezca hasta los 739.000 millones de euros en 2020. Representará el 4% del PIB total del Viejo Continente, y generará unos 10 millones de empleos entre todos los sectores. “Los datos y la inteligencia artificial son los ingredientes para la innovación que pueden ayudarnos a encontrar soluciones a los desafíos sociales, desde la salud hasta la agricultura, pasando por la seguridad o la fabricación”, inscribía el programa.

El Big Data se presenta, así, como la solución a los retos de mayor envergadura. Sí, las empresas se apoyarán en la analítica para mejorar competencias, pero el campo de aplicación de la información no estará únicamente adscrito lo financiero. Mientras en el último Foro Económico Mundial de Davos un grupo de expertos reflexionaba sobre la creación de un nuevo índice de medición alternativo al PIB, el sector de la salud se reinventa, y ayuntamientos de grandes capitales como Madrid intentan aumentar su conocimiento sobre el comportamiento del ciudadano.

El INE ahora promueve estudios de movilidad a través de geolocalización, y empresas como Scriptbook revoluciona las lógicas internas de Hollywood siguiendo algoritmos. Incluso una problemática de envergadura mundial, como es la propagación del Coronavirus, se está afrontando en China y otros países afectados mediante el Big Data. “Los datos son ‘el nuevo petróleo’, se están convirtiendo en pieza clave de la sociedad y la economía”, explicaba Antonio Conde, director de IoT y Transformación Digital de Cisco España, en el Big Data & AI Congress 2019. ¿Cómo se pueden aprovechar las startups de este paradigma?

La consultora Deloitte ha creado una escala para medir la madurez analítica de las empresas llamada IDO (Insight Driven Organization), de la que se desprenden ciertas recomendaciones.“Al integrar los datos, el análisis y el razonamiento en los procesos internos, estas empresas transforman la analítica en una capacidad básica, y promueven una cultura de toma de decisiones basada en datos.” Los pilares a seguir serían la formación, el cambio corporativo-cultural, y la adopción de herramientas de trabajo. Conocer estas últimas es, por tanto, prioritario para sintetizar cualquier actitud proactiva.

La democratización del Open Source

Los datos demuestran que el crecimiento del Big Data no implica un beneficio intrínseco para las empresas. El foco se ha de poner sobre los medios que el sector tecnológico ha ido desarrollando con el paso de los años para procesar las grandes masas de información. En 1969 el Departamento de Defensa de Estados Unidos creó ARPANET, una red de comunicación intragubernamental que conectaba diferentes instituciones del país y trazaba puentes con organismos de defensa extranjeros.

Se había sembrado el origen de Internet, y aunque hasta 1983 no se adoptó el protocolo TCP/IP, y en 1990 surgió la red moderna, aquella iniciativa incentivó la filosofía de cooperación global que más tarde daría vida a las herramientas de código abierto. La idea pasaba por permitir a los usuarios realizar modificaciones sobre los códigos fuente de los softwares, promover la máxima eficiencia y el mayor avance socio-económico entendiendo el mundo desde una óptica comunitaria.

En 1988 Christine Peterson creó el término Open Source, que delimitaría la materia de estudio, y entre 1997 y 1998 se cocinó la fórmula de crecimiento definitiva; Netscape Communications Corporation empleaba la tecnología de código abierto en el proyecto Mozila, y se fundaba la Open Source Initiative. Dos décadas después, este esfuerzo permite a startups sin grandes instalaciones trabajar en un entorno de “comodity hardware”, en el que no son necesarias arquitecturas complejas para analizar y procesar los datos. Hablar ahora de Big Data es hacerlo del ecosistema Hadoop y de sus derivadas.

Herramientas de Big Data que toda startup debe conocer

De necesidades a nodos: Big Data o Small Data

Para gestionar masas de inputs inconmensurables es imperativo el fraccionamiento. Y eso mismo es lo que permite Hadoop; un sistema de trabajo que determina la metodología de almacenamiento y acceso de datos. Lo hace apoyándose en HDFS y en MapReduce. El primero es un sistema de ficheros por nodos que gestiona las interacciones de inputs y outputs de forma automática. El segundo es el framework o entorno de gestión de recursos, que distribuye el trabajo localizando los datos correspondientes. MapReduce descompone cada unidad de datos (dataset) en partículas más simples y aprovechables de cara a extraer valores prácticos. Es decir, que este se encarga del procesamiento, y HDFS carga con el almacenamiento.

Hadoop nació en 2006, y desde entonces su efectividad y coste de utilización le han llevado a convertirse en el referente de Big Data para grandes multinacionales como Yahoo o Facebook. Algunas firmas como IBM —Hbase— y Microsoft —Cloudera— decidieron desarrollar sus propios frameworks tomando como base los principios ideados por Hadoop, mientras que otras como HP —SAP Hana— optaron por diversificar trabajando con distintos proveedores al mismo tiempo.

Adoptar una u otra herramienta dependerá de las necesidades de cada empresa, siendo las Open Source en algunos casos incompatibles con plazos apretados o recursos de formación limitados.La visión integral de la analítica implica realizar una aproximación a los datos inversa; plantear primero la estrategia, y en base a objetivos, determinar qué herramientas son más prácticas para cumplir el programa previsto.

La eficiencia de un software no la determina, por tanto, los resultados que ofrece a las empresas, sino el grado de compatibilidad con las necesidades de estas. No sorprende que entre startups se haya popularizado el Small Data; un concepto similar al conocido, pero adaptado a la realidad de las pymes. En estas lides otros softwares más limitados como Google Analytics, Mailchimp, o SEOSiteCheckup sirven se salvaguarda para el potencial del Big Data.

Ahora bien, los dos campos de trabajo no son divergentes. Las necesidades del mercado no distinguen de volumen de datos, exponiendo unas profesiones homogéneas para autónomos y multinacionales que el Business Intelligence recoge bajo su paraguas. En ese sentido, y de acuerdo con el último informe EPyCE, las profesiones más demandadas de Big Data en la actualidad son las de ingeniero informático (7,53%), científico de datos (6,45%) y programador informático (5,38%).

Apache Storm: la alternativa para el procesamiento en tiempo real

La asimilación de Hadoop en cientos de empresas dibujó una serie de necesidades nuevas para las que se ideó Apache Storm. Misma arquitectura, mismo propósito, pero distinto funcionamiento. Este framework también sirve para procesar grandes volúmenes de datos, pero a diferencia de Hadoop, lo hace en tiempo real. Su capacidad de retroalimentación resulta ideal para la prevención de riesgos en entornos digitales, el control de sensores, y la medición de métricas altamente volubles.

Según describe la web oficial, “Apache Storm facilita el procesamiento fiable de flujos ilimitados de datos, haciendo, para el procesamiento en tiempo real, lo que Hadoop hizo para el procesamiento por nodos”. La herramienta además es escalable, y, por tanto, ideal para las necesidades de rápido crecimiento propias de una startup. “Consume flujos de datos y los procesa de forma compleja, repartiendo los flujos entre cada etapa del cálculo según sea necesario”. Lo que, junto a su compatibilidad con todo tipo de lenguajes, y su facilidad de uso, la han erigido entre las soluciones de Big Data más escogidas por las empresas.

Apache Storm está integrado por dos componentes: Spouts y Bolts. Los primeros —representados por grifos— se encargan de recoger los inputs, mientras los segundos —retratados como rayos que actúan sobre el líquido— los procesan y transforman en datos de valor añadido. La principal diferencia de esta herramienta respecto a Hadoop está en su cluster. En la anterior, MapReduce termina de actuar cuando finaliza la tarea; por su parte Storm se queda esperando a más datos de forma permanente. Dicha característica confiere al framework de una flexibilidad incomparable, y le permite escalar sin apenas ataduras.

Una de sus aplicaciones más habituales y explicativas es el conteo de palabras en Twitter. La librería Java Twitter4J sirve de comunicación con el API de la red social, y establece la ventana de actuación para Apache Storm; el Spout recolecta los tuits en tiempo real, y los Bolts los van descomponiendo en palabras organizadas por categorías. Una solución ideal para seguimiento de etiquetas, ejecución de concursos, o control de daños, que empresas como Groupon, Spotify o la propia Twitter, entre muchas otras, ya utilizan.

Otras herramientas de Big Data

Basadas tanto en Apache como en Hadoop existe otra gran variedad de herramientas con funciones más específicas. Destaca Hive, un software de almacenamiento de datos que convierte la información en resúmenes para su posterior consulta o análisis, el mencionado HBase, un sistema administración ejecutado de bases de datos ejecutado sobre HDFS que organiza la información en columnas, Spark, un hermano más de MapReduce que carga los datos en memoria y genera datasets intermedios, o MongoDB, un Data Warehouse especializado en almacenamiento de ficheros de usuarios.

La lista de herramientas sigue y sigue —Pig, Impala, Solr, Kudu, Sentry, Hue, Oozie, Sqoop, Flume—, completando una red de soluciones que resuelven las encrucijadas que las empresas se encuentran en su día a día a la hora de afrontar la ingeniería de datos, la analítica, el rastreo, el almacenamiento e integración, y el resto de competencias relacionadas con el Big Data.

Merece la pena detenerse en el caso de Apache Kafka, la herramienta que nació como sistema de mensajería interna en LinkedIn para gestionar 1.400 millones de envíos al día. Su eficiencia la terminó empujando al campo de las Open Source, donde funciona como plataforma de transmisión de datos que permite tanto publicar como almacenar y procesar mensajes en tiempo real. Se ha hecho especialmente popular entre las compañías desarrolladoras de apps gracias al grado de interconectividad que ofrece; los programadores que no optan por el método síncrono, apuestan por la alternativa que ofrece Kafka para gestionar los microservicios.

En Yoigo entendemos la importancia de la interconectividad en una era de datos, y por eso ofrecemos la Tarifa SD-WAN, basada en la nueva concepción de red inteligente con la que se puede, a través de software, gestionar y controlar de forma centralizada los componentes hardware de una red amplia. Si eres empresa y todavía no has contemplado sumergirte en las posibilidades que ofrecen las nuevas infraestructuras de la era digital, visita nuestra web o llama al 900 676 535 para informarte de lo que podrías estar perdiéndote.