BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA
1 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. INDICE Contenido INDICE.................................................................................................................... 1 OBJETIVO GENERAL ............................................................................................ 4 INTRODUCCIÓN .................................................................................................... 4 BIG DATA................................................................................................................ 5 DEFINICIÓN DE BIG DATA.................................................................................... 6 ¿QUIÉN SE BENEFICIA CON BIG DATA?............................................................. 7 Elementos Claves En La Big Data..................................................................... 10 ¿Cuándo usar Big Data? ................................................................................... 11 Ciclo de un proceso en la Big Data.................................................................... 12 Recopilación................................................................................................... 13 Almacenamiento ............................................................................................ 13 Procesamiento y análisis................................................................................ 14 Consumo y visualización................................................................................ 15 Ventajas de usar Big Data en la empresa...................................................... 17 Datos clave que proporcionan ventajas ......................................................... 18 Características que generan ventajas............................................................ 19 Datos relacionados con la Big Data................................................................... 19 ¿Cómo implementar el Big Data sin complicaciones?....................................... 21 Trabajos de más crecimiento............................................................................. 22 ROLES DENTRO DE LA BIG DATA..................................................................... 23 Ingeniero de Datos ............................................................................................ 24 Científico de Datos ............................................................................................ 24 Ingeniero de Machine Learning ......................................................................... 25 Desarrollador ..................................................................................................... 25 Analista de negocios.......................................................................................... 25 BIG DATA Y GOOGLE CLOUD PLATFORM........................................................ 26 Ventajas de herramientas especializadas en Big Data...................................... 26 Google Cloud Platform para Big Data................................................................ 27
2 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Herramientas de Google Cloud para los diferentes Roles................................. 29 GCP una plataforma analítica completa y gobernada ....................................... 30 Importancia de un Data Lakes en GCP ............................................................. 31 Arquitectura Referencial en GCP....................................................................... 33 Herramientas de gobierno para democratizar conocimiento.............................. 34 Cloud Data Loss Prevention........................................................................... 34 Data Catalog .................................................................................................. 36 Cloud IAM ...................................................................................................... 38 GOOGLE CLOUD PLATFORM............................................................................. 40 Darse de alta ..................................................................................................... 40 Listado de herramientas de Google Cloud Platform .......................................... 45 Explorar algunas herramientas.......................................................................... 52 Big Query. ...................................................................................................... 52 Pub/Sub ......................................................................................................... 55 Dataflow ......................................................................................................... 57 Data Catalog .................................................................................................. 59 Vertex IA ........................................................................................................ 62 Visión ............................................................................................................. 63 Document AI .................................................................................................. 65 Speech-to-Text............................................................................................... 67 Natural Language........................................................................................... 69 Pipelines de datos ............................................................................................. 71 Google Cloud Dataflow...................................................................................... 73 Google Cloud BigQuery..................................................................................... 75 BigQuery ML para Data Analyst y Data Scientist............................................... 79 Google Cloud Pub/Sub ...................................................................................... 81 INTEGRACIÓN DE DATOS CON BIGQUERY Y DATA STUDIO......................... 87 BIG DATA Y OTRAS DEFINICIONES ................................................................ 109 Big Data........................................................................................................... 109 Datos ............................................................................................................... 109 Información...................................................................................................... 109 Software........................................................................................................... 109
3 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Hardware ......................................................................................................... 109 Software Libre.................................................................................................. 110 Software propietario......................................................................................... 110 GFS (Google File System)............................................................................... 110 MapReduce ..................................................................................................... 111 Sistema de archivos distribuidos ..................................................................... 111 BigTable........................................................................................................... 112 Dremel ............................................................................................................. 112 Data Lakes....................................................................................................... 112 Pipeline de datos ............................................................................................. 112 TABLA DE CONTENIDO..................................................................................... 113
4 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. OBJETIVO GENERAL Al término del curso el alumno conocerá el significado, y aplicación de la Big Data. También conocerá las herramientas principales de Google Cloud Platform para el uso de la Big Data. INTRODUCCIÓN El manejo de los datos ha evolucionado a grado de que hoy en día aquellas empresas o instituciones que sepan sacarles el provecho tendrá una ventaja competitiva respecto a quienes no sepan aprovecharlo. Los datos por si solo tal vez no tengan tanto valor, lo importante es la información que se puede sacar de ellos. Todos los días, a cada segundo se generan millones de datos en internet. Estos datos representan la oportunidad de crecimiento para muchas empresas. Todo lo que hacemos dentro de una red puede ser monitoreado en tiempo real y ser analizado para sacar información que pueden representar mayores ganancias, menos costo, optimización de recursos, reducción de tiempos, entre otros. Gracias a la inteligencia artificial se pueden realizar modelos que permitan tomar decisiones más acertadas, basándose en los datos analizados. Se pueden obtener tendencias y predicciones.
5 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. BIG DATA La Big Data, aunque es un concepto que probablemente hayas escuchado mucho en los últimos años, puede que no te haya quedado claro aún, a qué se refiere exactamente. Existen diferentes definiciones y esto te puede confundir. No te preocupes, para esto fue diseñado este curso, para que te quede claro qué es, dónde se aplica, y cómo le puedes sacar provecho. https://thumbs.dreamstime.com/
6 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. DEFINICIÓN DE BIG DATA Veamos algunas definiciones de diferentes fuentes: Big data es un campo que trata formas de analizar, extraer sistemáticamente información o tratar con conjuntos de datos que son demasiado grandes o complejos para ser tratados por el software de aplicación de procesamiento de datos tradicional. https://en.wikipedia.org/wiki/Big_data Big data se puede describir en torno a desafíos de administración de datos que, debido al incremento en el volumen, la velocidad y la variedad de los datos, no se puede resolver con las bases de datos tradicionales. https://aws.amazon.com/es/big-data/what-is-big-data/ Big data es un término en desarrollo que describe un gran volumen de datos estructurados, semiestructurados y no estructurados que tienen el potencial de ser extraídos para obtener información y usarse en proyectos de aprendizaje automático y otras aplicaciones de análisis avanzado. www.iebschool.com/definición-big-data En las definiciones anteriores puedes observar que, si bien no son exactamente iguales, sí hablan de lo mismo: analizar datos, extraer información, procesamiento de datos, gran volumen de datos, diferentes tipos de datos, aprendizaje automático, bases de datos… Esta lista de palabras puede seguir creciendo si analizamos otras definiciones. Lo importante es saber a qué se refieren. Los diferentes servicios que te ofrecen las herramientas de Big Data te permiten establecer ciclos de vida más corto para la creación de DataSets, de entrenamiento y predicción de modelos.
7 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. ¿QUIÉN SE BENEFICIA CON BIG DATA? La imagen anterior menciona “la experiencia de compra para los usuarios”, esto se refiere a que cuando hacemos una compra o buscamos productos, toda esa información llega a las grandes empresas las cuales se enteran de tus gustos o necesidades y emprende una campaña personalizada para poder venderte productos, si no lo mismo que buscas, sí productos similares. Pero también la imagen habla de “resultados espectaculares para las empresas”. Como lo acabamos de ver todo lo que tu hagas en internet, mientras no estés en “modo incógnito” las grandes empresas se enteran.
8 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Por lo tanto, podemos ver al Big Data como el análisis y administración de enormes volúmenes de datos los cuales superan las capacidades de otras herramientas tradicionales utilizadas para la captura de gestión de datos. Se compone de algoritmos que analizan el comportamiento de los visitantes en los sitios y su objetivo es analizar datos e información útil de manera inteligente que ayudan a aumentar ventar, reducir gastos, generar servicios de manera personalizada y tomar decisiones acertadas. Es mejor que nos acostumbremos a pensar que siempre nos están observando. Por supuesto que esto puede tener algunos beneficios, pero puede que nos parezca que están violando nuestra privacidad. Existen diferentes fuentes que producen información y datos como lo son las redes sociales, blogs, páginas web así como los movimientos de dinero en entidades bancarias y financieras. Además de la información recopilada en puntos de ventas en centros comerciales.
9 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Las redes sociales son una manera de interacción en las que se pueden añadir amigos, comentar en perfiles, empezar discusiones y crear grupos. Todo esto crea un gran volumen de información útil para las empresas. Debido a estos movimientos muchas empresas y organizaciones desean utilizar esta información con el objetivo de mejorar las prestaciones de sus servicios o negocios aumentando sus ventas y agregando valor a su comercio. La información digital que se genera de manera diaria en nuestro planeta crece exponencialmente. …..
10 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Elementos Claves En La Big Data Cinco cosas que se deben de atender cuando hablemos de Big Data son: Volumen Hace referencia a la cantidad de datos que se va a tratar que puede ser desde megabytes, terabytes, petabytes e incluso exabytes. Variedad Los datos pueden ser procedentes de diversas fuentes y de diferentes tipos, por ejemplo, pueden proceder de redes sociales, aplicaciones, encuestas, transacciones en línea, consultas web, entre otros, y algunos ejemplos de tipos de datos son: textos, fechas, imágenes, sonidos, entre otros. Velocidad Las empresas demandan respuestas cada vez más rápidas para obtener información relevante en función de los datos capturados. Veracidad Quien valla a usar los datos deben de tener cierta certeza de que son datos que realmente tienen validez. Valor Los datos deben de representar algo de lo cual pueda sacarse provecho. Para hablar de Big Data no basta con tener cierta cantidad de información y procesarla. No, para hablar de Big Data tenemos que estar hablando de grandes, sí, grandes cantidades de datos y de diferentes tipos que mediante un análisis se pueda extraer información valiosa en tiempos relativamente cortos.
11 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. ¿Cuándo usar Big Data? Cuando una empresa u organización tiene problemas debido al gran flujo de información que se está generando y que necesita ser analizada pero los recursos con los que cuenta no le son suficiente para obtener resultados en tiempos oportunos. Para casos similares al mencionado es importante considerar tecnologías especializadas en Big Data. Si no se toman en cuenta las tecnologías asociadas al Big Data puede causar costos elevados al corto, mediano y largo plazo. También puede verse afectada la productividad y la competitividad. Una decisión oportuna y adecuada referente al uso del Big Data puede ayudar a las empresas a reducir costos y ser más eficientes al trasladar el trabajo intensivo existente a tecnologías relacionadas con Big Data. Además, una vez que se implementa la Big Data pueden aprovechar sus bondades para aprovechar nuevas oportunidades. Un punto muy relevante que se tiene que abordar es saber la complejidad que existe hoy en día en una empresa para poder resolver algunos temas como: ¿Cómo crear Date Lakes?
12 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. ¿Cómo hacer analítica sobre los datos que están dispersos en distintas aplicaciones heredadas? Es común que existan datos en múltiples fuentes y silos de información. y también hay un cambio de paradigmas, hoy en día las empresas le dan mucho mayor importancia al valor de los datos. Ciclo de un proceso en la Big Data Los datos por sí solos no representan información importante para las empresas u organizaciones. Para que estos datos se conviertan en un producto con valor es importante procesarlos. Existen herramientas que se ocupan de todo el ciclo de administración de datos, para que estos tengan valor. Las tecnologías relacionadas con la Big Data hacen que resulte técnica y económicamente viable no solo recopilar y almacenar los datos, sino también analizarlos para descubrir información nueva y valiosa. En la mayoría de los casos, cuando estamos haciendo uso del Big Data se sigue un flujo de datos común, que va desde la recopilación de los datos hasta la generación de reportes que muestren información valiosa en función de esos datos. Por lo tanto, cuatro etapas principales en el flujo de datos haciendo uso de la Big Data son:
13 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Recopilación Recopilar los datos sin ser procesados. Por ejemplo, registros, transacciones, dispositivos móviles, compras, búsquedas, entre otros. Este es el primer paso para hacer uso de las tecnologías del Big Data. Con las herramientas adecuadas este paso se puede facilitar lo que permite obtener datos de muchos tipos, tanto estructurados como no estructurados, ya sea en tiempo real o por lote de datos. Es importante que todos los datos sean centralizados en una única fuente de la verdad que nos permita hacer análisis de los datos. Almacenamiento Ya que se tienen los datos se deben almacenar. Es importante que el almacenamiento sea seguro y que se pueda escalar. Los datos pueden ser almacenados de manera permanente o por tiempo limitado, es decir que estén almacenados mientras se procesan.
14 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Procesamiento y análisis Los datos no procesados no proporcionan información. En este punto de procesamiento y análisis los datos son transformados en información. La información obtenida mediante algún tipo de análisis es almacenada ya sea para que esté disponible para su visualización o para hacerle análisis más profundo que pueda arrojar nueva información.
15 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Consumo y visualización Lo importante de los datos en sí, es extraerle la información valiosa. Lo ideal es que las partes interesadas puedan acceder a los datos mediante herramientas ágiles de visualización de datos e inteligencia empresarial de autoservicio que permitan explorar los conjuntos de datos de forma rápida y sencilla. Según el tipo de análisis, los usuarios finales también podrían consumir los datos resultantes como predicciones estadísticas (en el caso de análisis predictivo) o como acciones recomendadas (en el caso del análisis prescriptivo). Resumiendo, el primer punto está relacionado con la ingesta de datos. Cómo podemos automatizar y perfeccionar esa ingesta de datos. Cómo podemos crear estos Pipeline de datos para que esa información fluya desde la fuente de información de tu empresa hasta este data warehousing y Data Lake que va a ser única fuente de la verdad. Una vez que tenemos nuestro Data Lake podemos pensar en posibles casos de uso de analítica avanzada.
16 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Entorno completo del Big Data
17 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Ventajas de usar Big Data en la empresa 1. Mejora de la toma de decisiones. El análisis de la información reduce los riesgos y se toman decisiones inteligentes de forma ágil. 2. Mejora en la eficiencia y optimización de costos. El análisis de Big Data puede acelerar la velocidad de desarrollo de un producto. 3. Segmentación de los clientes. Permite utilizar todos los datos sobre los clientes para desarrollar un marketing personalizado. 4. Seguridad en los datos. Mantiene un control rápido y eficaz del ecosistema de datos para identificar potenciales amenazas internas. 5. Mejora de la accesibilidad de la información dentro de la empresa. Esto es gracias a las herramientas que facilitan la búsqueda de la información. 6. Nuevas fuentes de ingresos. La información que se obtiene del análisis de Big Data puede comercializarse como datos de tendencias a otras empresas. 7. Ventajas competitivas. La extracción y análisis de datos ayuda a determinar el comportamiento de los clientes, y a fijar precios en consecuencia.
18 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Datos clave que proporcionan ventajas 1. Las oportunidades para hacer uso de la Big Data son casi ilimitadas, pero las empresas necesitan aprender a analizar la información con la que cuentan de manera efectiva. 2. La Big Data brinda una oportunidad para que las empresas pronostiquen, planifiquen con mayor certeza y cuenten con información más valiosa acerca del comportamiento de sus stakeholders. 3. El uso efectivo de la Big Data puede ayudar a mejorar el análisis del comportamiento de sus colaboradores, permitiendo desarrollar capacidades efectivas y mecanismo de retención más atractivos. 4. La Big Data puede impulsar la eficiencia y el ahorro de costos de los recursos asignados, un mejor flujo de producción y de servicios compartidos. 5. La Big Data puede mejorar la toma de decisiones estratégicas, así como ayudar a identificar y reducir riesgos como fraude y mal endeudamiento.
19 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Características que generan ventajas 1. Gestiona un gran volumen de datos generados en todo el mundo. Por ejemplo, Walmart almacena más de 1 millón de transacciones comerciales para identificar los productos que compran sus clientes. 2. Analiza toda la información con la finalidad de obtener datos reales, útiles y verídicos. Esto facilita y agiliza la toma de decisiones por parte de las empresas y organizaciones. 3. Trabaja en tiempo real con diferentes fuentes que producen información generando millones de datos cada segundo. Big Data reduce tiempos de análisis y gestión de una manera increíble. 4. Combina todo tipo de datos en diferentes formatos: textos, videos, audio; incluso información de nuestra actividad física generadas por tecnologías wearables. 5. La Big Data permite adecuar la forma de interacción entre empresa y clientes, así como la prestación de sus servicios. 6. Toda la información adquirida de la Big Data es útil tanto para corporativos internacionales como para empresas de menor tamaño. Datos relacionados con la Big Data Empresas como Google, Apple y Amazon crean estrategias de Marketing personalizadas. Sus anuncios se basan en los gustos y necesidades de sus clientes. Amazon analiza las compras de sus clientes para poderles recomendar otros productos que pueden ser de su interés.
20 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Apple observa las búsquedas de los usuarios para predecir futuras demandas y así presentarles nuevas soluciones tecnológicas. Google ha aplicado Big Data en su servicio de traducción con el objetivo de desarrollar nuevas aplicaciones y usos para su traductor. Cada vez que hacemos clic en algo del internet estamos dejando rastros visibles de datos que nos definen como consumidor. Se pude mentir en una encuesta, pero no en nuestros hábitos de consumo con el Big Data. Walmart descubrió con la Big Data que se vendían mucho más sus galletas tras la alerta de un huracán porque la gente las adquiría como provisiones. Por ello posicionó su marca tras los informativos del tiempo, lo que supuso un aumento importante de ventas. El sector bancario puede inferir a través del análisis de los movimientos de las tarjetas de crédito cómo va a evolucionar la economía. Plataformas de pago online identifican patrones de actividad fraudulenta en las operaciones que registran para crear alertas y permitir una detención precoz. Los científicos pueden analizar datos históricos de variables como la temperatura, la presión atmosférica o la nubosidad para predecir con mayor rapidez y exactitud la magnitud de un huracán y el rumbo que va a tomar. La secuenciación del genoma humano produce gran cantidad de datos que los científicos pueden analizar para hacer más fácil, barata y rápida la investigación de enfermedades. Con datos procedentes de contadores inteligentes de consumo eléctrico de los usuarios y con datos sobre variables meteorológicas se puede optimizar la producción de energía y maximizar el uso de energías renovables.
21 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Proporciona a los usuarios información sobre dónde tienen más plazas libres para aparcar analizando los datos que emiten los sensores de aparcamientos instalados en una ciudad para reducir tiempos y contaminación. ¿Cómo implementar el Big Data sin complicaciones? Tendemos a pensar que el Big Data es cosa de multinacionales y grandes empresas y que está fuera del alcance del resto. Sin embargo, el Big Data tiene un gran potencial para cualquier tipo de negocio si sabes cómo implementarlo en tu empresa. Veamos los siguientes puntos. 1. Conocer sus posibilidades. Tanto los directivos como el resto de empleados deben saber qué es el Big Data y qué posibilidades ofrece para alcanzar sus objetivos de negocio. 2. Modelos analíticos. Es importante saber analizar los datos obtenidos y utilizarlos en tu estrategia de negocio. Podrás establecer patrones de comportamiento y adelantarte a sus movimientos ofreciendo a tus clientes lo que buscan. 3. Define los nuevos KPIs. Determina cuáles son las métricas que estás buscando, ¿Qué necesitas saber para actuar en función de los objetivos de tu negocio? 4. Haz una buena limpieza. Seguramente tu empresa disponga de datos que no son útiles para la estrategia que quieres seguir. Quédate con los datos que te interesan y descarta los duplicados, incompletos o inexistentes. No los confundas con tus KPIs. 5. Piensa dónde recopilarás todos los datos. La propia actividad económica de una empresa genera miles de datos controlables, pero hay otras fuentes de información que probablemente no estés considerando: intranet laboral, repositorios, etc. Has una lista de todas y conéctalas a la herramienta que te sirva para consolidarlas.
22 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. 6. Elige la herramienta que necesitas. Para desarrollar tu estrategia de Big Data, necesitarás un software especializado que te permita recopilar y analizar datos, seleccionar KPIs y exportar informes personalizados en función de tus objetivos. 7. No rompas el Banco. Existen alternativas respecto al costo y sus funcionalidades para cualquier tipo de empresa. Es bueno antes de elegir una opción echar una mirada lo que hay en el mercado actualmente y lo que puedes invertir en este tipo de herramientas. Trabajos de más crecimiento
23 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. ROLES DENTRO DE LA BIG DATA La Big Data es un mundo muy grande en el que para una sola persona sería muy complicado tener el dominio de todas las partes que lo componen. Primero tienes que saber qué es la Big Data, para qué sirve, qué beneficios produce, qué herramientas existen, para después tomar una decisión de qué área quieres especializarte. Veamos los roles más importantes dentro de la Big Data.
24 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Cada uno de estos roles tienen necesidades distintas. Algunos puede que requieran codificar, tal vez requiera una interfaz gráfica, tal vez automatizar algún proceso. Como podemos ver son distintas las necesidades que cada uno de los usuarios de una empresa requiere. Ingeniero de Datos El ingeniero de datos es el profesional encargado de sentar las bases para la adquisición, el almacenamiento, la transformación y la gestión de los datos en una organización. Científico de Datos Los científicos de datos son perfiles muy cotizados por las empresas. Su principal función es extraer conocimiento e ideas que tengan un impacto en los negocios a partir de los datos que analizan e interpretan. Para ello, se encargan de limpiar los datos, estructurarlos y crear modelos de datos usando técnicas de análisis. Necesitan una buena base matemática, estadística y en lenguajes de consulta y programación orientados a analítica, como SQL, R o Python, así como estar familiarizados con técnicas y algoritmos de machine learning. Es común que también trabajen con herramientas como Excel.
25 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Ingeniero de Machine Learning Un ingeniero de Machine Learning es el responsable de llevar a cabo el desarrollo de Machine Learning en una empresa. Desarrollador Colabora con científicos de datos para integrar IA a través de API REST en aplicaciones. Analista de negocios Un analista de negocios descubre soluciones de AI Hub y las implementa en producción.
26 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. BIG DATA Y GOOGLE CLOUD PLATFORM Ventajas de herramientas especializadas en Big Data Si bien cualquiera puede emprender desde cero y formar sus propios mecanismos de Big Data, no es una tarea fácil y mucho menos algo que se desarrolle en poco tiempo. Tal vez una empresa que dentro de sus proyecciones tenga considerado, de manera paulatina, crecer a un ritmo que a su vez le permita estar procesando los datos para extraer la información que necesita. Para esto deberá presupuestar al personal calificado en desarrollo de software, análisis de datos, infraestructura física, logística, seguridad, mantenimiento y todo lo que conlleva un manejo completo de los datos. Como podemos ver no es una tarea nada fácil. Por este motivo las mayorías de las empres contratan herramientas especializadas en el uso de Big Data. A continuación, veremos las ventajas de dichas herramientas: Siempre disponible de manera inmediata: Los datos se almacenan en clústeres de servidores de gran tamaño y capacidad de procesamiento, lo que resulta en largos ciclos de configuración y aprovisionamiento. Los prestadores de servicios de Big Data pueden implementar la infraestructura necesaria de manera inmediata. Gracias a esta prestación las empresas pueden echar a andar sus proyectos en corto plazo haciendo que aumente su productividad, les permite probar herramientas nuevas de manera más sencilla y con menos recursos económicos ya que son servicios escalables, es decir, tienen la capacidad de incrementar las capacidades en función de la demanda. Gran capacidad y profundización: El trabajo que la Big Data puede realizar es tan variado como los tipos de datos que se desean analizar. Las capacidades de almacenamiento y procesamiento de la información son muy grande, prácticamente ilimitada para una empresa. El nivel de profundidad de análisis que se desee hacer a los datos para obtener información es muy superior a cualquier tecnología que uno pueda tener instalada físicamente en la empresa. Con las plataformas especializadas en Big Data se pueden hacer prácticamente cualquier aplicación sin importar la carga de trabajo que esta represente.
27 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Confianza y seguridad: Los proveedores de servicios de Big Data no solo ofrecen la infraestructura física, sino que también proveen seguridad y ciertas garantías de que tu información está bien resguardada tanto contra fenómenos naturales como contra ataques cibernéticos. Se realizan auditorías de los entornos constantemente bajo ciertas normas. Soluciones: Las herramientas que ofrece los proveedores de servicios de Big Data son muy numerosas y prácticamente te ofrecen soluciones para cualquier tipo de problemas relacionado a la administración de datos. Google Cloud Platform para Big Data BigQuery Es un servicio server less totalmente escalable que permite trabajar con petabytes de información y lo más importante permite separar el cómputo del procesamiento. Pub-Sub Permite trabajar a través de tópicos, esos tópicos permiten conectarnos con distintas fuentes de información y obtener estos elementos en tiempo real. Estos elementos pueden llevarse hasta un Data Flow para poder hacer filtrado, poder hacer ordenamiento de estos registros y luego cargarlos en BigQuery. Data Flow Es un servicio de extracción, transformación e ingesta de datos que puede funcionar tanto en lot como en Near Real Time. Éste servicio permite trabajar con base a Jobs y éstos pueden ser a través de templates que ya vienen pre configuradas.
28 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Data Catalog Es un servicio totalmente escalable que permite administrar la meta data que se tienes en la organización. Ésta meta data se genera desde los procesos de ingesta hasta los repositorios de datos. Es bastante útil que se pueda conectar los sistemas y poder almacenar esta data para que distintos usuarios dentro de la organización puedan conocer cuál es la información que se tiene cargado. Vertex AI Almacena todas las funcionalidades para poder hacer y crear Data sets, hacer ingesta, hacer entrenamiento, deployement de estos modelos de una forma asistida con AutoML Tables o de una forma programática con Jupyter Notebook. Éstas dos opciones están disponibles en Vertex AI. Vision Nos permite resolver una serie de casos de uso enfocados en la detección tanto de video como de imágenes para detectar elementos. Document AI Permite tomar información no estructurada desde distintos formularios, PDF, correo electrónico, y poder extraer esta información para poder procesarla de una forma ordenada y encontrar insight de estos textos. Speech to Text Permite resolver casos de uso donde se tiene audio, y a ese audio se necesita hacer una transcripción a texto para después analizarlo con los servicios de lenguaje natural.
29 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Natural Language Permite analizar, extraer sentimientos, extraer entidades y todo eso gracias al análisis semántico de información de texto. Herramientas de Google Cloud para los diferentes Roles ¿Cómo Google Cloud puede apoyar las necesidades que tiene cada uno de los roles dentro de la empresa en el análisis de datos? El Data Engineer puede utilizar Pub/Sub para realizar una ingesta de datos en tiempo real, Data Flow o Dataprep para hacer un análisis de datos. Un Data scientist necesita tener acceso a los servicios de Vertex AI Jupiter Notebook para entrenar modelos. Un ML Engineer va a tener acceso a la parte de codificación de Vertex AI para la parte de predicciones y a Kubeflow para crear distintos Pepilene. Un Developer colabora con científicos de datos para integrar inteligencia artificial a través de API REST en aplicaciones. Un Buseness Analyst necesita colaboración, por ejemplo, con el servicio de Gif Hub donde pueda compartir los distintos Insight de los resultados de los modelos y también necesita acceso a
30 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. visualizar los resultados e indicadores a través de una plataforma como Looker. GCP una plataforma analítica completa y gobernada El ecosistema de servicio de Google Cloud Platform (GCP) es muy completa. A continuación, veremos algunas de las herramientas utilizadas para el manejo de Big Data. Los servicios de ingesta tanto en tiempo real como servicios de IoT están disponibles en Google Cloud con Cloud Pub/Sub y Cloud Iot Core. Para el flujo de procesamiento de datos podemos utilizar Cloud Data flow, Cloud Datapoc o Cloud Data Fusion. Para el análisis y almacenamiento podemos utilizar un Cloud Storage o Big Query Para la búsqueda de Insights son múltiples los servicios dependiendo del caso de uso, desde Data Studio, Vertex AI, Connected Sheets, Tensorflow o Looker. Por el lado de catálogo de información podemos gestionar toda la ingesta y la meta data de ese proceso en un Data Catalog.
31 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Importancia de un Data Lakes en GCP Entonces ¿por qué es bueno crear un Data Lakes en GCP? La respuesta es porque el valor que se aporta está relacionado, no solamente con el almacenamiento, la escalabilidad y la seguridad de la plataforma, sino que también, con todas las opciones de ingesta tanto en tiempo real o bach, pasando con todo lo relacionado con seguridad, la capacidad de tener distintos roles y perfiles en la empresa para poder asegurarnos de que la seguridad es un elemento importante a nivel de roles y perfiles y también cómo podemos procesar, analizar e innovar de forma rápida con los distintos servicios de Dataflow, Dataproc, BiQuery y el motor de Machine Learning.
32 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total.
33 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Arquitectura Referencial en GCP A continuación, mostramos una Arquitectura Referencial de cómo podemos hacer una ingesta de datos a una arquitectura Cloud de GCP. Lo primero es hacer la ingesta de datos y luego hacer un procesamiento de esos datos para poder almacenarlos en un DataWherehouse. Ese DataWherhouse puede tener características como un Sunbox que esté disponible para los usuarios para que puedan explotar de una forma ágil esa información. Por el lado de Business Intelligence existen alternativas de DataStudio o Looker dependiendo la complejidad o los casos de usos que requiera la compañía. También el equipo de Data Scientist va a tener servicios disponibles como Vertex IA para utilizar Jupiter Notebook o Auto ML para simplificar la creación de estos modelos predictivos. Por el lado de seguridad tememos Cloud IAM, Acces Controls, todas las vistas autorizadas de BigQuery y también un servicio que es muy importante
34 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. que se llama Data Loss Prevention el cual nos permite identificar distintos datos sensibles que pueden existir en la ingesta de datos y esa identificación nos permite tomar acciones como, por ejemplo, aplicar un Token, enmascarar ese dato para que no quede disponible para cualquier usuario dentro de la organización. Herramientas de gobierno para democratizar conocimiento Dentro de las herramientas de gobierno que están disponible podemos hablar de Cloud Data Loss prevention, Data catalog y Cloud IAM. Estos tres servicios permiten unir los roles y permisos que existen en la organización asignar datos o campos sensibles que se quieren monitorear y a partir de Data Catalog podemos generar Template que permitan identificar esos datos y agregar algún tipo de control de acceso para que los usuarios que no tengan un nivel correspondiente de acceso puedan estar limitados y no accedan a esa información. Adicionalmente se tiene la capacidad de identificar datos sensibles como a través de procesos de descubrimiento, procesos de clasificación y redacción de datos sensibles. Para esto utilizamos Data Loss Preventions. Cloud Data Loss Prevention Veamos un ejemplo de las capacidades de este servicio. Primero la capacidad de inspección, nosotros podemos encontrar de forma automática
35 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. datos sensibles que existan en los registros y en la carga e ingesta de datos, luego una vez que son detectados, dependiendo del tipo de campo, nosotros podemos aplicar distintas funciones de enmascaramiento o tokenización para guardar ese dato con esa clasificación a través de un Hash o ese enmascaramiento de información, y utilizando esos algoritmos podemos utilizar llaves que nos permitan hacer una vuelta atrás, si es que es necesario. Una vuelta atrás significa que podemos enmascarar el dato y después esa llave queda en nuestro poder en la empresa y se puede volver al dato original aplicando esa llave de seguridad. Entonces en el caso de que se tengan datos que se ingresen a un Cloud Storage, y por ejemplo esos datos son un número de una tarjeta de crédito se puede aplicar la
36 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. detección, la inspección de ese registro y aplicar una redacción, lo que significa que se cambia el número de la tarjeta de crédito por asteriscos, por ejemplo; o el mismo número de la tarjeta de crédito se puede aplicar una técnica distinta que sería una Hashing que es un número alfanumérico de un largo que yo defino o también se tiene la opción de conservar el formato de la tarjeta de crédito pero aplicando una encriptación o una tokenización. En los tres casos se puede hacer la vuelta atrás y enmascarar o encriptar los datos y luego desenmascararlos o desencriptarlos. Ejemplo del uso de Data Loss Prevention Data Catalog Por el lado de las herramientas de gobierno para ayudar a democratizar estos conocimientos tenemos el Data Catalog. Este servicio permite que cada uno de los usuarios de las empresas puedan hacer búsquedas respecto a los metadatos que existen en tu Data Lake. Estos metadatos se actualizan constantemente y nos pueden guiar respecto a cuáles son los dominios de datos que están siendo cargados periódicamente en tu Data Lake.
37 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Cómo funciona el Data Catalog. Dependiendo de la fuente de información se puede hacer una extracción de esa fuente y se puede almacenar y procesar en este servicio de Data Catalog. Para mantener actualizada toda la información tanto de ingesta como generación de reportes de distintas fuentes de información, y esto permite tener un control actualizado de toda la información que existe y está gobernada dentro del Data Lake. Veamos un ejemplo de cómo podemos definir un control de acceso para datos confidenciales para dos roles distintos. Por ejemplo, un rol del área de finanzas que sí puede tener acceso a ciertos registros confidenciales de clientes y un rol de analista que no tiene acceso a esos
38 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. datos. En este ejemplo se analizan la interacción de dos servicios: Data Catalog y Data Loss Prevention. En el ejemplo se tiene un número de teléfono, una ubicación y un monto en los cuales se puede aplicar este concepto y evitar que una persona que no tenga acceso esa información pueda revisarla y pueda analizarla. Cloud IAM Por último, las herramientas de gobierno para controlar el acceso que estamos hablando de Cloud IAM. Es un recurso que nos permite, en algunos casos crear usuario que están enlazados con la organización o también permite sincronizar en caso de que se tenga algún Active Directory u otra herramienta diferente a Google Cloud para sincronizarlo y no tener que repetir los esquemas de seguridad o los grupos en dos sistemas diferentes.
39 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total.
40 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. GOOGLE CLOUD PLATFORM Darse de alta Lo primero que tenemos que hacer es darse de alta en Google Cloud Platform. Buscamos en nuestro navegador Google Cloud Platform y nos sale lo siguiente: Seleccionamos Google Cloud Platform y nos llevará a la pantalla principal. En esta pantalla podemos observar que nos marca que la prueba gratuita finalizó y nos pide que nos registremos.
41 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Le damos ACTIVAR para que la cuenta quede activa.
42 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Es recomendable que le demos en CONFIGURA una alerta de presupuesto. Recordemos que es un servicio de paga pero que solo nos va a cobrar lo que usemos. Seleccionamos en CREAR PRESUPUESTO:
43 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Le damos en SIGUIENTE: Seleccionamos FINALIZAR.
44 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Seleccionamos FINALIZAR.
45 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Listado de herramientas de Google Cloud Platform Exploremos en VER TODOS LOS PRODUCTOS.
46 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. s.
47 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total.
48 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total.