The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

504 MANUAL BIG DATA CON GOOGLE CLOUD PLATFORM - CENALTEC CHIHUAHUA

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by CENALTEC, 2023-02-22 11:20:57

MANUAL BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA OK

504 MANUAL BIG DATA CON GOOGLE CLOUD PLATFORM - CENALTEC CHIHUAHUA

99 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. 30.Podemos seleccionar un tipo de gráfico para que nos cambie la manera de visualizar la misma información. Selecciona diferentes tipos de gráficas para que veas los estilos. Tabla con barras Gráfico de columnas Gráfico de barras


100 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Gráfico circular Gráfico de anillo 31.Si le damos Añadir un gráfico, podremos ver, en este caso la misma información mostrada de dos maneras diferentes al mismo tiempo. Primero hagamos más pequeño la primera imagen que hayamos puesto y luego le agregamos otro gráfico. No quedaría similar a lo mostrado en la siguiente imagen.


101 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. 32.Ahora agreguemos un nuevo gráfico. Seleccionemos un gráfico de mapas de burbujas, pero tenemos que incluir alguna dimensión válida. 33.Seleccionamos una dimensión válida para poder identificar este nuevo elemento. Seleccionemos la estación de donde partió y lo colocamos en el campo Ubicación. También seleccionamos los minutos de duración y lo ponemos en el campo “Tamaño”. Nos debe de quedar de la siguiente manera:


102 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. 34.En la parte del mapa hacemos un Zoom para visualizar mejor la información.


103 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. 35.En la imagen podemos ver en qué región del país, en este caso Estado Unidos, hubo mayor duración de viajes en bicicleta. 36.Podemos jugar con los valores. Por ejemplo, que pasaría si en ves, de que nos muestre la duración del viaje queremos que nos muestre en dónde se hacen el mayor número de viajes. Por lo tanto, la selección nos debe quedar así:


104 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. 37.Ajustemos el mapa, en caso de que sea necesario. 38.Si analizamos el mapa, a primera vista parece que nos da la misma información, pero la verdad es que no. Busca la diferencia. 39.Ahora podemos observar que una de las burbujas tiene vario círculos, esto es porque en ese lugar hay varias estaciones que se sobre ponen. Hagamos un Zoom para ver a detalle la ubicación de cada estación.


105 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total.


106 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total.


107 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Después de tener todas las gráficas que deseemos procedemos a guardar la información y mostrarla en un reporte. Después de guardar nos aparece:


108 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Después de darle a COMPARTIR Como punto final lo podemos guardar en un archivo PDF.


109 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. BIG DATA Y OTRAS DEFINICIONES Big Data Es un campo que trata formas de analizar, extraer sistemáticamente información o tratar con conjuntos de datos que son demasiado grandes o complejos para ser tratados por el software de aplicación de procesamiento de datos tradicional. Datos Los datos describen hechos empíricos, sucesos y entidades. Es un valor o referente que recibe el computador por diferentes medios, los datos representan la información que el programador manipula en la construcción de una solución o en el desarrollo de un algoritmo. Información Es el nombre por el que se conoce un conjunto organizado de datos procesados que constituyen un mensaje que cambia el estado de conocimiento del sujeto o sistema que recibe dicho mensaje. Software Comprende el conjunto de los componentes lógicos necesarios que hace posible la realización de tareas específicas. Hardware Se refiere a las partes físicas, tangibles, de un sistema informático, sus componentes eléctricos, electrónicos, electromecánicos. Los cables, así como los muebles o cajas, los periféricos de todo tipo, y cualquier otro elemento físico involucrado, componen el hardware o soporte físico.


110 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. Software Libre Es un software cuyo código fuente puede ser estudiado, modificado, y utilizado libremente con cualquier finalidad y redistribuido con cambios o mejoras sobre ellas. Software propietario Es el software del cual no existe una forma libre de acceso a su código fuente, el cual solo se encuentra a disposición de su desarrollador y no se permite su libre modificación, adaptación o incluso lectura por parte de terceros. GFS (Google File System) Es un sistema de archivos distribuido propietario desarrollado por Google Inc, que soporta toda su infraestructura informática de procesamiento de información en nube.


111 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. MapReduce Es un paradigma de programación que permite una escalabilidad masiva en cientos o miles de servidores en un clúster de Hadoop. Como componente de procesamiento, MapReduce es el corazón de Apache Hadoop. El término "MapReduce" se refiere a dos tareas separadas y distintas que realizan los programas Hadoop. MapReduce es un modelo de programación para dar soporte a la computación paralela sobre grandes colecciones de datos en grupos de computadoras y al commodity computing. El paradigma o modelo MapReduce ha sido adoptado mundialmente, ya que existe una implementación OpenSource denominada Hadoop. MapReduce se emplea en la resolución práctica de algunos algoritmos susceptibles de ser paralelizados. Por regla general se abordan problemas con datasets de gran tamaño, alcanzando los petabytes de tamaño. Es por esta razón por la que este framework suele ejecutarse en sistema de archivos distribuidos (HDFS). Sistema de archivos distribuidos Es un sistema de archivos de computadoras que sirve para compartir archivos, impresoras y otros recursos como un almacenamiento persistente en una red de computadoras. Un sistema de archivos distribuido va a permitir almacenar y acceder a archivos remotos como si fueran locales, esto sin notar pérdidas en el rendimiento. Este sistema es útil cuando es necesario que los usuarios tengan acceso a información compartida en diferentes ubicaciones de forma ininterrumpida. Una de las ventajas de este tipo de sistemas es que se puede optimizar la carga de la red para que los nodos con mucho tráfico deriven recursos compartidos a otras ubicaciones de la red con lo cual se minimiza el riesgo de cuello de botella y se optimiza la velocidad de acceso a la información.


112 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. BigTable Es un sistema de gestión de base de datos creado por Google con las características de ser: distribuido, de alta eficiencia y propietario. Está construido sobre GFS (Google File System), Chubby Lock Service, y algunos otros servicios y programas de Google, y funciona sobre 'commodity hardware' (sencillos y baratos PCs con procesadores Intel). Dremel Dremel es un sistema distribuido desarrollado en Google para consultar interactivamente grandes conjuntos de datos. Dremel es el motor de consulta utilizado en el servicio BigQuery de Google. Dremel es la inspiración para Apache Drill,[2] Apache Impala,[3] y Dremio,[4] una plataforma con licencia apache que incluye un motor de ejecución SQL distribuido. Data Lakes Es un sistema o repositorio de datos almacenados en su formato natural, sin procesar Pipeline de datos Un pipeline de datos es una construcción lógica que representa un proceso dividido en fases. Los pipelines de datos se caracterizan por definir el conjunto de pasos o fases y las tecnologías involucradas en un proceso de movimiento o procesamiento de datos.


113 BIG DATA CON GOOGLE CLOUD PLATFORM EN LÍNEA Propiedad de INADET – CENALTEC. Prohibida la reproducción parcial o total. TABLA DE CONTENIDO Fecha Responsable: Revisión / Motivo de la revisión Junio 2022 LSCA. Adriana Murillo Díaz Revisión de contenido y actualización del formato.


Click to View FlipBook Version