Monitoreo de Apache Spark

Monitoreo de Apache Spark

Apache Spark es un marco de procesamiento de big data de código abierto creado para la velocidad, con módulos incorporados para streaming, SQL, aprendizaje automático y procesamiento de gráficos. Apache Spark tiene un avanzado motor de ejecución de DAG que admite flujos de datos acíclicos y computación en memoria. Spark se ejecuta en Hadoop, Mesos, independiente o en la nube. Puede acceder a diversas fuentes de datos, incluyendo HDFS, Cassandra, HBase y S3.

Hay muchos componentes que se unen para hacer que una aplicación de chispa funcione. Si planea implementar Spark en su entorno de producción, el Administrador de aplicaciones puede asegurarse de que puede monitorear los diferentes componentes, entender los parámetros de rendimiento, recibir alertas cuando las cosas salen mal y saber cómo solucionar problemas.


Gana visibilidad en el rendimiento de Spark

Descubra automáticamente la topología de servicio completa de su canalización de datos y aplicaciones. Realice en tiempo real la gestión completa de clústeres y nodos, y supervise la ejecución de la aplicación Spark con visualización de flujo de trabajo. Visualice, en modo independiente, el maestro y los trabajadores que se ejecutan en nodos individuales y procesos ejecutores, para cada aplicación que se crea en el clúster. Obtenga información actualizada sobre las métricas de tiempo de ejecución del clúster, nodos individuales y configuraciones.

Apache Spark datos en tiempo real

Seguimiento de la utilización de recursos

Administra los recursos para que tus aplicaciones Spark se ejecuten de manera óptima. Al agregar nuevos trabajos, los equipos de operaciones deben equilibrar los recursos disponibles con las prioridades comerciales. Manténgase al tanto de la salud de su clúster con estadísticas detalladas de rendimiento, como desde las métricas de uso de E / S de disco a memoria; y estado del nodo (en tiempo real) con el uso de la CPU para todos los nodos, seguido de la ocupación del montón de JVM.

Utilización de la memoria de Apache Spark

Obtenga información sobre Spark Cores y aplicaciones

Obtenga información sobre las métricas de la aplicación de producción de Spark; organice y segmente sus aplicaciones Spark según los datos definidos por el usuario; y ordenar las aplicaciones según el estado (activo, en espera, completado) y la duración de la ejecución. Cuando un trabajo falla, la causa suele ser la falta de núcleos. El monitoreo del nodo / trabajador Spark proporciona métricas que incluyen la cantidad de núcleos libres y utiliza para que los usuarios puedan realizar la asignación de recursos en función de los núcleos.

Detalles de la aplicación Apache Spark

Comprender el rendimiento de RDDs y contadores

Obtenga métricas de rendimiento que incluyen RDD almacenados (conjuntos de datos distribuidos resilientes) para la aplicación dada, el estado de almacenamiento y el uso de la memoria de un RDD determinado, y todos los contadores de Spark para cada una de sus ejecuciones de Spark. Obtenga información detallada sobre los resultados de caché a nivel de archivo y trabajos de listado paralelo para posibles optimizaciones de rendimiento.

Apache Spark RDD Detalles

 

Solucionar problemas de rendimiento más rápido

Obtenga notificaciones instantáneas cuando haya problemas de rendimiento con los componentes de los componentes de Apache Spark. Tenga en cuenta los cuellos de botella en el rendimiento y descubra qué aplicación está causando la carga excesiva. Tome medidas correctivas rápidas antes de que sus usuarios finales experimenten problemas.

Descargue Applications Manager