Monitoreo de AWS: métricas a tener en cuenta

| Feb 01, 2019 |

Monitoreo de AWS: métricas a tener en cuenta


Amazon Web Services (AWS) es uno de los proveedores de nube pública más populares en la actualidad. A lo largo de los años, los servicios de AWS se han expandido desde la computación en la nube hasta el desarrollo de aplicaciones y la seguridad. Para conservar la confiabilidad, la disponibilidad y el rendimiento de sus instancias de AWS, una solución de monitoreo en la nube de AWS es una necesidad. Es fundamental que las herramientas de monitoreo de AWS recopilen datos de todas las partes de su servicio de AWS, para que la falla de múltiples puntos pueda ser fácilmente depurada.

En este blog, nos centraremos en algunas métricas clave que la mayoría de las herramientas de monitoreo de AWS utilizan y debes de tener en cuenta para monitorear un servicio de AWS ampliamente utilizado: el Servicio de base de datos relacional de Amazon (RDS). También tocaremos en Amazon Aurora , una base de datos (DB) compatible con MySQL y PostgreSQL que está disponible como parte de Amazon RDS.

Amazon RDS

La seguridad, la escalabilidad, la fácil configuración, la alta disponibilidad y la rentabilidad son algunas de las características más destacadas de Amazon RDS. RDS es compatible con seis motores de base de datos principales: MySQL, PostgreSQL, MariaDB, Oracle Database, SQL Server y Amazon Aurora. Este amplio soporte ayuda a cualquier aplicación o herramienta a funcionar sin problemas con Amazon RDS . Para monitorear exhaustivamente Amazon RDS usando una herramienta de monitoreo de AWS como el Administrador de Aplicaciones, hay algunas métricas clave que debe seguir.

Utilización de la CPU

La utilización de la CPU mide el porcentaje de unidades de cálculo asignadas actualmente utilizadas por sus instancias de RDS, y también se puede usar para rastrear las mejoras o regresiones de rendimiento de la CPU. Las aplicaciones pueden dejar de estar disponibles cuando alcanzan sus límites superiores en el uso de la CPU. Cada instancia está limitada a una cierta cantidad de CPU. El seguimiento de la utilización de la CPU en su instancia de RDS puede ayudarlo a determinar si sus aplicaciones están sobrecargadas de trabajo o no.

Consumo de memoria

available-memory

Mantenga el rendimiento y la disponibilidad del sistema configurando alertas para cambios en los patrones de uso de la memoria. La falta de espacio de almacenamiento en las instancias de base de datos puede provocar la pérdida de datos y cuellos de botella en las aplicaciones. Amplíe su instancia de base de datos cuando se acerque a sus límites de capacidad de almacenamiento. Para satisfacer cualquier demanda imprevista de sus aplicaciones, es fundamental contar con un búfer en el almacenamiento y la memoria.

Un valor de memoria libre muy bajo indica que el DB está bajo presión de memoria. Si tiene problemas de rendimiento o no queda memoria libre, debe actualizar a una instancia más grande. Además, para una supervisión RDS óptima, asegúrese siempre de que su instancia de base de datos no esté limitada por la memoria.

Tráfico de red

network

El tráfico de red depende en gran medida del rendimiento esperado. Mantenga el rendimiento esperado para su red realizando un seguimiento de las métricas de tráfico de red críticas, como el rendimiento de recepción y el rendimiento de transmisión. Al igual que la CPU, la memoria y el almacenamiento, cada instancia debe tener una cierta cantidad de ancho de banda de red dedicada. La cantidad de ancho de banda de la red asignada a su instancia de base de datos está determinada por el tamaño de la instancia. Las instancias más pequeñas tienen un ancho de banda bajo, mientras que las instancias más grandes tienen más ancho de banda.

Disco IOPS

throughput

Capture la latencia de la consulta para medir cuánto tardan sus operaciones de E / S en el nivel del disco. Para mantener los valores esperados de sus métricas de IOPS, configure un valor de línea de base e investigue si los resultados varían.

Leer IOPS: los picos repentinos en la lectura IOPS podrían indicar consultas fuera de control.

Escribir IOPS: los picos repentinos en IOPS de escritura pueden indicar una gran modificación de datos.

Mantenga sus volúmenes de almacenamiento a la par con el volumen de solicitudes de lectura y escritura mediante el seguimiento de la cola de operaciones de E / S. Para minimizar las operaciones de lectura y escritura y optimizar el rendimiento de sus aplicaciones, asegúrese de que su conjunto de trabajo típico se ajuste a la memoria asignada.

Estado latente

Medir la latencia puede ayudarlo a identificar e investigar las restricciones de recursos que afectan el rendimiento de la base de datos. Monitoree la latencia en las transacciones para lecturas lentas o escrituras de cualquier aplicación que se ejecute en su entorno RDS.

Aurora DB

aurora

Amazon Aurora consta de una o más instancias de base de datos principales y le permite distribuir hasta 15 réplicas Aurora en múltiples zonas de disponibilidad de un clúster de base de datos. Admite consultas de solo lectura. Puede administrar el volumen de datos para las instancias primarias y las réplicas de Aurora utilizando un volumen de clúster común. Como el volumen del clúster es compartido por todas las instancias de su base de datos, es fácil replicar los datos para cada réplica de Aurora.

A las réplicas se les asignan tres puntos finales separados:

  • Punto final del clúster: se conecta a la instancia de base de datos principal para ese clúster de base de datos.
  • Punto final del lector: se conecta a una de las réplicas de Aurora disponibles para ese clúster de base de datos. Los puntos finales de clúster y lector proporcionan soporte para escenarios de alta disponibilidad.
  • Punto final de instancia: se conecta a una instancia de base de datos específica dentro de un clúster de Aurora. Cada instancia de base de datos en un clúster de base de datos, independientemente del tipo de instancia, tiene su propio punto final de instancia único.

Leer métricas de réplica

Las réplicas de Aurora funcionan perfectamente para la escala de lectura, ya que están totalmente dedicadas a las operaciones de lectura en volúmenes de clúster. Los valores de retardo alto indican que las operaciones de lectura de la réplica no están sirviendo los datos actuales.

replica

Las operaciones de escritura son administradas por la instancia primaria. Una vez que los datos se escriben en Aurora, Aurora escribe los datos en todas las copias de datos. Después de que se realiza la actualización de la instancia principal, las réplicas de Aurora devuelven los mismos datos para los resultados de la consulta con un retraso de réplica mínimo <100 milisegundos. Replica retraso varía dependiendo de la tasa de cambio de DB. Una gran cantidad de operaciones de escritura puede causar un aumento en el retraso de la réplica.

Si la instancia principal falla, una réplica de Aurora se promociona como una instancia principal para mantener la alta disponibilidad. En los casos en que se produce una conmutación por error y las réplicas de Aurora están ausentes, su clúster de base de datos no estará disponible por el tiempo que demore la instancia de la base de datos en recuperarse del evento de falla.

Volumen IOPS

Esta métrica mide la cantidad promedio de operaciones de lectura o escritura del volumen del clúster cada cinco minutos. De forma predeterminada, el valor de VolumeReadIOPS debe ser pequeño y estable. Si es testigo de picos inusuales en su IO de lectura, investigue las instancias de su base de datos para identificar la causa.

Proporción de aciertos de caché de búfer

Este término se refiere al porcentaje de consultas atendidas por los datos ya almacenados en la memoria. Con esta métrica, puede obtener una visión profunda de la cantidad de datos que se sirven desde la memoria. Una alta proporción de aciertos de caché de búfer indica que las consultas no tienen que acceder al disco para obtener datos. Un valor de búfer bajo indica que las consultas en la instancia de DB van al disco con más frecuencia que no.

Rendimiento de consultas y rendimiento

query-performance

Comprender las operaciones de base de datos mediante el seguimiento de rendimiento de la consulta Capture una medida crítica del rendimiento de la consulta, independientemente de si la consulta se sirve desde el caché de consulta, midiendo el rendimiento y la latencia de DDL para todas las solicitudes de DDL. Evite los cuellos de botella de rendimiento configurando alertas cuando se producen cambios repentinos en el volumen de consultas.

Si recién está comenzando con el monitoreo en la nube de AWS o el monitoreo de RDS, las métricas anteriores lo ayudarán a ver una imagen más grande de sus aplicaciones. Para saber cómo el Administrador de aplicaciones puede ayudarlo con el monitoreo de AWS, obtenga una prueba gratuita de 30 días.


Artículos relacionados:


Compartir