Estudio de caso de Ondemandtv

Monitoreo de servidores con ManageEngine TM Applications Manager

Introducción a la televisión a pedido - Japón

(www.ondemandtv.co.jp)

On Demand TV Inc, es un proveedor de servicios de banda ancha en Japón, que brinda servicios de video a pedido y distribuye contenido de imágenes a través de B-FLET, conexiones a Internet de alta velocidad a través de fibra óptica de NTT EAST CORPORATION y NTT WEST CORPORATION. Permite a cada suscriptor disfrutar de transmisiones multicanal de alta calidad en casa. Con el eslogan "LO QUE LE GUSTA, CUÁNDO LE GUSTA y CUÁNTO LE GUSTA", la Compañía está consiguiendo cada vez más suscriptores y ha puesto en marcha el primer servicio "On Demand TV High-Vision" en Japón desde julio de 2006.

Construcción de Sistemas y Monitoreo

Con el fin de brindar servicios las 24 horas los 365 días en todo Japón, la Compañía cuenta con dos centros de cómputo en Tokio y en Osaka, respectivamente. La empresa ha decidido adoptar sistemas operativos y hardware estándar ampliamente utilizados para acumular conocimientos operativos de los sistemas lo más rápido posible.

(1) Monitoreo de sistemas

  • Monitorear los recursos del sistema o el tráfico mediante el uso de herramientas de monitoreo comerciales o gratuitas
  • Inspección manual por patrulla regular en todo un centro de computación.

(2) Seguimiento de la radiodifusión

  • Monitoreo de la estabilidad de la transmisión mediante la recepción de transmisiones basadas en IP

(3) Seguimiento de servicios

  • Supervisión del funcionamiento de cada servicio por parte del proveedor de servicios mediante el uso de una herramienta de supervisión gratuita
  • Supervisión del funcionamiento de los servicios mediante herramientas de proveedores

Yasuyuki Taniguchi, responsable de la gestión de operaciones de sistemas en la División de Ingeniería de la Compañía recuerda “Pensamos que sería suficiente considerar hasta ese punto al momento de iniciar la operación”.

Dificultad para comprender el estado operativo de todos los sistemas

Después del inicio del servicio, el número de suscriptores aumentó considerablemente. Sin embargo, encontraron muchos problemas, como la ocurrencia de una falla a la hora especificada bajo ciertas circunstancias, como se indica a continuación;

  1. El sistema no recibe ninguna solicitud de ningún suscriptor y la respuesta retrasa el proceso de escucha de la base de datos
  2. Aunque ninguna notificación de falla llega al sistema de monitoreo, se le da un error interno al suscriptor.
  3. La falla ocurre en un momento específico a medida que aumentan las solicitudes de los suscriptores sin conocer la causa raíz.

Allí tuvo que abordar el trabajo relacionado con el monitoreo de los servidores de aplicaciones, los servidores de bases de datos y la recopilación de información enviada a los proveedores. Le resultó difícil entender si todas las funciones de las aplicaciones comerciales están en funcionamiento o no.

Taniguchi dice retrospectivamente: "Con las herramientas de monitoreo de aquellos días, solo podíamos recopilar información de tendencias del uso de memoria o cargas de CPU para cada nodo, pero era muy difícil detectar la caída en el rendimiento del sistema, digamos, el uso de CPU. para verificar los registros, capturar la comunicación entre STB (Set Top Box) y los servidores de aplicaciones con mucha frecuencia. Esto generó mucho trabajo manual pesado ".

El administrador de aplicaciones monitorea los sistemas y recopila datos de manera integrada

Durante la búsqueda de una herramienta de monitoreo de aplicaciones adecuada para la Compañía, Taniguchi se encontró con ManageEngine Applications Manager que presenta las funciones de monitoreo de varios servidores de base de datos, servidores de aplicaciones o servidores HTTP de manera integrada, incluidos Oracle DB, Oracle AS, Apache. Tenía visualizaciones gráficas del estado operativo de todas las aplicaciones. Inmediatamente instaló el Administrador de aplicaciones y comenzó una nueva supervisión.

Los resultados fueron los siguientes;

  1. Se hizo posible monitorear adecuadamente la disponibilidad de Oracle DB y Oracle AS.
  2. Se volvió fácil recopilar información sobre el rendimiento de Oracle DB y Oracle AS. Además, el informe de análisis de la causa raíz de las fallas llegó rápidamente a los proveedores.
  3. Resultó fácil comprender la tendencia de los cambios relacionados con el número de solicitudes procesadas o el tiempo medio de procesamiento porque era posible consultar el historial de cambios.
  4. Se volvió fácil recopilar información sobre el rendimiento del servidor Apache y fue posible detectar cualquier síntoma de falla mucho más rápido que nunca.

Como se indicó anteriormente, se redujo la necesidad de monitoreo manual. Les permitió detectar e investigar fallas de manera proactiva con la ayuda de Applications Manager.

Fallo en el proceso de transmisión

[Etapa 1] La empresa necesitaba comprobar si cada suscriptor realmente tiene una licencia válida mientras recibe una solicitud de contenido de transmisión. Durante el proceso de transmisión, en algún momento no podría emitir una clave necesaria para descifrar el contenido cifrado.

La investigación es necesaria para solucionar este error porque este proceso se realizó mediante la interacción entre servidores, incluido el servidor de licencias. Entonces Taniguchi con la ayuda de Applications Manager monitoreó la cantidad de solicitudes procesadas por Oracle As 10g (que tenía la aplicación que recupera la información de la licencia en el servidor de licencias), el tiempo promedio de procesamiento y la cantidad de servidores ocupados de Apache.

La supervisión de esos datos ayudó a decidir si el problema estaba en el rendimiento del servidor de licencias o con las aplicaciones en el servidor de licencias o con el servidor de emisión de claves.

[Stage2] Como resultado, fue posible limitar el alcance del problema dentro de la aplicación en el servidor de licencias. Sin embargo, fue necesario analizar la información del registro para una mayor investigación. Al capturar el momento en que se produjo la falla, sería más fácil identificar el problema. Las alarmas se pueden generar en función de los valores umbral del tiempo de respuesta.

Rol del administrador de aplicaciones desde el punto de vista del usuario

El servicio de distribución de contenidos en el que se involucre la Compañía debe ser sensible a la respuesta de suscriptores o clientes. Como ingeniero a cargo de la construcción de sistemas, Taniguchi alberga grandes expectativas en ManageEngine Applications Manager. “Nuestra empresa está aumentando constantemente el número de suscriptores participando en la distribución de videos de alta calidad de contenido enriquecido y también proporcionando varios menús de servicio. Por lo tanto, habría más sistemas para monitorear ”. Continúa: "Es preferible admitir más necesidades diversas de los usuarios, como una función de análisis de tendencias del uso de la memoria para cada proceso".

En ManageEngine nos esforzaremos por responder a las diversas demandas de los clientes y continuaremos desarrollando dichos productos para lograr una gestión estable de los sistemas.