Preguntas a los compis
Periodo de Retencion SaaS
Retencion de datos por tipo
Services: Distributed trace and code insights
Includes PurePath data.
Services: Requests and request attributes
10 second granularity of charts, non-key and key requests
RUM: Non-aggregated user action data
Dynatrace stores the full details of every user action for 10 days. This enables you to analyze
individual user actions and get all details including waterfall analysis, JavaScript errors, and
mobile crashes for 10 days.
RUM: Aggregated user action data
Aggregated user action metric (used in tables like Top user actions, Top JavaScript errors, and
Top mobile crashes) are available for 35 days. After 10 days, user actions data is optimized for
aggregated views and some individual user actions become unavailable for individual analysis.
However the sample set is large enough for statistical correct aggregations.
RUM: User sessions
Includes Session Replay data. All user session data is stored for 35 days. Note that waterfall
analysis, JavaScript error, and crash data are stored with RUM non-aggregated user action
data.
RUM: Session Replay
Minimum size of required Session Replay storage volume is entirely load-dependent. A
maximum size isn't required. In SaaS deployments, a dedicated disk is used for Session Replay
data.
In Managed deployments, the Session Replay data storage directory is a dedicated file store
that's used exclusively for Session Replay data.
Log Analytics
Log Analytics enables you to store all logs centrally within external storage. This makes log data
available independent of log files themselves.
For Dynatrace SaaS customers, log files are stored in Amazon Elastic File System in the zone
where your Dynatrace environment resides. You don’t have to worry about storage
performance, availability, or free space. Disk storage costs are included in your Log Analytics
subscription.
To store log files centrally on your Dynatrace Managed cluster, you must provide a common
Network File System (NFS) mount point (path) that is identical and available from all cluster
nodes. With this approach, it's your responsibility to ensure appropriate levels of performance,
availability, and free space on the mounted NFS volume.
Timeseries metrics
0-14 days: 1-minute interval granularity available for dashboarding and API access.
14-28 Days: 5-minute interval granularity available for dashboarding and API access.
28-400 days: 1-hour interval granularity available for dashboarding and API access.
400+ days: 1-day interval granularity available for dashboarding and API access.
Updates de Managed Cluster y OneAgent
Dynatrace Managed Cluster:
o Updates obligatorios
o Se publican cada 4 semanas generalmente
o Empiezan a la hora designada por el usuario (diario o semanal)
o Se anuncian con 24 horas de antelacion
o La monitorizacion continúa. UI downtime 5 min.
Dynatrace OneAgent
o Updates opcionales
o Se publican cada 4 semanas generalmente
o Bajo control del usuario
o OneAgents son compatibles al menos durante un año
Puerto de conexion de OneAgent con Dynatrace Server
8443 (https)
¿Se puede desplegar un Security Gateway Público en SaaS?
No
En SaaS, ¿Se reconectan directamente los OneAgents a los
Security Gateway automaticamente?
Si
Tipos de Synthetic Monitors
Single-URL Browser Monitor:
Browser Clickpath
HTTP Monitors: Los ejecuta un Environment ActiveGate. 2 locations max. Se desactiva
desde la pag Synthetic / un checkbox llamado DT Clickpath
(…)
Valores del Rate (Thresholds)
Satisfactory: Verde (0 – 3 s)
Tolerate: Amarillo (3 – 12 s)
Rojo: frustrating ( > 12 s)
User Sessions (diferencia entre completed y live sessions)
User session: Es un grupo de user actions (al menos 1) que se realizan en nuestra aplicacion
durante un tiempo determinado
Live user sessions se diferencian de las completas porque vienen en un color distinto, así
pueden ser identificadas de un vistazo.
Timeout: Tiempo por defecto para una user session: 30 minutos
Cuando empieza: Cuando se inicia el primer user action
Cuando termina:
El usuario cierra el navegador (no una pestaña)
Se alcanzan las 200 user actions
Periodo de almacenamiento para key request y key user actions
USER ACTIONS:
User action: Interaccion con el navegador que implica una llamada al servidor web
Page load
XHR action
Custom action
La diferencia clave entre estos tres tipos de user action está en la forma en que se calcula la
duración de la acción y que para cada tipo hay metricas distintas
Page load: Carga de una página (poner direccion y enter).
Custom user actions: metricas:
Frontend time
Network time
Server time
Key user actions:
Son las que marcamos como clave. Se almacenan durante más tiempo y podemos crear
thresholds y Appdex distintos para tratarlos.
TimeFrame selector: Está en la parte izquierda
Estorage:
Key user actions and Key request son TimeSeries
0 – 14: 1 minuto
14 – 28: 5 minutos
28 – 400: 1 hora
+400: 1 dia
Metricas de red y de Memoria más importantes
Network health:
Processes
Hosts
Volume
Key metrics
Traffic
Retransmission
Connectivity
Traffic:
Traffic in
Traffic out
Retransmissions
Sent
Received
Connectivity
Connections refused
Connections timeout
Memoria:
Metricas más importantes
Reclaimable
Used
CPU:
Anomaly Detection
Identifica eventos o mediciones inusuales. Puede leerse como “estadísticamente improbable”
y depende en gran medida de un conocimiento profundo del performance del baseline
Dynatrace aprende los patrones de trafico de una aplicacion durante una semana y envía
alertas cuando se detectan anomalías dentro de esos patrones. Despues de una semana de
aprendizaje, Dynatrace puede predecir el tráfico de la semana siguiente
Problem Detection
Para poder identificar los root cause de los problemas Dynatrace analiza la correlacion de
eventos a traves de:
Tiempo
Procesos
Hosts
Servicios
Aplicaciones
Y todo esto desde una perspectiva de monitorizacion topologica horizontal y vertical
Deteccion de problemas
Reponse time degradations en rápido aumento para aplicaciones y servicios Cada 5 min
Response time degradations en lento aumento para aplicaciones y servicios Cada 15 min
Thresholds
Dos tipos:
Automated baselines: detecta automaticamente los valores de referencia que se
adaptan con el tiempo
o Application and Service response time
o Error rates
o Load
Built-in static thresholds: Dynatrace usa estos thresholds para todos los eventos de
infraestructura (ejemplo: detectin high CPU, low disk space, low memory..)
Diferencias entre automated baselines y built-in thresholds:
Thresholds: enfoque simple y directo para definir la baseline que funciona
inmediatamente despues de aplicarse, sin aprendizaje, lo que tiene estas deficiencias:
o Demasiado esfuerzo manual
o Es chungo establecer umbrales estaticos para servicios dinamicos
o No se adaptan a entornos cambiantes
Problem Analisis
Una vez se detecta un problema se puede analizar sus consecuencias desde la pagina de
problemas. Dynatrace te permite ver:
Impact Analisis
Bussiness Impact Analisis
Root cause analisis
Para identificarlo, Dynatrace no depende solo de la correlacion temporal, sino principalmente
de la correlacion de eventos a traves del tiempo, procesos, hosts, servicios, aplicaciones y
topologia tanto vertical como horizontal
Event Types
En orden de severity level
1. Availability events
2. Error events
3. Slowdown events
4. Resource events
5. Custom alerts
6. Info events
Impact Analysis
La página de Problems muestra un análisis de impacto de todos los Problems que se revelan en
base a un automated and multidimensional performance baselining
El business impact analysis no se activa para todos los problemas detectados, por ejemplo, no
se incluyen para los problemas detectados por los tests sinteticos ni para eventos de sólo
infraestructura como puede ser un pico de CPU
Metricas de Business Impact analisis:
Nº de usuarios distintos afectados
Nº de service call afectados
Afected Applications
Clicando sobre un service call se abre el Service Flow que contiene las transacciones afectadas
por el problema. Service Flow te permite un analisis de cada transaccion individual con el
Purepath view
Root Cause Analysis
No solo a traves de una correlacion en el tiempo, sino que tambien hace correlacion de
EVENTOS a traves del tiempo, procesos, hosts, servicios, aplicaciones y topologia (horizontal y
vertical)
¿Por que una correlacion solo por el tiempo no es efectiva?
Porque no y punto
Problem detection: Automated Multidimensional Baselining:
Anomally detection se basa en dos grandes pilares:
Context-rich data collection
Baselining
La inteligencia artificia (IA) de Dynatrace aprende los valores de referencia de los response
times de aplicaciones y servicios, sus error rates y su trafico
Trafico: periodo de aprendizaje de una semana completa (para aprender los patrones
de trafico diarios y semanales). Despues pronostica el trafico de la semana siguiente y
luego compara el trafico de aplicaciones reales entrantes con la prediccion
Error Rates: Para los failures, el cubo de baseline está listo cuando la aplicacion lleva
corriendo, al menos, el 20% de una semana. Se adapta a las versiones de los
navegadores, que pueden mostrar una tasas mayor o menor que el resto.
Response Times: para response times Dynatrace usa la mediana (median)(por encima
de la cual se encuentra el 50% mas lento de todos los calls) y usa tambien el 90%
percentil (el 10% más lento de todos los calls). Dynatrace pone especial interes en
estos ultimos. El cubo de baseline es el 20% de una semana.
Multidimensionalidad
User action x Geo x Browser
Baselining dimensions:
Para aplicaciones hay 4 dimensiones para calcular el valor de referencia:
User action
Geo
Browser
Operating System
Para Servicios hay 2 dimensiones:
Service Method
Service Method Group
¿Que son Server-Side Services?
Parece que son los servicios que se ejecutan del lado del servidor, jeje
Por ejemplo, las peticiones web que se envían a un servidor Tomcat específico son un ejemplo
de un servicio del lado del servidor
¿Que muestra el Service Flow?
Muestra la secuencia de service calls que se desencadenan por cada service request en tu
entorno. Se ve el flow de service calls desde la perspectiva de un servicio unico, request o su
subconjunto filtrado. Tambien se ve cómo cada componente de un request afecta al tiempo de
respuesta global
Se ve en:
Transactions & Sevices Seleccionar Seccion “Understand Dependecies” click en “View
Service Flow”
Nota: No muestra cuando se realizan las service calls en relacion con las demas. No muestra
necesariamente el orden en que se realizaron las llamadas entre si.
¿Que es una external Service?
Cualquier servicio llamado por tu aplicacion u otro servicio y que no se monitoriza
directamente por Dynatrace
¿Que es un Host candidate?
Un host (ya sea una maquina virtual VMWare o una instancia EC2) que se comunica con hosts
monitorizados pero que no tiene un OneAgent instalado.
Se visualizan en SmartScape con un circulo discontinuo y un icono generico de host. Tambien
aparecen en la pagina de Hosts dentro de la categoría Unmonitored
Los candidatos inactivos a la monitorizacion (que no se han comunicado con un host durante
más de dos horas) ni se incluyen en SmartScape ni en la pagina de hosts
¿Que es un request attribute?
Son esencialmente pares key/value que están asociados a un service request
¿Que es un Management Zone?
Estan compuestas por reglas que definen las entidades que van a formar parte de cada
management zone. Estas reglas se basan en etiquetado.
Se pueden etiquetar un maximo de 15 reglas por cada management zone
Una vez creada la managent zone, se puede usar como filtro
¿Que es un Process Group?
Un conjunto de procesos que realizan la misma funcion en vario hosts
¿Que son los conversion goals?
Se pueden configurar uno o varios conversion goal para user actions especificos. Por ejemplo:
que la sesion no dure más de 5 min o sesion de más de 10 user actions (para este ejemplo, un
usuario deberia completar, al menos, 10 user actions en una sola sesion para completar el
conversion goal.
¿Donde podemos ver los crash / dumps?
Se entra en el host y se da al botoncito (…)
¿Qué se monitoriza en una base de datos?
Response time
Thoughput
Failure rate
¿Con qué parametros se forma el nombre de una aplicacion?
NAMING:
Servicios:
Web Server Name
Context root
Web Application ID
Custom Services
Si tus servicios de aplicacion no están construidon en una tecnología estandar y no se
reconocen out-of-the-box. Se pueden monitorizar, pero como Custom Services.
Solo se soporta:
JAVA
.NET
Desde donde se puede desactivar para que no monitorice
aplicaciones JAVA
Me parece que desde Settings Monitorig Technologies y desactivando JAVA
Como se puede enviar la notificacion de un problema a un movil
¿Que se monitoriza de un host?
Memory: