Curso GEOESTADISTICA - 4
Curso GEOESTADISTICA - 4
GEOESTADÍSTICA
1
ANÁLISIS EXPLORATORIO DE LOS
DATOS Y VARIOGRAFÍA
∗ Variografía.
2
3
ANALÍSIS ESTADÍSTICO
5
CONCEPTOS BÁSICOS (CONT)
7
CONCEPTOS BÁSICOS (CONT)
∗ Entrega una primera visión de los datos, EDA por sus siglas en inglés. Incluye:
∗ Histogramas;
∗ Diagramas de Dispersión y gráficos de correlación;
∗ Gráficos Q-Q y P-P;
∗ Curvas de Nivel;
∗ Promedios móviles;
∗ Desaglomeración espacial;
10
Histogramas
∗ Histograma:
• Es contar las muestras por clases
• A veces hace falta jugar con las escalas para mostrar
detalles
Frequency
• A veces usar escala logarítmica es útil
• Analizar las estadísticas básicas
• La media es afectada por los valores extremos
Cumulative Frequency
• Usar medidas de dispersión estandarizadas o relativas 1
(CV)
∗ Histograma Acumulado:
• Se pueden observar todos los datos en un mismo
gráfico
• Útil para aislar poblaciones estadísticas
• Puede darnos una idea de los modelos estadísticos
0
apropiados:
12
DISTRIBUCIONES UNIVARIABLES
Prob{Z > z} = 1 − F ( z )
∗ Propiedades de una CDF:
∗ F(z) no decreciente
∗ F(z) ∈ [0,1]
∗ F(-∞) = 0 y F(∞) = 1
13
DISTRIBUCIONES UNIVARIABLES
(Cont)
∗ Un histograma acumulado (cdf) es útil para ver todos los valores de las muestras
en un mismo gráfico e identificar distintas poblaciones estadísticas. Los cdf se
crean a la misma resolución que las muestras, no por clases como el pdf
(histograma de frecuencias).
F(x)
∞
∫ f ( z )dz = 1
−∞
0.25
0.0
x
Cumulative Probability
Gráfico de Frecuencias Acumuladas
Variable
DISTRIBUCIONES UNIVARIABLES
(Cont)
18
DISTRIBUCIONES PARAMÉTRICAS
Y NO PARAMÉTRICAS
∗ Un modelo paramétrico tiene una expresión analítica cerrada para la
distribución de probabilidades; está caracterizada por un número finito
de parámetros, como por ejemplo la distribución Normal.
19
DISTRIBUCIONES NORMAL Y
LOGNORMAL
∗ La distribución Gaussiana (Normal) se caracteriza con dos parámetros, su media y su
varianza. La PDF de una distribución Normal estándar tiene una media 0 y varianza 1. La
CDF de una distribución Normal no tiene una ecuación analítica cerrada, pero la estándar
está tabulada. La distribución Normal tiene una simetría característica, la media es igual a
la mediana.
1 1 z − m 2
=g ( z) exp −
σ 2π 2 σ
20
DISTRIBUCIONES NORMAL Y
LOGNORMAL (Cont)
∗ La distribución lognormal es importante en la historia de la estadística y
geoestadística.
∗ Una variable aleatoria positiva se dice que tiene una distribución lognormal
cuando la variable Y=ln(X) tiene una distribución normal. Las distribuciones
lognormales también se caracterizan con dos parámetros, su media y su
varianza. En la práctica, se pueden caracterizar tanto por sus parámetros
aritméticos como logarítmicos.
21
DISTRIBUCIONES NORMAL Y
LOGNORMAL (Cont)
∗ Las distribuciones lognormales también se caracterizan por dos
parámetros: media y varianza. Estas se pueden expresar en escala
aritmética (m and σ2) o logarítmica (α or β2).
∗ La expresión mas común de la CDF y PDF lognormales es en base a sus
parámetros logarítmicos:
ln y − α
FY ( y ) = Prob{Y ≤ y )} = G o for all y > 0
β
1 ln y − α
f Y ( y ) = F 'Y ( y ) = g o
βy β
∗ Las relaciones en los parámemtros logarítmicos y aritméticos son:
m = eα + β σ 2 = m 2 [e β − 1]
2 2
/2
σ2
α = ln m − β / 2 2
β = ln1 + 2
2
m
TEOREMA CENTRAL DEL LÍMITE
∗ El Rango Intercuartil (IR) es la diferencia entre los cuartiles superior e inferior: IR = q(0.75)
– q(0.25) y se use como una medida robusta de la extensión de la distribución.
∗ El signo del sesgo (skewness) o diferencia entre la media y la mediana (m-M). Hablamos de
distribuciones positivamente o negativamente segadas.
∗ Los cuantiles se usan para hacer distintas comparaciones. Se pueden comparar por
ejemplo las distribuciones de los compósitos originales con valores simulados; dos tipos de
muestreos (RC vs. DDH); o resultados de dos laboratorios diferentes.
24
CUANTILES (Cont)
∗ Si todos los puntos caen sobre la línea de 45º, las dos distribuciones son
idénticas.
25
CUANTILES (Cont)
∗ Otro gráfico que se puede utilizar es el P-P, el cual muestra las probabilidades
acumuladas para pares de cuantiles. Una línea recta significa que las dos
distribuciones tienen la misma forma.
26
TENDENCIA CENTRAL
Var=
{Z } E{[ Z − mz ]2 }
σ 2 = E{Z 2 − 2 Zmz + mz 2 }
=
E{Z 2 } − 2mz E{Z } + mz2
= E{Z 2 } − m 2
27
TENDENCIA CENTRAL (Cont)
∗ También hay otras medidas de la dispersión. Incluyen el rango (diferencia entre los
valores máximo y mínimo), el IR descripto antes, y la desviación absoluta media
(MAD):
N
∑ w(u ) ⋅ z (u ) − z
j =1
j j
∑ w(u )
j =1
j
28
VALORES EXTREMOS Y OUTLIERS
∗ Un número pequeño de datos puede afectar las estadísticas de manera significativa. Los
parámetros mas sensibles son la media, la varianza, el coeficiente de correlación, y los
variogramas.
∗ Suponiendo que los datos no son erróneos, hay dos maneras de tratarlos:
∗ Clasificarlos como valores pertenecientes a una población diferente, y procesarlos o
estimarlos con otra metodología;
∗ Usar estadísticas robustas, tanto descriptivas como predictivas; por ejemplo, la mediana;
correlación por rango, correlograma, etc.
∗ En la práctica, hay que entender el posible impacto de estos valores en los cálculos de
recurso. Esto implica entender el impacto espacial de estos valores y en el contenido de
metal final estimado.
∗ Los gráficos de frecuencia acumulada pueden ser utilizados a veces para identificar (y
corregir) valores extremos; por ejemplo, los valores extremos pueden ser alineados con la
pendiente original (tendencia) de los demás valores.
∗ Estos outliers se estudian y tratan de manera especifica, caso por caso. No hay una regla
general. La consideración fundamental es su impacto en los modelos de recursos.
29
DISTRIBUCIONES BIVARIABLES
∗ Es habitual considerar múltiples varaibles. No solo pueden existir mas de una ley en el
depósito, sino también la ley en ubicaciones múltiples es una distribución multi-variable.
30
DISTRIBUCIONES BIVARIABLES (Cont)
31
DISTRIBUCIONES BIVARIABLES (Cont)
∗ Las unidades de la covarianza es el valor de una variable multiplicada por la otra. Estas
unidades son difíciles de entender (Au en g/t * Ag en g/t). Por suerte, podemos
estandarizar la covarianza.
32
DISTRIBUCIONES BIVARIABLES (Cont)
33
DISTRIBUCIONES BIVARIABLES (Cont)
34
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN
∗ Para analizar las características espaciales de las variables (leyes) se utilizan
herramientas como:
∗ Estadísticas en ventanas móviles para detectar tendencias y efectos
proporcionales;
∗ Gráficos de indicadores para analizar la distribución espacial de las leyes,
especialmente el rompimiento de la estructura espacial de las leyes altas;
∗ Las curvas de nivel se pueden usar como herramientas para detectar tendencias
y otras características de los datos.
35
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
∗ Las técnicas de desaglomeración asignan a cada dato una ponderación basada en la redundancia
(cercanía) de otros datos, ω i, i=1,…n.
∗ El método de desaglomeración por celdas es utilizado comúnmente (Journel, 1983; Deutsch, 1989). El
método funciona de la siguiente manera:
∗ Se divide el volumen de interés en una grilla de celdas l=1...,L.
∗ Se cuentan las celdas ocupadas por muestras Lo y el número de muestras en cada celda ocupada nlo,
lo=1,..,Lo.
∗ Se asigna una ponderación inversamente proporcional al número de muestras en la celda; por ejemplo,
para la muestra i que cae en la celda l, la ponderación es:
1
ωi =
nl gLo
∗ Estas ponderaciones son mayores que cero y suman 1. Cada celda que no tenga datos no recibe
ponderaciones.
36
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
∗ En el ejemplo que se muestra aquí, el volumen de interés se divide en una malla
de 36 celdas, de las cuales 33 tienen muestras.
37
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
∗ Las ponderaciones dependen del tamaño de celda y del origen definido
and the origin of the grid network.
38
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
∗ Se deben chequear cambios significativos en las ponderaciones para
pequeños cambios en los tamaños de la celda; grandes cambios en los
valores probablemente indican que las ponderaciones y las medias están
siendo afectadas por algunos pocos valores extremos.
39
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
23.0
22.0
21.0
20.0
19.0
0. 200. 400. 600. 800. 1000.
40
Cell Size
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
∗ La forma de las celdas se acomodan a la configuración de los datos. En el caso de
cuerpos tabulares o vetiformes, por ejemplos, se define una geometría de celda
rectangular. Igualmente, se debe considerar la mayor densidad de información
en la vertical (o a lo largo del sondaje).
∗ El origen de la grilla y el número de celdas L deben ser escogidos tal que todas
las muestras sean consideradas.
41
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
∗ Las ponderaciones para deasglomerar se determinan en base a la configuración
de los datos; por lo tanto, todas las variables que tienen las mismas muestras
requieren solo un set de ponderaciones.
42
TRANSFORMACIÓN DE LOS DATOS
44
TRANSFORMACIÓN DE LOS DATOS (Cont)
∗ La transformación preserva el rango y es reversible. Una de las desventajas
de este tipo de transformación es que el significado de los números se pierde,
y que no se puede hacer la transformación inversa de los promedios por ser
no linear.
45
46
VARIOGRAFÍA
∗ El variograma es un gráfico que describe como
varía, en promedio, la varianza entre dos muestras
a una cierta distancia.
∗ Identifica y modela la variabilidad (correlación)
espacial, caracterizando anisotropías, tendencias,
variabilidad a corta y larga distancia, variabilidad
entre dos variables diferentes, etc.
∗ Parámetros de interés del variograma incluyen el
“efecto pepita”, la meseta, el rango, la forma de
modelo a corta y larga distancia, etc.
47
Escondida Indicator Variograms, SIM2, UG=6
Gamma(h)= .2 + .252Sph133.4(h) + .548Sph513.9(h)
1.50
Azim. Dip
240.0 .0
240.0 .0 (cf)
1.20
49
0.90
74 13
247
Gamma (h)
65 24
52 21
76
62 71
16
710
1068
43 58
80
61
675
86
83 7
86
58 51
0
3
840
82
12 40
5
4
1
63 19
9398
68 8
10
1077
96 2
56
13
14 43
74 86
29
11
7
2
79
1113
0.60
45
16 2
12
5
16
38
4
13
12 86
0
71
3
13 181
9
46
0
14
0.30
08
97 97
4
81
49
0.00
120 240 360 480 600
( h ) Var Y ( u ) − Y ( u + =
2γ = {
h ) E Y ( u ) − Y ( u + h )
2
}
∗ El semivariograma γ(h) es la mitad del variograma 2γ(h).
51
VARIOGRAFÍA (Cont.)
52
VARIOGRAFÍA (Cont.)
53
CÁLCULO DE VARIOGRAMAS
EXPERIMENTALES
∗ Direcciones:
∗ Número de direcciones;
∗ Considerar la densidad de información en diferentes
direcciones, por ejemplo a lo largo del taladro;
∗ Múltiples direcciones para caracterizar bien la anisotropía
(nunca presumir que se sabe a partir de la geología!!);
∗ Tolerancias angulares;
∗ Ancho de banda.
54
CÁLCULO DE VARIOGRAMAS
EXPERIMENTALES (Cont.)
∗ Estimador:
∗ Depende si se usó alguna transformación; si es así, se
usa el semi variograma tradicional;
∗ Para leyes, se consideran estimadores mas robustos,
como el correlograma o variogramas relativos. Evitar
usar el variograma tradicional.
55
CÁLCULO DE VARIOGRAMAS
EXPERIMENTALES (Cont.)
56
CÁLCULO DE VARIOGRAMAS
EXPERIMENTALES (Cont.)
57
CÁLCULO DE VARIOGRAMAS
EXPERIMENTALES (Cont.)
58
VARIOGRAFÍA (Cont.)
59
INTERPRETANDO VARIOGRAMAS
60
INTERPRETANDO VARIOGRAMAS
(Cont.)
62
MODELOS DE VARIOGRAMAS (Cont.)
63
MODELOS DE VARIOGRAMAS (Cont.)
64
MODELOS DE VARIOGRAMAS (Cont.)
65
MODELOS DE VARIOGRAMAS (Cont.)
66
MODELOS DE VARIOGRAMAS (Cont.)
67
MODELOS DE VARIOGRAMAS (Cont.)
68
MODELOS DE VARIOGRAMAS (Cont.)
69
MODELOS DE VARIOGRAMAS (Cont.)
70
MODELOS DE VARIOGRAMAS (Cont.)
73
MODELOS DE VARIOGRAMAS (Cont.)
∗ Ejemplos:
74
VARIOGRAFÍA PASO A PASO
76
ROTACIÓN Y TRASLACIÓN DEL
MODELO DE VARIOGRAMA
77
ROTACIÓN Y TRASLACIÓN DEL
MODELO DE VARIOGRAMA (Cont.)
78
ROTACIÓN Y TRASLACIÓN DEL
MODELO DE VARIOGRAMA (Cont.)
79
VARIOGRAMA = ESTADÍSTICA
BIVARIABLE
80
VARIOGRAMA = MOMENTO DE INERCIA
81