100% encontró este documento útil (1 voto)
8 vistas81 páginas

Curso GEOESTADISTICA - 4

Cargado por

leonelbecerra007
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (1 voto)
8 vistas81 páginas

Curso GEOESTADISTICA - 4

Cargado por

leonelbecerra007
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 81

FUNDAMENTOS DE

GEOESTADÍSTICA

UNIVERSIDAD NACIONAL DE SAN LUIS


DEPARTAMENTO DE MINERIA

Mario E. Rossi, MSc. Geoestadística, Ing. de Minas.

1
ANÁLISIS EXPLORATORIO DE LOS
DATOS Y VARIOGRAFÍA

∗ Análisis espacial de los datos utilizando la geoestadística.

∗ Variografía.

∗ Usos prácticos de los modelos de variogramas.

2
3
ANALÍSIS ESTADÍSTICO

∗ Un primer análisis de los datos nos permite


identificar ciertas características importantes, como
tendencias, errores de muestreo, presencia de mas
de una población, impacto de valores extremos,
etc.

∗ Las herramientas utilizadas pueden incluir


histogramas, diagramas de dispersión, diagramas
cuantil-cuantil, curvas de nivel, promedios
espaciales, etc.

∗ También se incluye en esta etapa la variografía.


4
CONCEPTOS BÁSICOS

∗ La presentación clásica estadística se basa en definir una población que es una


colección infinitamente grande de valores de interés, por ejemplo un yacimiento
mineral.

∗ Una muestra es un elemento seleccionado de la población. Una buena muestra


debe reflejar las características esenciales (estadísticas) de la población de la que
fue tomada.

∗ Una muestra aleatoria es una muestra a la que puede pertenecer cualquier


miembro de la población, y todos las posibles muestras tienen la misma
oportunidad de ser incluidas.

∗ El espacio de las muestras es el juego (set) de todos los posibles resultados de un


experimento (muestreo) aleatorio.

∗ El evento del espacio de las muestras es un grupo de resultados de ese espacio en


el cual sus miembros tienen características comunes.

5
CONCEPTOS BÁSICOS (CONT)

∗ Eventos estadísticamente independientes indican que la


ocurrencia de un evento no está condicionado por la
ocurrencia de otros eventos.

∗ El muestro en yacimientos minerales no cumplen con el


requerimiento de muestras representativas de un población;
sin embargo, aplicamos conceptos de la estadística
tradicional.

∗ La inferencia estadística (estadística inductiva) se basa en la


noción de que la muestra es representativa. Si es así, se
pueden sacar conclusiones acerca de la población. Pero tal
inferencia nunca es exacta o cierta, por lo que utilizamos un
lenguaje probabilístico.
6
CONCEPTOS BÁSICOS (CONT)

∗ La estadística descriptiva es una fase del estudio estadístico


que describe y analiza una muestra son intentar hacer
inferencias acerca de la población. Aunque el objetivo en la
estimación de recursos siempre implica inferencia,
utilizamos muchas estadística descriptiva para visualizar y
entender la información.

∗ El concepto esencial es la estacionaridad; esto es nuestra


selección de datos que juntamos para analizar.

7
CONCEPTOS BÁSICOS (CONT)

∗ Algunas de las herramientas y conceptos desarrollados en


este módulo son útiles para tomar una decisión de
estacionaridad robusta; pero no olvidar que para agrupar
datos, necesitamos estacionaridad.

∗ Las herramientas estadísticas se utilizan para:


∗ Entender mejor la información entregada;
∗ Asegurar la calidad de la información; y
∗ Condensar la información.

∗ Pero en general, no estamos interesados en las estadísticas


de las muestras – nuestro objetivo es hacer inferencias
acerca de la población.
8
Las Estadísticas son parámetros de
las Funciones Aleatorias

∗ Interesados en la población, no en las estadísticas de los datos


∗ Necesitamos modelar para inferir, ir mas allá de los datos
∗ Aunque nos parezca que las variables que estudiamos son
aleatorias, en realidad hay una serie de complejos fenómenos físicos
que han interactuado y explican los valores que observamos de la
variable.
ANÁLISIS ESTADÍSTICO BÁSICO

∗ Entrega una primera visión de los datos, EDA por sus siglas en inglés. Incluye:
∗ Histogramas;
∗ Diagramas de Dispersión y gráficos de correlación;
∗ Gráficos Q-Q y P-P;
∗ Curvas de Nivel;
∗ Promedios móviles;
∗ Desaglomeración espacial;

∗ El objetivo es identificar características espaciales y globales que permitan


obtener una decisión de estacionaridad adecuada, tales como:
∗ Ayuda a definir Unidades de Estimación;
∗ Tendencias;
∗ Errores de muestreo y calidad de los datos;
∗ Presencia de poblaciones múltiples;
∗ Impacto de valores extremos;

10
Histogramas
∗ Histograma:
• Es contar las muestras por clases
• A veces hace falta jugar con las escalas para mostrar
detalles

Frequency
• A veces usar escala logarítmica es útil
• Analizar las estadísticas básicas
• La media es afectada por los valores extremos

• La mediana es afectada por falta de información en el


centro de la distribución
• Entender la distribución mirando a los distintos
cuantiles (por ej., cuartiles)
• Medidas de dispersión puede ser la desviación
estándard, pero hay que tener cuidado con los
valores extremos

Cumulative Frequency
• Usar medidas de dispersión estandarizadas o relativas 1
(CV)
∗ Histograma Acumulado:
• Se pueden observar todos los datos en un mismo
gráfico
• Útil para aislar poblaciones estadísticas
• Puede darnos una idea de los modelos estadísticos
0
apropiados:

• Línea recta en escala aritmética  distribución normal


• Línea recta en escala logarítmica  distribución lognormal
DISTRIBUCIONES UNIVARIABLES
(Cont)

12
DISTRIBUCIONES UNIVARIABLES

∗ La función de distribución cumulativa (CDF) es la manera universal de expresar un estado


de conocimiento incompleto (incertidumbre). Si la variable aleatoria es Z, la CDF F(z) se
define como:
F ( z=
) Prob{Z ≤ z} ∈ [0,1]
∗ El valor z (minúscula) es un valor específico. Prob{∙} puede significar una probabilidad o
una proporción.
∗ La probabilidad de exceder cualquier límite de la variable z se escribe como:

Prob{Z > z} = 1 − F ( z )
∗ Propiedades de una CDF:
∗ F(z) no decreciente
∗ F(z) ∈ [0,1]
∗ F(-∞) = 0 y F(∞) = 1

13
DISTRIBUCIONES UNIVARIABLES
(Cont)

∗ Un histograma acumulado (cdf) es útil para ver todos los valores de las muestras
en un mismo gráfico e identificar distintas poblaciones estadísticas. Los cdf se
crean a la misma resolución que las muestras, no por clases como el pdf
(histograma de frecuencias).

∗ La curva de frecuencias de acumuladas representa el estado de conocimiento


mas completo acerca de nuestros datos.

∗ Es importante determinar cuán representativo cada muestra es de la


mineralización (QA/QC), y también si la distribución completa de las muestras
representan bien las leyes del depósito; tenemos que compensar por sesgos o
mala distribución espacial de las muestras?

∗ La probabilidad de que Z tome un valor en un intervalo definido por dos límites a


y b (con b>a) es la diferencia en los valores de la CDF evaluada para b y a:

Prob{Z ∈ [a, b]} =F (b) − F (a )


14
CDF y PDF
∗ La probabilidad de que Z esté adentro de un intervalo entre a y b (donde
b>a) es la diferencia entre los valores correspondientes de la cdf:
Prob{Z ∈ [a, b]} = F (b) − F (a)

∗ La función de densidad de probabilidades (PDF) es la derivada de la CDF, si


es que existe:
F ( z + dz ) − F ( z )
f ( z ) = F ' ( z ) = lim
dz → 0 dz

∗ Desde luego, la CDF se puede obtener integrando la PDF:


z
F ( z) = ∫ f ( z )dz
−∞
CDF y PDF
∗ Propiedades de la PDF:
1.0
f(z) ≥ 0

F(x)

∫ f ( z )dz = 1
−∞
0.25

0.0
x
Cumulative Probability
Gráfico de Frecuencias Acumuladas

0.01 0.10 1.00


10.0

Variable
DISTRIBUCIONES UNIVARIABLES
(Cont)

∗ La herramienta estadística básica utilizada en el análisis de los datos es el histograma.

∗ Hay tres decisiones que tomar:


∗ Escala aritmética or logarítmica – aritmética es razonable porque las leyes se promedian
aritméticamente; pero logarítmica nos muestra mejor las características de distribuciones
sesgadas positivamente;
∗ El rango de valores que se quiere mostrar; y
∗ El número de clases que se quiere mostrar, el que depende de la cantidad de datos
disponibles. Mientras menos datos existan, más se debe disminuir el número de clases. El
criterio es reducir el ruido (mas clases cuando hay suficientes datos) al mismo tiempo que se
muestran los agrupamientos y tendencias generales (menos clases).

∗ Se analizan varios parámetros:


∗ La media es sensible a los valores extremos;
∗ La mediana lo es a la falta de información en el medio de la distribución;
∗ La dispersión se mide con la desviación estándar (σ);
∗ La variabilidad se caracteriza mejor con el Coeficiente de Variación (CV), σ/m.

18
DISTRIBUCIONES PARAMÉTRICAS
Y NO PARAMÉTRICAS
∗ Un modelo paramétrico tiene una expresión analítica cerrada para la
distribución de probabilidades; está caracterizada por un número finito
de parámetros, como por ejemplo la distribución Normal.

∗ Las distribuciones paramétricas se utilizan en diferentes circumstancias;


las mas comunes son la Normal, LogNormal, Uniforme, Triangular, y
Exponencial.

∗ La geoestadística moderna no se preocupa mucho por caracterizar


distribuciones paramétricas porque cualquier distribución puede ser
transformada a cualquier otra.

∗ Las distribuciones paramétricas se utilizan mas comúnmente cuando hay


poca cantidad de información.

19
DISTRIBUCIONES NORMAL Y
LOGNORMAL
∗ La distribución Gaussiana (Normal) se caracteriza con dos parámetros, su media y su
varianza. La PDF de una distribución Normal estándar tiene una media 0 y varianza 1. La
CDF de una distribución Normal no tiene una ecuación analítica cerrada, pero la estándar
está tabulada. La distribución Normal tiene una simetría característica, la media es igual a
la mediana.

1  1  z − m 2 
=g ( z) exp  −   
σ 2π  2  σ  

20
DISTRIBUCIONES NORMAL Y
LOGNORMAL (Cont)
∗ La distribución lognormal es importante en la historia de la estadística y
geoestadística.

∗ Una variable aleatoria positiva se dice que tiene una distribución lognormal
cuando la variable Y=ln(X) tiene una distribución normal. Las distribuciones
lognormales también se caracterizan con dos parámetros, su media y su
varianza. En la práctica, se pueden caracterizar tanto por sus parámetros
aritméticos como logarítmicos.

21
DISTRIBUCIONES NORMAL Y
LOGNORMAL (Cont)
∗ Las distribuciones lognormales también se caracterizan por dos
parámetros: media y varianza. Estas se pueden expresar en escala
aritmética (m and σ2) o logarítmica (α or β2).
∗ La expresión mas común de la CDF y PDF lognormales es en base a sus
parámetros logarítmicos:

 ln y − α 
FY ( y ) = Prob{Y ≤ y )} = G o   for all y > 0
 β 

1  ln y − α 
f Y ( y ) = F 'Y ( y ) = g o  
βy  β 
∗ Las relaciones en los parámemtros logarítmicos y aritméticos son:

m = eα + β σ 2 = m 2 [e β − 1]
2 2
/2

 σ2 
α = ln m − β / 2 2
β = ln1 + 2
2

 m 
TEOREMA CENTRAL DEL LÍMITE

∗ El Teorema Central del Límite dice que la suma de un gran número de


variables aleatorias estandarizadas independientes y con la misma
distribución (iid, no necesariamente Gaussianas) tienden a la distribución
Normal. Esto es, si n VA’s Zi tienen el mismo CDF y medias igual a cero, la VA
tiende hacia una CDF Gaussiana a medida que n se incrementa hacia un
valor infinito.
 E{mˆ } = E{X} = m
1 n

mˆ = ∑
n i =1
xi → Normal  1
Var{mˆ } = Var{ X } =
σ2

 n n
∗ El corolario de este Teorema es que el producto de un gran número de
VA’s iid tienden a una distribución Gaussiana.
 E{αˆ} = E{ log X} = α
1 n 
αˆ = ∑ log x i → Normal  1 β2
n i =1 Var{αˆ } = Var{log X } =
 n n
23
PARÁMETROS DE LAS DISTRIBUCIONES:
CUANTILES
∗ Los cuantiles son valores Z (leyes) específicas a las que se le asigna un valor de
probabilidad según la CDF correspondiente. El cuantil p de la distribución F(z) es el valor zp
para el cual:
F ( z=
p) Prob{Z ≤ z=
p} p
∗ Los 99 cuantiles con valores de probabilidad desde 0.01 a 0.99 en incrementos de 0.01 son
los centiles. Los 3 cuantiles con valores de probabilidad de 0.25, 0.5 y 0.75 son los cuartiles.
El cuantil de 0.5 es la mediana.

∗ El Rango Intercuartil (IR) es la diferencia entre los cuartiles superior e inferior: IR = q(0.75)
– q(0.25) y se use como una medida robusta de la extensión de la distribución.

∗ El signo del sesgo (skewness) o diferencia entre la media y la mediana (m-M). Hablamos de
distribuciones positivamente o negativamente segadas.

∗ Los cuantiles se usan para hacer distintas comparaciones. Se pueden comparar por
ejemplo las distribuciones de los compósitos originales con valores simulados; dos tipos de
muestreos (RC vs. DDH); o resultados de dos laboratorios diferentes.

24
CUANTILES (Cont)

∗ Una buena manera de comparar dos distribuciones es usar el gráfico Q-


Q, que muestra cuantiles que se corresponden.

∗ Para construir un Q-Q se escogen una serie de valores de probabilidades


pk, k = 1, 2, …, K. Se grafica q1(pk) versus q2(pk), para k = 1, 2, …, K.

∗ Si todos los puntos caen sobre la línea de 45º, las dos distribuciones son
idénticas.

∗ Si la línea está corrida pero es paralela a la de 45º, las dos distribuciones


tienen la misma forma, pero medias diferentes.

∗ Si la pendiente de la línea es linear, pero no es 45º, las dos distribuciones


tienen distintas varianzas.

25
CUANTILES (Cont)

∗ Si la curva tiene un carácter no linear, las dos distribuciones tienen formas


diferentes.

∗ Otro gráfico que se puede utilizar es el P-P, el cual muestra las probabilidades
acumuladas para pares de cuantiles. Una línea recta significa que las dos
distribuciones tienen la misma forma.

26
TENDENCIA CENTRAL

∗ El valor esperado de una VA (media, o momento de primer orden) es un operador linear, y es el


promedio espacial ponderado por su probabilidad de la VA:
+∞ +∞
E{Z =
} m= ∫ zdF ( z=) ∫ zf ( z )dz
−∞ −∞

∗ El valor esperado de la dispersión al cuadrado con respecto a la media es la varianza (σ2):

Var=
{Z } E{[ Z − mz ]2 }
σ 2 = E{Z 2 − 2 Zmz + mz 2 }
=
E{Z 2 } − 2mz E{Z } + mz2
= E{Z 2 } − m 2

∗ La raíz cuadrada de la varianza es la desviación estándar (σ).


∗ El coeficiente de variación (CV) no tiene unidades, y es la desviación estándar dividida por la media (σ
/m).

27
TENDENCIA CENTRAL (Cont)

∗ Hay otras medidas de la tendencia central, incluyendo la mediana, la moda (la


observación mas común), y la media geométrica:
1
N  N
∏ zj 
 j =1 

∗ También hay otras medidas de la dispersión. Incluyen el rango (diferencia entre los
valores máximo y mínimo), el IR descripto antes, y la desviación absoluta media
(MAD):
N

∑ w(u ) ⋅ z (u ) − z
j =1
j j

∑ w(u )
j =1
j

28
VALORES EXTREMOS Y OUTLIERS

∗ Un número pequeño de datos puede afectar las estadísticas de manera significativa. Los
parámetros mas sensibles son la media, la varianza, el coeficiente de correlación, y los
variogramas.

∗ Suponiendo que los datos no son erróneos, hay dos maneras de tratarlos:
∗ Clasificarlos como valores pertenecientes a una población diferente, y procesarlos o
estimarlos con otra metodología;
∗ Usar estadísticas robustas, tanto descriptivas como predictivas; por ejemplo, la mediana;
correlación por rango, correlograma, etc.

∗ En la práctica, hay que entender el posible impacto de estos valores en los cálculos de
recurso. Esto implica entender el impacto espacial de estos valores y en el contenido de
metal final estimado.

∗ Los gráficos de frecuencia acumulada pueden ser utilizados a veces para identificar (y
corregir) valores extremos; por ejemplo, los valores extremos pueden ser alineados con la
pendiente original (tendencia) de los demás valores.

∗ Estos outliers se estudian y tratan de manera especifica, caso por caso. No hay una regla
general. La consideración fundamental es su impacto en los modelos de recursos.
29
DISTRIBUCIONES BIVARIABLES

∗ Es habitual considerar múltiples varaibles. No solo pueden existir mas de una ley en el
depósito, sino también la ley en ubicaciones múltiples es una distribución multi-variable.

∗ Las definiciones de la CDF y la PDF pueden extenderse a distribuciones bivariables. Se


define, por ejemplo, un histograma bivariable dividiendo el rango de las variables X e Y en
clases y graficando las frecuencias bivariables correspondientes.

∗ Pero es mas común graficar simplemente los valores apereados en un diagrama de


dispersión en escala aritmética o logarítmica.

30
DISTRIBUCIONES BIVARIABLES (Cont)

∗ Las medias y varianzas de cada variable se usan para caracterizar las


distribuciones univariables. La covarianza se utiliza para caracterizar
distribuciones bivariables:
Cov{ X , Y } = E{[ X − mX ][Y − mY ]} = E{ XY } − mX mY
+∞ +∞
= E ∫ dx ∫ ( x − mX )( y − mY ) f XY ( x, y )dy
−∞ −∞

∗ La covarianza nos dice si la relación bivariable es directa o inversa. El producto


de [X-mX]●[Y-mY] es positivo en los cuadrantes II y IV; es negativo en los
cuadrantes I y III. El valor esperado es el promedio de todos los productos
posibles.

31
DISTRIBUCIONES BIVARIABLES (Cont)

∗ Las unidades de la covarianza es el valor de una variable multiplicada por la otra. Estas
unidades son difíciles de entender (Au en g/t * Ag en g/t). Por suerte, podemos
estandarizar la covarianza.

∗ El coeficiente de correlación es la covarianza dividida por las desviaciones estándar


respectivas:
Cov{ X , Y }
ρ XY =
σ XσY
∗ El coeficiente de correlación no tienen dimensiones; varía entre -1 (una relación inversa
perfecta) y +1 (relación directa perfecta).

∗ Un coeficiente de correlación = 0 significa falta de correlación, pero no de independencia!


Puede ocurrir que exista una relación no linera entre ambas variables.

32
DISTRIBUCIONES BIVARIABLES (Cont)

∗ Los valores extremos afectan notablemente la varianza y la covarianza. Los valores


extremos pueden destruir una buena correlación, o mejorar una correlación mala.

∗ El dibujo de la izquierda muestra una buena correlación con un mal coeficiente de


correlación, y el de la derecha muestra una mala correlación con un buen coeficiente de
correlación.

33
DISTRIBUCIONES BIVARIABLES (Cont)

∗ La correlación de rango (rank correlation) es mas robusta. La idea es


calcular el coeficiente de correlación sobre el (rango) ordenamiento de
los datos. Cada valor de la variable es reemplazado por su ubicación
(rango) en ese ordenamiento. El coeficiente de correlación es calculado
de la misma manera, pero usando las respectivas posiciones de cada
dato.

∗ Es habitual mostrar ambos coeficientes de correlación en los gráficos de


dispersión. Pero todos los métodos clásicos de mínimos cuadrados
requieren el uso de la covarianza tradicional, no sobre las
transformaciones de los datos originales. Por lo tanto, el coeficiente de
correlación de rango es una herramienta exploratorio únicamente.

34
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN
∗ Para analizar las características espaciales de las variables (leyes) se utilizan
herramientas como:
∗ Estadísticas en ventanas móviles para detectar tendencias y efectos
proporcionales;
∗ Gráficos de indicadores para analizar la distribución espacial de las leyes,
especialmente el rompimiento de la estructura espacial de las leyes altas;
∗ Las curvas de nivel se pueden usar como herramientas para detectar tendencias
y otras características de los datos.

∗ Las muestran se toman con criterio geológico, no estadístico. Las perforaciones se


ubican en las zonas de mayor interés, que generalmente son zonas de alta ley.

∗ Esta práctica lleva a la necesidad de ajustar las estadísticas descriptivas y los


métodos predictivos (regresiones) para que sean representativo de todo el
volumen de interés.

35
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
∗ Las técnicas de desaglomeración asignan a cada dato una ponderación basada en la redundancia
(cercanía) de otros datos, ω i, i=1,…n.

∗ El método más simple de desaglomeración es el poligonal, que determina cada ponderación


proporcional al área o volumen de cada muestra. Este método funciona bien cuando los límites del área
de interés están bien definidos y la razón de la ponderación mas grande a la mas pequeña es menor que
10 a 1.

∗ El método de desaglomeración por celdas es utilizado comúnmente (Journel, 1983; Deutsch, 1989). El
método funciona de la siguiente manera:
∗ Se divide el volumen de interés en una grilla de celdas l=1...,L.
∗ Se cuentan las celdas ocupadas por muestras Lo y el número de muestras en cada celda ocupada nlo,
lo=1,..,Lo.
∗ Se asigna una ponderación inversamente proporcional al número de muestras en la celda; por ejemplo,
para la muestra i que cae en la celda l, la ponderación es:

1
ωi =
nl gLo
∗ Estas ponderaciones son mayores que cero y suman 1. Cada celda que no tenga datos no recibe
ponderaciones.

36
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
∗ En el ejemplo que se muestra aquí, el volumen de interés se divide en una malla
de 36 celdas, de las cuales 33 tienen muestras.

37
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
∗ Las ponderaciones dependen del tamaño de celda y del origen definido
and the origin of the grid network.

∗ Cuando el tamaño de la celda es muy pequeño, cada muestra ocupa su


propia celda, y por lo tanto las ponderaciones son idénticas, ωi = 1/n.

∗ Cuando el tamaño de la celda es muy grande, todas las muestras ocupan


una única celda, y por lo tanto otra vez ω i = 1/n.

∗ Se deben hacer varias pruebas antes de definir el tamaño óptimo de


celda, su forma, y el origen de la grilla. Es habitual escoger un tamaño de
celda que se corresponda a una grilla geológica de base (de exploración
inicial), tal que haya una muestra por celda en las zonas con menor
cantidad de información.

38
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
∗ Se deben chequear cambios significativos en las ponderaciones para
pequeños cambios en los tamaños de la celda; grandes cambios en los
valores probablemente indican que las ponderaciones y las medias están
siendo afectadas por algunos pocos valores extremos.

∗ El tamaño de celda se selecciona de manera tal que las ponderaciones


resultan en el menor valor de la media (muestras aglomeradas en zonas
de alta ley) o mayor valor de la media (muestras aglomeradas en zonas
de baja ley).

∗ Es habitual graficar la media desaglomerada versus el tamaño de celda


para ver si existen mínimos o máximos locales.

39
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
23.0

Declustered Mean, Porosity, %

22.0

21.0

20.0

minimum declustered mean

19.0
0. 200. 400. 600. 800. 1000.
40
Cell Size
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
∗ La forma de las celdas se acomodan a la configuración de los datos. En el caso de
cuerpos tabulares o vetiformes, por ejemplos, se define una geometría de celda
rectangular. Igualmente, se debe considerar la mayor densidad de información
en la vertical (o a lo largo del sondaje).

∗ El origen de la grilla y el número de celdas L deben ser escogidos tal que todas
las muestras sean consideradas.

∗ Si se fija el tamaño de la celda y se cambia el origen de la grilla, los resultados


serán diferentes. Para evitar este artificio del método, se deben definir varios
orígenes de grilla para cada tamaño de celda. Las ponderaciones finales son el
promedio de todas las ponderaciones para cada tamaño de celda.

41
ANÁLISIS ESPACIAL DE LOS DATOS
Y AGLOMERACIÓN (Cont)
∗ Las ponderaciones para deasglomerar se determinan en base a la configuración
de los datos; por lo tanto, todas las variables que tienen las mismas muestras
requieren solo un set de ponderaciones.

∗ Si el muestreo es desigual se requerirán diferentes ponderaciones para cada


variable. Por ejemplo, no todas las muestras tienen valores de Au y Ag, lo que
significa que hay que obtener un set de ponderaciones para el Au y otro
diferente para la Ag.

∗ En general, se requiere un set de ponderaciones para cada UG o dominio de


estimación.

∗ Las ponderaciones se utilizan principalmente para obtener un histograma y


estadísticas representativas para cada variable; pero también se pueden usar
para obtener coeficientes de correlación, aplicando cada set de ponderaciones a
cada variable. De todas maneras, no son ponderaciones bivariables, por lo que
no proveen una herramienta para desaglomerar el variogram, por ejemplo.

42
TRANSFORMACIÓN DE LOS DATOS

∗ Las distribuciones Gaussianas se usan habitualmente debido a sus muy


convenientes propiedades estadísticas.

∗ Estas propiedades se derivan del Teorema Central del Límite, el mas


importante Teorema en estadística.

∗ Las transformaciones de los datos a otras distribuciones se hace para


lidiar mejor con la predicción de los datos originales, tanto para
estimaciones como para simulaciones.

∗ Algunas transformaciones clásicas incluyen la Gaussiana (Normal


Scores), Log-normal, y de indicadores.

∗ En todos los casos excepto para los indicadores, se requiere una


transformación inversa, lo que trae desafíos adicionales.
43
TRANSFORMACIÓN DE LOS DATOS (Cont)

∗ Métodos basado en las distribuciones Gaussianas son comunes en


geoestadística. Cualquier distribución puede ser transformada a una
Gaussiana usando una transformación cuantil a cuantil, utilizando la de cada
distribución.

44
TRANSFORMACIÓN DE LOS DATOS (Cont)
∗ La transformación preserva el rango y es reversible. Una de las desventajas
de este tipo de transformación es que el significado de los números se pierde,
y que no se puede hacer la transformación inversa de los promedios por ser
no linear.

∗ Otro aspecto a cuidar son los valores “empatados” en la distribución original.


Esto se dá cuando hay muchos valores debajo del límite de detección.

∗ Hay dos maneras de “desempatar” (“despike”) los valores. Una manera,


implementada en GSLIB, es agregar un pequeño valor aleatorio. Otra manera,
es agregar un pequeño valor que depende de la media local de datos.

∗ La transformación se aplica casi siempre a distribuciones continuas, con


excepción de los métodos Gausianos truncados.

45
46
VARIOGRAFÍA
∗ El variograma es un gráfico que describe como
varía, en promedio, la varianza entre dos muestras
a una cierta distancia.
∗ Identifica y modela la variabilidad (correlación)
espacial, caracterizando anisotropías, tendencias,
variabilidad a corta y larga distancia, variabilidad
entre dos variables diferentes, etc.
∗ Parámetros de interés del variograma incluyen el
“efecto pepita”, la meseta, el rango, la forma de
modelo a corta y larga distancia, etc.

47
Escondida Indicator Variograms, SIM2, UG=6
Gamma(h)= .2 + .252Sph133.4(h) + .548Sph513.9(h)
1.50
Azim. Dip
240.0 .0
240.0 .0 (cf)
1.20

49
0.90

74 13

247
Gamma (h)

65 24
52 21

76

62 71
16
710
1068

43 58
80

61
675

86
83 7

86
58 51

0
3
840

82
12 40

5
4
1
63 19
9398
68 8
10

1077
96 2
56

13
14 43
74 86
29
11

7
2
79
1113

0.60
45
16 2
12

5
16
38

4
13
12 86
0
71
3
13 181
9
46
0
14

0.30
08
97 97

4
81
49

0.00
120 240 360 480 600

Lag Distance (h)


48
VARIOGRAFÍA

∗ Consideremos una FA aleatoria Y con media conocida y varianza σ2. La


media y la varianza tienen ubicación asignada dentro de la zona
estacionaria. El variograma se define como:

( h ) Var Y ( u ) − Y ( u + =
2γ = {
h )  E Y ( u ) − Y ( u + h ) 
2
}
∗ El semivariograma γ(h) es la mitad del variograma 2γ(h).

∗ El variograma entonces no depende de una ubicación; se calcula usando


un vector de separación h que se traslada sobre todas los puntos de la
zona estacionaria.

∗ El variograma es una medida de variabilidad; se incrementa para valores


de muestras más disímiles. La covarianza es una función estadística que
mide similitud (correlación):
{ }
( h ) E Y ( u ) ⋅ Y ( u + h ) − m2
C=
49
VARIOGRAFÍA (Cont.)

∗ Por definición, la covarianza para h=0, C(0), es la varianza σ2.

∗ La covarianza C(h) es 0 cuando las muestras que están a


una distancia suficientemente aprtadas no están
linearmente correlacionadas.

∗ Si hay estacionaridad de segundo orden, si la covarianza


existe, el semi-variograma y la covarianza tienen la siguiente
relación:

γ(h)=C(0)–C(h), or C(h) = C(0) - γ(h)


50
VARIOGRAFÍA (Cont.)

∗ Se pueden utilizar diferentes estimadores de continuidad o variabilidad.


Los más comunes son el semivariograma, variogramas relativos (por
pares o global), correlograma, y la práctica de estandarizar por la
varianza global.

∗ Otros variogramas incluyen los de variables transformadas, como el


Gaussiano, Indicador, y Lognormal.

∗ Hay aspectos importantes en la definición de variogramas


experimentales (inferencia):
∗ Densidad de la información;
∗ Distintos tipos de información (taladros, pozos de tronadura, canaletas, etc.);
∗ La influencia de valores extremos; y
∗ La influencia de tendencias en las leyes.

51
VARIOGRAFÍA (Cont.)

∗ La definición de las tolerancias angulares y de distancia es uno de los


aspectos importantes.

∗ El uso de mapas de variogramas y representaciones en 3D también son


importantes.

∗ Los variogramas experimentales deben ser siempre reconciliados con la


geología conocida.

∗ El proceso es experimental y exploratorio, y por lo tanto iterativo.


Mientras mas temprano empiece en el desarrollo de un proyecto minero
(exploración), mejor serán los resultados de las interpretaciones
geológicas, definición de dominios de mineralización, y los estudios
geoestadísticos resultantes.

52
VARIOGRAFÍA (Cont.)

∗ Las discrepancias que pueden aparecer entre el modelo


geológico y el de variograma deben ser resueltas, porque el
variograma puede estar contribuyendo con información
importante acerca de tendencias de leyes, estructuras, etc.
Pero toda inferencia numérica siempre debe ser verificada
en terreno.

∗ El modelo de variograma puede ser impactado por artificios


que resultan de la configuración de los datos, prácticas de
muestreo, y otros aspectos numéricos que influyen en la
continuidad observada, las anisotropías observadas, y las
varianzas relativas de cada estructura.

53
CÁLCULO DE VARIOGRAMAS
EXPERIMENTALES

∗ Para calcular variogramas se puede:


∗ Usar datos transformados;
∗ Usar una transformación de coordenadas.

∗ Direcciones:
∗ Número de direcciones;
∗ Considerar la densidad de información en diferentes
direcciones, por ejemplo a lo largo del taladro;
∗ Múltiples direcciones para caracterizar bien la anisotropía
(nunca presumir que se sabe a partir de la geología!!);
∗ Tolerancias angulares;
∗ Ancho de banda.

54
CÁLCULO DE VARIOGRAMAS
EXPERIMENTALES (Cont.)

∗ Definición de Lags (pasos, o distancias):


∗ Los pasos deben estar relacionados con el
espaciamiento de los datos;
∗ Se definen tolerancias de distancias;
∗ Cuánta distancia total? No más del 50% de la distancia
máxima del dominio.

∗ Estimador:
∗ Depende si se usó alguna transformación; si es así, se
usa el semi variograma tradicional;
∗ Para leyes, se consideran estimadores mas robustos,
como el correlograma o variogramas relativos. Evitar
usar el variograma tradicional.

55
CÁLCULO DE VARIOGRAMAS
EXPERIMENTALES (Cont.)

56
CÁLCULO DE VARIOGRAMAS
EXPERIMENTALES (Cont.)

57
CÁLCULO DE VARIOGRAMAS
EXPERIMENTALES (Cont.)

58
VARIOGRAFÍA (Cont.)

59
INTERPRETANDO VARIOGRAMAS

∗ La meseta es la varianza total (o 1.0, si es un variograma relativo).

∗ El rango es la distancia a la cuál el variograma alcanza la meseta.

∗ El efecto pepita es la suma de variabilidad a escala muy pequeña más errores de


muestreo y de ubicación.

60
INTERPRETANDO VARIOGRAMAS
(Cont.)

∗ Un efecto pepita puro significa que no hay correlación


espacial. El modelo causa que los valores estimados por
kriging sean en realidad promedios aritméticos de las
muestras vecinas.

∗ Pero lo más probable es que la correlación exista, solo que


no la podemos ver. Puede ser por un problema de escala o
variabilidad (típico de depósitos de Au epitermales, por
ej.); o el estimador elegido.

∗ Si los datos son muy variables, tratar de evitar usar el


variograma tradicional; hacer un “capping” de valores
extremos; o simplemente no usar esos valores extremos.
61
PORQUE NECESITAMOS UN MODELO
DE VARIOGRAMA?

∗ Los variogramas direccionales deben ser considerados


simultáneamente para entender las anisotropías en 3D.
Pero el variograma se calcula solo en algunas direcciones, a
menudo solo en las supuestas direcciones principales de
anisotropía.

∗ La función de variograma γ(h) se requiere para todos los


vectores h (distancia y dirección) dentro de la vecindad de
búsqueda para los cálculos geoestadísticos subsiguientes.

∗ Por esto se ajusta un modelo a los puntos del variograma


experimental.

62
MODELOS DE VARIOGRAMAS (Cont.)

∗ Al modelar se debe tener en cuenta la posibilidad de que


los variogramas experimentales estén afectados por
artificios relacionados con el espaciamiento de los datos,
su orientación, y el muestreo.

∗ Se usan ciertos modelos de variogramas, por un requisito


matemático. Este dice que para todas las posibles
direcciones y distancias en 3D, la covarianza debe ser
positive definite (definida positivamente); o sea, debe ser
tal que todas las matrices que se construyan con esa
covarianza sean invertibles y de solución única para
resolver las ecuaciones de kriging.

63
MODELOS DE VARIOGRAMAS (Cont.)

∗ Hay funciones matemáticas conocidas que cumplen ese


requisito: esférico; exponencial; Gaussiano; y periódicos.

64
MODELOS DE VARIOGRAMAS (Cont.)

∗ Con una interpretación “correcta”, los modelos


tradicionales son suficientes para lograr un ajuste
adecuado. Permiten incorporar la información geológica y
al mismo tiempo ajustar el comportamiento estadístico de
las muestras.

∗ La distancia variográfica la usan la mayoría de los


algoritmos geoestadísticos.

∗ El variograma puede tener un gran impacto en las


predicciones. Mientras menos datos se tengan
(exploración temprana), más impacto tiene.

65
MODELOS DE VARIOGRAMAS (Cont.)

66
MODELOS DE VARIOGRAMAS (Cont.)

67
MODELOS DE VARIOGRAMAS (Cont.)

∗ El uso de estos modelos asegura la existencia y


unicidad de la solución del sistema kriging.

∗ Algunos modelos son condicionalmente definidos


positivamente, o sea, solamente son válidos en un
espacio dimensional reducido.

∗ Por ejemplo, el modelo coseno está definido positivo


solamente en R1. Por lo tanto, el modelo 3D será
necesariamente anisotrópico.

68
MODELOS DE VARIOGRAMAS (Cont.)

∗ Los aspectos más importantes de un modelo de variograma


son:

∗ Efecto pepita relativo (razón efecto pepita a meseta).

∗ Comportamiento cerca del origen.

∗ Anisotropías, zonal o geométricas. La zonal puede ser modelada


como geométrica, lo que a veces causa confusión.

∗ Rango; es el parámetro menos importante, y depende del modelo


utilizado. Puede ser engañoso.

69
MODELOS DE VARIOGRAMAS (Cont.)

∗ A mayor efecto pepita relativo, menor correlación espacial


entre las muestras, y por lo tanto, menos “efectivo” será el
kriging.

∗ En la práctica, si el efecto pepita relativo es del orden del 70-


80%, casi que no vale la pena aplicar el kriging.

∗ El efecto pepita relativo es una medida de cuánto no


sabemos acerca de la continuidad a corta escala.

70
MODELOS DE VARIOGRAMAS (Cont.)

∗ El comportamiento cerca del origen es lo de mayor


consecuencia en la estimación y simulación.

∗ Los datos más cercanos al punto que se estima recibe la


mayor ponderación.

∗ Hay diferencias conceptuales y de interpretación geológica


entre los modelos esférico, Gaussiano, o exponencial.

∗ Si la variable es muy continua (alturas piezométricas),


entonces el modelo Gaussiano es relevante. Si hay mucha
variabilidad, el modelo exponencial será una mejor opción
(Au epitermal).
71
MODELOS DE VARIOGRAMAS (Cont.)

∗ Si los variogramas calculados en diferentes direcciones


todos presentan la misma meseta y el mismo rango, el
modelo es isotrópico. Esto es muy, muy raro en la
exploración minera.

∗ La anisotropía geométrica es cuando los variogramas


alcanzan la misma meseta a diferentes rangos.

∗ La anisotropía zonal es cuando los variogramas alcanzan


diferentes mesetas a diferentes rangos.
72
MODELOS DE VARIOGRAMAS (Cont.)

∗ Dos muestras a una distancia mayor que el rango no están


correlacionados. La correlación no es lo mismo que
independencia: las muestras pueden no estar
correlacionadas, pero no ser independientes.

∗ Es peligroso usar el rango de forma aislado, como un


parámetro indicador de correlación, como a veces se hace
para clasificar recursos minerales.

∗ El variograma no es confiable para distancias mayores a la


mitad de la dimensión del dominio.

73
MODELOS DE VARIOGRAMAS (Cont.)

∗ Ejemplos:

74
VARIOGRAFÍA PASO A PASO

1. Calcular los variogramas direccionales para


múltiples direcciones utilizando tolerancias
angulares y de distancia. Cuántas direcciones?

2. Encontrar los principales ejes de anisotropía


utilizando una combinación de los variogramas
direccionales y conocimiento geológico.

3. Definir el modelo a ser utilizado (esférico,


exponencial, etc.), y la meseta (1.0 si es relativo)
75
VARIOGRAFÍA PASO A PASO (Cont.)

4. Hacer la transformación linear requerida para


derivar el modelo de variograma 3D que considera
la anisotropía, para poder ser utilizado en los
sistemas de kriging y simulación.

5. Usar una convención de rotación de ángulos


consistente. Distintos software usan distintas
convenciones; causa de error demasiado común!

76
ROTACIÓN Y TRASLACIÓN DEL
MODELO DE VARIOGRAMA

77
ROTACIÓN Y TRASLACIÓN DEL
MODELO DE VARIOGRAMA (Cont.)

78
ROTACIÓN Y TRASLACIÓN DEL
MODELO DE VARIOGRAMA (Cont.)

79
VARIOGRAMA = ESTADÍSTICA
BIVARIABLE

80
VARIOGRAMA = MOMENTO DE INERCIA

81

También podría gustarte