0% encontró este documento útil (0 votos)
128 vistas19 páginas

Mineral Resource Estimation

El documento presenta conceptos estadísticos básicos y herramientas utilizadas en la estimación de recursos minerales. Explica distribuciones de probabilidad univariadas y multivariadas, parámetros, cuantiles y valores esperados. También describe distribuciones paramétricas y no paramétricas, valores atípicos, y diferentes referencias sobre estadísticas aplicadas a datos espaciales de recursos minerales. El objetivo es analizar y comprender datos de muestras para inferir características de la población subyacente y pre

Cargado por

LouAnton
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
128 vistas19 páginas

Mineral Resource Estimation

El documento presenta conceptos estadísticos básicos y herramientas utilizadas en la estimación de recursos minerales. Explica distribuciones de probabilidad univariadas y multivariadas, parámetros, cuantiles y valores esperados. También describe distribuciones paramétricas y no paramétricas, valores atípicos, y diferentes referencias sobre estadísticas aplicadas a datos espaciales de recursos minerales. El objetivo es analizar y comprender datos de muestras para inferir características de la población subyacente y pre

Cargado por

LouAnton
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 19

1

Contenido
1 Introducción ...................................................................................................... 2

2 Herramientas Estadísticas y Conceptos ........................................................... 2

Conceptos Básicos .................................................................................... 2

Distribución de Probabilidad ...................................................................... 4

2.2.1 Distribuciones univariadas .................................................................. 6

2.2.2 Distribuciones paramétricas y no paramétricas ................................. 12

2.2.3 Cuantiles ........................................................................................... 14

2.2.4 Valores Esperados ............................................................................ 16

2.2.5 Valores Extremos-Atípicos ................................................................ 18

Fig. 2.1 Distribución acumulada de 2.993 valores de datos. La frecuencia

acumulada o probabilidad es la probabilidad de ser menor que el valor del umbral .. 6

Fig. 2.2 Histograma de 2,993 valores de datos. La representación común del

histograma tiene anchos de clase constantes; la cantidad de datos en cada clase está

etiquetada en este histograma ................................................................................... 8

Fig. 2.3 Un ejemplo de una gráfica de probabilidad. Los datos son de una

concentración de plomo, en compositos de 2 m, en una escala logarítmica .............. 9

Fig. 2.4 Un boceto de una distribución normal o gaussiana ................................ 11

Fig. 2.5 Un boceto de una distribución lognormal ................................................ 12

Fig. 2.6 Un ejemplo de una gráfica Q-Q. Los datos son de cobre total,

correspondientes a dos litologías diferentes ............................................................ 16

Fig. 2.7 Gráfica de probabilidad con valores atípicos identificados ..................... 18


2

1 Introducción

2 Herramientas Estadísticas y Conceptos

Conceptos Básicos

Una presentación convencional de las estadísticas incluye la noción de una

población que es la recolección virtualmente infinita de los valores que componen el

depósito mineral. Una muestra es un subconjunto representativo seleccionado de la

población. Una buena muestra debe reflejar las características esenciales de la

población de la que se extrae. Una muestra aleatoria es una muestra en la que cada

miembro de una población tiene las mismas posibilidades de ser incluido en la

muestra.

El espacio muestral es el conjunto de todos los resultados posibles de un

experimento casual, por ejemplo, una campaña de perforación. El suceso de un

espacio muestral es un grupo de resultados del espacio muestral cuyos miembros

tienen alguna característica común. Los sucesos estadísticamente independientes

son tales que la ocurrencia de un evento no depende de la ocurrencia de otros

sucesos. Los depósitos minerales de muestreo raramente se ajustan bien en el marco

de muestras representativas de una población estadística; sin embargo, muchos

conceptos y herramientas de las estadísticas convencionales se usan rutinariamente.

Se realizan estadísticas inductivas o estadísticas de inferencia si la muestra se

considera representativa. En este caso, a menudo se pueden inferir conclusiones

sobre la población. Como tal inferencia no puede ser absolutamente cierta, el lenguaje
3

de la probabilidad se usa para establecer conclusiones. La estadística descriptiva es

una etapa de la estadística que describe o analiza una muestra dada sin inferencia

sobre la población. Aunque nuestra meta en la estimación de recursos minerales es

casi siempre la inferencia, utilizamos muchas estadísticas descriptivas para ver,

comprender y evaluar datos.

Un concepto esencial en estadística es la estacionariedad, es decir, nuestra

elección de datos para agrupar para un análisis común. El Capítulo 6 describe la

estacionariedad de forma más formal, pero el concepto es que los datos deben

agruparse antes de intentar cualquier cálculo estadístico. Idealmente, la decisión de

cómo agrupar los datos se puede hacer sobre la base de controles geológicos claros,

como se discuten en el Cap. 4. Algunas de las herramientas estadísticas presentadas

en este capítulo son útiles para ayudar a hacer una elección de estacionariedad, pero

la mayoría asume que la decisión ya se ha tomado y los datos se han reunido en

grupos razonables.

En la mayoría de los casos consideramos variables continuas que son fracciones

de masa o de volumen, que pueden tomar cualquier valor entre un mínimo (0%) y

máximo (100%). A veces consideramos variables categóricas o discretas que pueden

tomar valores específicos de un conjunto cerrado. Una variable categórica típica sería

litología o tipo de mineralización.

Las herramientas estadísticas se utilizan por varias razones, que incluyen (1) una

mejor comprensión de los datos y del depósito mineral, (2) para garantizar la calidad

de los datos, (3) para condensar información y (4) para hacer inferencias y

predicciones. En general, no estamos interesados en la estadística de las muestras.

Nuestro objetivo es ir más allá de la muestra limitada para predecir la población


4

subyacente. Además, la visualización creativa de los datos es un componente

importante de la estimación de los recursos minerales, en parte debido a su utilidad

como herramienta para comprender los datos, pero también para ayudar a validar los

modelos distribuidos espacialmente.

Hay muchas buenas referencias sobre estadísticas básicas. Una referencia

accesible es Lapin (1983). Este libro usa algunas notaciones convenciones. Las letras

minúsculas (x, y, z, ...) denotan valores reales, como un valor medido o un umbral

especificado. Las letras mayúsculas (X, Y, Z, ...) denotan una Variable Aleatoria (RV)

que es desconocida. Caracterizamos la incertidumbre en una variable aleatoria con

una distribución de probabilidad. Una variable aleatoria podría ser la ley en una

ubicación no muestreada denotada Z(u) donde u representa un vector de

coordenadas de ubicación. Un conjunto de variables aleatorias se denomina Función

Aleatoria (RF). El conjunto de las leyes sobre una población geológica estacionaria A

es una función aleatoria {Z(u), u ∈ A}.

Distribución de Probabilidad

Las probabilidades están estrechamente asociadas a las proporciones. Una

probabilidad de 0.8 u 80% asignada a un evento significa que la proporción de veces

que ocurrirá, en circunstancias similares, es 0.8 o 8/10 u 80%. Las circunstancias

similares se relacionan con nuestra decisión de estacionariedad. En algunos casos

calculamos las probabilidades directamente a través de proporciones. Por ejemplo, la

probabilidad de que una ley de mineral dentro de una unidad geológica particular sea

menor que un umbral particular podría calcularse contando el número de muestras

por debajo del umbral y dividiendo por el número total de datos.


5

Sin embargo, hay muchos casos en los que las probabilidades no se pueden

calcular a partir de las proporciones. Esto es particularmente cierto para las

probabilidades condicionales, es decir, los valores de probabilidad dado cierto

conjunto de eventos de datos. Considere la probabilidad de que una ley de mineral

sea menor que un umbral particular dada una medida a 50 m de distancia que es dos

veces el umbral y otra medida a 75 m de distancia que está justo por debajo del

umbral. En tales casos, no tenemos múltiples repeticiones para calcular una

proporción experimental. Debemos confiar en modelos probabilísticos y leyes de

probabilidad bien establecidas.

Las distribuciones de probabilidad son caracterizadas como paramétricas o no

paramétricas. Un modelo de distribución paramétrico tiene una expresión analítica

cerrada para la probabilidad, y está completamente determinado por un número finito

de parámetros, como por ejemplo el modelo de distribución gaussiano con parámetros

de media (m) y desviación estándar (s) que controlan el centro y la dispersión de la

distribución, respectivamente.

Es común considerar que las distribuciones de probabilidad se relacionan con una

variable continua o categórica a la vez. Tales distribuciones se llaman distribuciones

univariables. Dos ejemplos: (1) la probabilidad de que una variable continua sea

menor que un umbral particular, o (2) la probabilidad de que una litología particular

prevalezca en un lugar determinado. Cuando consideramos distribuciones de

probabilidad de más de una variable a la vez, las llamamos distribuciones

multivariantes. La distribución de dos variables es una distribución bivariada. Por

ejemplo, la probabilidad de que una ley sea menor que un umbral y que una segunda

ley sea menor que otro umbral es una probabilidad bivariada.


6

Hay una gran cantidad de referencias de probabilidad y estadísticas básicas.

Algunos estadistas generales y también algunos relacionados con datos espaciales

incluyen Borradaile (2003); Davis (1986); Koch y Link (1986); Ripley (1987); y Rohatgi

y Ehsanes Saleh (2000).

Fig. 2.1 Distribución acumulada de 2.993 valores de datos. La frecuencia acumulada o probabilidad es la

probabilidad de ser menor que el valor del umbral

2.2.1 Distribuciones univariadas

La Función de Distribución Acumulativa (CDF) es la forma universal de expresar

un estado de conocimiento incompleto para una variable continua. Considere un RV

denotado por Z. La Función de Distribución Acumulativa F(z) se define como:

𝐹(𝑧) = 𝑃𝑟𝑜𝑏{𝑍 ≤ 𝑧} ∈ [0,1]

La z minúscula denota un umbral. Prob {·} denota una probabilidad o proporción.

Un ejemplo de la CDF se muestra en la Fig. 2.1; la variable z está entre 2 y 35 y

probablemente esté entre 20 y 30. Un histograma acumulativo es una CDF

experimental basado en los datos. Es útil ver todos los valores de los datos en un

gráfico y, en ocasiones, se puede utilizar para aislar poblaciones estadísticas. Los


7

histogramas acumulativos no dependen del ancho de una clase, y se pueden crear a

la resolución de los datos.

Un desafío importante es determinar qué tan representativa es cada muestra de la

mineralización real. Este problema se analiza con más detalle en el Cap. 5. También

es importante determinar si la distribución de todas las muestras representa

adecuadamente la distribución real de las leyes en el depósito, o si se debe aplicar

cierta ponderación. La probabilidad de intervalo de Z que ocurre en un intervalo de a

hacia b (donde b > a) es la diferencia en los valores de la CDF evaluados en los

valores b y a:

𝑃𝑟𝑜𝑏{𝑍 ∈ [𝑎, 𝑏]} = 𝐹(𝑏) − 𝐹(𝑎)

La función de densidad de probabilidad (PDF) es la derivada de la CDF, si es

diferenciable. Aplicando el teorema fundamental del cálculo, la CDF puede obtenerse

integrando la PDF:

𝐹(𝑧 + 𝑑𝑧) − 𝐹(𝑧)


𝑓(𝑧) = 𝐹 ′ (𝑧) = lim
𝑑𝑧→0 𝑑𝑧

𝑍
𝐹(𝑧) = ∫ 𝑓(𝑧)𝑑𝑧
−∞
8

Fig. 2.2 Histograma de 2,993 valores de datos. La representación común del histograma tiene anchos de clase

constantes; la cantidad de datos en cada clase está etiquetada en este histograma

La herramienta estadística más básica utilizada en el análisis de datos es el

histograma, ver Fig. 2.2. Deben tomarse tres decisiones: (1) escala aritmética o

escala logarítmica. La escala aritmética es apropiada porque las leyes se promedian

aritméticamente, pero la escala logarítmica revela más claramente características de

distribuciones de datos muy sesgados; (2) el rango de valores de datos a mostrar: el

mínimo es a menudo cero y el máximo está cerca del máximo en los datos; y (3) la

cantidad de clases para mostrar en el histograma, que depende del número de datos.

El número de clases debe reducirse con datos dispersos y puede aumentarse cuando

hay más datos. La desventaja importante es la reducción del tumulto (menos clases)

mientras que se muestran mejor las características (más clases).

La media o valor promedio es sensible a los valores extremos (o valores aislados),

mientras que la mediana es sensible a los vacíos o datos faltantes en el medio de una

distribución. La distribución se puede ubicar y caracterizar por cuantiles

seleccionados. La dispersión se mide por la varianza o por la desviación estándar. El

Coeficiente de Variación (CV) es la desviación estándar dividida por la media; es una

medida de variabilidad estandarizada, sin unidades, y se puede usar para comparar


9

diferentes tipos de distribuciones. Cuando el CV es alto, digamos mayor que 2.5, la

distribución debe combinar valores altos y bajos y la mayoría de los profesionales

investigaría si el conjunto de datos podría ser un subconjunto basándose en algunos

criterios geológicos claros.

Los histogramas de las muestras tienden a ser erráticos con pocos datos. Las

fluctuaciones parecidas a dientes de sierra generalmente no son representativas de

la población subyacente y desaparecen a medida que aumenta el tamaño de la

muestra. Existen técnicas disponibles para suavizar la distribución, que no solo

eliminan dichas fluctuaciones, sino que también permiten aumentar la resolución de

la clase y extender las distribuciones más allá de los valores mínimos y máximos de

la muestra. El suavizado es solo una consideración cuando el conjunto original de

datos es pequeño y se han observado o se sospechan artefactos en el histograma.

En la práctica, se combinan suficientes datos para permitir una determinación de

histograma confiable a partir de los datos disponibles.

Fig. 2.3 Un ejemplo de una gráfica de probabilidad. Los datos son de una concentración de plomo, en

compositos de 2 m, en una escala logarítmica

La gráfica de una CDF también se conoce como gráfica de probabilidad. Esta es

una gráfica de la probabilidad acumulada (en el eje Y) siendo menor que el valor de
10

los datos (en el eje X). Una gráfica de probabilidad acumulativa es útil porque todos

los valores de datos se muestran en un gráfico. Una aplicación común de este

diagrama es observar los cambios en la pendiente e interpretarlos como poblaciones

estadísticas diferentes. Esta interpretación debe ser respaldada por la física o la

geología de la variable que se observa. Es común en una gráfica de probabilidad

distorsionar el eje de probabilidad de modo que la CDF de los datos distribuidos

normalmente caiga en una línea recta. Las probabilidades extremas son exageradas.

Las gráficas de probabilidad también se pueden usar para verificar los modelos de

distribución: (1) una línea recta en escala aritmética sugiere una distribución normal,

y (2) una línea recta en escala logarítmica sugiere una distribución lognormal. La

importancia práctica de esto depende de si los métodos predictivos a aplicar son

paramétricos (Fig. 2.3).

Hay dos distribuciones univariadas comunes que se discuten en mayor detalle: las

distribuciones normales o gaussianas y las distribuciones lognormales. La distribución

normal fue introducida por primera vez por De Moivre en un artículo en 1733

(reimpreso en la segunda edición de su libro The Doctrine of Chances, 1738) en el

contexto de aproximar ciertas distribuciones binomiales para n grande. Su resultado

fue ampliado por Laplace en su libro Analytical Theory of Probabilities (1812), y ahora

se conoce como El Teorema de De Moivre-Laplace. Laplace usó la distribución

normal en el análisis de errores de experimentos. El importante método de

optimización de mínimos cuadrados fue introducido por Legendre en 1806. Gauss,

que afirmó haber usado el método desde 1794, lo justificó rigurosamente en 1809 al

asumir una distribución normal de los errores.


11

Fig. 2.4 Un boceto de una distribución normal o gaussiana

La distribución gaussiana se caracteriza por sus dos parámetros, la media y la

varianza. La PDF normal estándar tiene una media de cero y una desviación estándar

de uno. La CDF de la distribución Gaussiana no tiene expresión analítica de forma

cerrada, pero la CDF normal estándar está bien tabulada en la literatura. La

distribución Gaussiana tiene una curva simétrica característica en forma de campana

sobre su media; por lo tanto, la media y la mediana son las mismas, ver Fig. 2.4.

La distribución lognormal es importante debido a su historia en la estadística

espacial y la geoestadística. Muchas variables de las ciencias de la tierra son no-

negativas y positivamente sesgadas. La distribución lognormal es una distribución

simple que se puede usar para modelar variables no-negativas con sesgo positivo.

Se dice que una variable aleatoria positiva se distribuye lognormalmente si X = ln (Y)

se distribuye normalmente (Fig. 2.5). Hay muchas distribuciones de leyes que son

aproximadamente lognormales. Estas distribuciones también se caracterizan por dos

parámetros, una media y una varianza, aunque se han utilizado distribuciones

lognormales de tres parámetros en la minería, véase, por ejemplo, Sichel (1952). Las

distribuciones Lognormales se pueden caracterizar por sus parámetros aritméticos o

logarítmicos.
12

El teorema del Límite Central (véase, por ejemplo, Lapin 1983) establece que la

suma de un gran número de variables aleatorias estandarizadas (RV) equitativamente

distribuidas (no necesariamente gaussianas) tienden a distribuirse normalmente, es

decir, si n RV's Zi tienen la misma CDF y cero significa que la RV tiende hacia una

CDF normal, ya que n aumenta hacia el infinito. El corolario de esto es que el producto

de un gran número de RV’s independientes e idénticamente distribuidas tiende a

distribuirse normalmente.

La justificación teórica de la distribución normal tiene poca importancia práctica; sin

embargo, observamos comúnmente que la distribución de leyes se vuelve más

simétrica y normal, a medida que el volumen de investigación se hace más grande,

se promedia la aleatoriedad de las leyes y los resultados tienden a una distribución

normal.

Fig. 2.5 Un boceto de una distribución lognormal

2.2.2 Distribuciones paramétricas y no paramétricas

Un modelo de distribución paramétrica tiene una expresión analítica para la PDF o

para la CDF, como también para la función de densidad Gaussiana y la distribución

Lognormal. Las distribuciones paramétricas a veces se relacionan con una teoría

subyacente, como lo hace la distribución normal al Teorema del Límite Central. Hay
13

muchas distribuciones paramétricas que son usadas en diferentes configuraciones,

incluidas las distribuciones lognormal, uniforme, triangular y exponencial.

La geoestadística moderna hace un uso extensivo de la distribución Gaussiana

debido a su capacidad de tratamiento matemático. La distribución lognormal también

es importante, pero principalmente desde una perspectiva histórica. Sin embargo, en

general, la geoestadística moderna no se ocupa demasiado de otras distribuciones

paramétricas porque los datos de cualquier distribución se pueden transformar en

cualquier otra distribución, incluida la gaussiana, si es necesario. La adopción de una

distribución paramétrica para los valores de los datos puede ser la única opción en

presencia de datos muy dispersos; se usa una distribución no paramétrica cuando

hay suficientes datos.

No existe una teoría general para las variables relacionadas con la ciencia de la

tierra que predecirían la forma paramétrica para las distribuciones de probabilidad.

Sin embargo, ciertas formas de distribución se observan comúnmente. Existen

pruebas estadísticas para juzgar si un conjunto de valores de datos sigue una

distribución paramétrica particular. Pero estas pruebas tienen poco valor en la

estimación de los recursos porque requieren que los valores de los datos sean

independientes entre sí, lo que no es el caso en la práctica.

Las distribuciones paramétricas tienen tres ventajas significativas: (1) son

susceptibles de cálculos matemáticos, (2) la PDF y la CDF son analíticamente

conocidas para todos los valores de z, y (3) se definen con unos pocos parámetros.

La principal desventaja de las distribuciones paramétricas es que, en general, los

datos reales no se ajustan convenientemente a un modelo paramétrico. Sin embargo,

la transformación de datos permite a estos seguir cualquier distribución para ser


14

transformados en cualquier otra distribución, aprovechando así la mayoría de los

beneficios de las distribuciones paramétricas.

La mayoría de las distribuciones de datos a menudo no están bien representadas

por un modelo de distribución paramétrica. A veces las distribuciones se caracterizan

como no paramétricas, es decir, que todos los datos se usan para definir la

distribución con proporciones experimentales; no se requiere un modelo paramétrico

para la CDF o para la PDF. En este caso, la distribución de probabilidad CDF puede

inferirse directamente de los datos, y por lo tanto las distribuciones no paramétricas

son más flexibles. La CDF se deduce directamente como la proporción de datos

menor que o igual que el valor umbral z. Por lo tanto, una proporción es asociada a

una probabilidad.

Una función de distribución acumulativa no paramétrica es una serie de funciones

escalonadas. Se puede usar alguna forma de interpolación para proporcionar una

distribución más continua F(z) que se extiende a valores mínimos arbitrarios zmin y a

valores máximos zmax. La interpolación lineal se usa a menudo. Se podrían considerar

modelos de interpolación más complejos para distribuciones de datos muy

asimétricas con datos limitados.

2.2.3 Cuantiles

Los cuantiles son valores Z específicos que tienen un significado probabilístico. El

p-cuantil de la distribución F(z) es el valor zp para el cual:

𝐹(𝑧𝑝 ) = 𝑃𝑟𝑜𝑏 {𝑍 ≤ 𝑧𝑝 } = 𝑝

Los 99 cuantiles con valores de probabilidad de 0.01 a 0.99 en incrementos de 0.01

se conocen como percentiles. Los nueve cuantiles en 0.1, 0.2, ..., 0.9 se llaman
15

deciles. Los 3 cuantiles con valores de probabilidad de 0.25, 0.5 y 0.75 se conocen

como cuartiles. El cuantil 0.5 también se conoce como la mediana. La función de

distribución acumulativa proporciona la herramienta para extraer cualquier cuantil de

interés. La inversa matemática de la función CDF se conoce como la función cuantil:

𝑧𝑝 = 𝐹 −1 (𝑝) = 𝑞(𝑝)

El rango intercuartílico (IR o IQR) es la diferencia entre los cuartiles superior e

inferior: 𝐼𝑅 = 𝑞(0.75) − 𝑞(0.25) y se usa como una medida robusta de la dispersión

de una distribución. El signo de asimetría es el signo de la diferencia entre la media y

la mediana (m-M) que indica sesgo positivo o sesgo negativo.

Los cuantiles se usan para comparar distribuciones de varias maneras. Se pueden

usar para comparar la distribución de datos original con valores simulados, comparar

dos tipos de muestras o comparar los resultados de dos laboratorios diferentes. Una

buena forma de hacerlo es con un diagrama de cuantiles coincidentes, es decir, una

gráfica cuantil-cuantil (Q-Q) (Fig. 2.6). Para generar una gráfica Q-Q, primero

debemos elegir una serie de valores de probabilidad pk, k = 1, 2, ..., K; luego,

graficamos q1 (pk) versus q2 (pk), k = 1, 2, ..., K.


16

Fig. 2.6 Un ejemplo de una gráfica Q-Q. Los datos son de cobre total, correspondientes a dos litologías

diferentes

Si todos los puntos caen a lo largo de la línea de 45 °, las dos distribuciones son

exactamente iguales; si la línea es desplazada de la de 45 °, pero paralela a ella, las

dos distribuciones tienen la misma forma, pero diferentes medios; si la pendiente de

la línea no es de 45 °, las dos distribuciones tienen varianzas diferentes, pero formas

similares; y si hay un carácter no lineal en la relación entre las dos distribuciones,

tienen diferentes formas y parámetros de histograma.

El gráfico P-P considera probabilidades de coincidencia para una serie de valores

Z fijos. El gráfico P-P variará entre 0 y 1 (o 0 y 100%), de valores mínimos a máximos

en ambas distribuciones. En la práctica, las gráficas Q-Q son más útiles porque trazan

los valores de interés (leyes, espesores, permeabilidades, etc.) y, por lo tanto, es más

fácil concluir cómo las dos distribuciones se comparan en función de los valores de

las muestras.

2.2.4 Valores Esperados

El valor esperado de una variable aleatoria es el promedio ponderado de la

probabilidad de esa variable aleatoria:

+∞ +∞
𝐸{𝑍} = 𝑚 = ∫ 𝑧𝑑𝐹(𝑧) = ∫ 𝑧𝑓(𝑧)𝑑𝑧
−∞ −∞

El valor esperado de una variable aleatoria también se conoce como la media o el

primer momento. El valor esperado también puede ser considerado como un operador

estadístico. Es un operador lineal.

El valor esperado de la diferencia al cuadrado de la media se conoce como la

varianza (σ2). Está escrito como:


17

𝑉𝑎𝑟{𝑍} = 𝐸{[𝑍 − 𝑚𝑍 ]2 } = 𝜎 2

= 𝐸{𝑍 2 − 2𝑍𝑚𝑍 + 𝑚𝑍 2 }

= 𝐸{𝑍 2 } − 2𝑚𝑍 𝐸{𝑍} + 𝑚𝑍 2

= 𝐸{𝑍 2 } − 𝑚2

La raíz cuadrada de la varianza es la desviación estándar (σ o s). La desviación

estándar está en las unidades de la variable. Es común calcular un coeficiente de

variación adimensional (CV), es decir, la relación de la desviación estándar dividida

por la media.

𝐶𝑉 = 𝜎/ 𝑚

Como una guía aproximada, un CV menor que 0.5 indica un comportamiento

bastante bueno del conjunto de datos. Un CV mayor que 2.0 o 2.5 indica una

distribución de datos con variabilidad significativa, de modo que algunos modelos

predictivos podrían no ser apropiados.

Hay medidas adicionales de tendencia central aparte de la media. Estas incluyen

la mediana (50% de los datos más pequeños y 50% más grandes), la moda (la

observación más común) y la media geométrica. También hay medidas de dispersión

aparte de la varianza. Incluyen el rango (diferencia entre la observación más grande

y la más pequeña), el rango intercuartílico (descrito anteriormente) y la desviación

absoluta media (MAD). Estas medidas no se usan ampliamente.


18

Fig. 2.7 Gráfica de probabilidad con valores atípicos identificados

2.2.5 Valores Extremos-Atípicos

Un pequeño número de valores muy bajos o muy altos puede afectar fuertemente

el resumen de las estadísticas como la media o la varianza de los datos, el coeficiente

de correlación y las medidas de continuidad espacial. Si se demuestra que son

valores erróneos, deben eliminarse de los datos. Para valores extremos que son

muestras válidas, existen diferentes maneras de manejarlos: (1) clasifique los valores

extremos en una población estadística separada para procesamiento especial, o (2)

use estadísticas sólidas, que sean menos sensibles a valores extremos. Estas

opciones se pueden usar en diferentes momentos en la estimación de recursos

minerales. Como principio general, los datos no deberían modificarse a menos que

se sepa que son erróneos, aunque su influencia en los modelos de predicción espacial

puede estar restringida.

Muchos métodos geoestadísticos requieren una transformación de los datos que

reduce la influencia de los valores extremos. Los diagramas de probabilidad a veces

se pueden usar para ayudar a identificar y corregir valores extremos, ver Fig. 2.7. Los
19

valores en la cola superior de la distribución podrían ser removidos en línea con la

tendencia determinada a partir de los otros datos. Una alternativa consiste en el límite

mediante el cual los valores superiores a un umbral de valores atípicos definidos se

restablecen al umbral de valores atípicos.

También podría gustarte