Edustatspr Header Logo Menu
Busca en este espacio:

Glosario de Términos Estadísticos


A B C D E F G H I J K L M N O P Q R S T U V W X Y Z #

Selecciona la primera letra de la palabra en la lista de arriba para saltar a la sección apropiada del glosario. Si el término que buscas comienza con un dígito o símbolo, selecciona el enlace '#' .

Otros glosarios (haz una búsqueda en la web: glosario estadístico, statistical glossary):


- A -

álgebra sigma: sigma algebra
Es una colección de subconjuntos del espacio muestral que contiene el conjunto vacío ø y es cerrada bajo uniones contables y complementación de esos subconjuntos. Un espacio muestral puede tener más de un álgebra sigma.
Ejemplo: Lanzamos un dado al aire, observamos el número de puntos en la cara superior. El espacio muestral del experimento es S = {1, 2, 3, 4, 5, 6}. Uno de los álgebra sigma que podemos asociar a S es la colección { ø, {1,2}, {3, 4, 5, 6}, S}.
amplitud: range
Es la distancia entre el valor máximo observado y el valor mínimo observado en un conjunto o distribución de datos. Su valor se obtiene restando el valor mínimo observado del valor máximo observado: max(x1, x2, ..., xn) - min(x1, x2, ..., xn)
amplitud intercuartila: interquartile range
Es la distancia entre el primer y tercer cuartilas del conjunto de datos.
aleatorio: random, stochastic.
Al azar, estocástico. Este término representa una idea que debe ser expresada en términos del concepto de probabilidad. Tenemos la noción de que un fenómeno ocurre en forma aleatoria cuando no sigue un patrón particular que se pueda predecir o explicar con absoluta precisión o certeza. El patrón general de comportamiento o tendencia de un fenómeno aleatorio usualmente se puede modelar por alguna distribución de probabilidad.
atributo: attribute
También se le llama categoría, característica cualitativa de un objeto o individuo tal como sexo, país de origen, estado marital...
Back to Top

- B -

bookmark
Una forma de marcar páginas favoritas para un acceso rápido y fácil. (Netscape lo llama Bookmark, el Internet Explorer los llama Favorites.
Back to Top

- C -

censo: census
Es una encuesta en la que participan todos los miembros de la población.
coeficiente de correlación: correlation coefficient
Es una medida de dependencia estadística lineal entre dos características o variables. Es un número r que se encuentra en el intervalo [-1, 1] . Un valor cerca de uno indica que a medida que el valor de una variable aumenta, el valor de la otra también tiende a aumentar. Si el valor está cerca de -1 a medida que el valor de una variable aumenta, el valor de la otra variable tiende a disminuir.

Una correlación de cero indica que no hay dependencia lineal estadística entre las dos variables, aunque no indica que las variables sean independientes (excepto en el caso en que las variables tengan distribución normal). Una correlación distinta de cero no es evidencia suficiente para concluir que hay una relación de causa y efecto entre las variables. Mientras más cercano del número 1 esté el valor absoluto del coeficiente de correlación, más cerca de una línea recta estarán los valores observados. Se puede entender o computar, como la covarianza entre dos variales aleatorias estandarizadas y se calcula de la siguiente manera:
stat-corr_coef . EJEMPLOS:
coeficiente de determinación: coefficient of determination
Computacionalmente es el cuadrado del coeficiente de correlación y se denota por R cuadrado (R²). Expresa la proporción de la varianza de la variable dependiente que es explicada por la variable independiente. Cuando se expresa en por ciento, representa el porcentaje de la variación de la variable dependiente que es explicada por la variable independiente. Su valor se obtiene de la partición de la suma total de cuadrados en el modelo de regresión:
stat-R2 . En esta ecuación, SSR representa la suma de cuadrados debido a la regresión, SST es la suma total de cuadrados (corregida) y SSE es la suma de cuadrados debido al error.

R cuadrado siempre tiene un valor entre cero y uno 0 ≤ R² ≤ 1. Un valor cerca de cero significa que los puntos o valores observados se encuentran cerca de la línea recta (en el caso de regresión lineal simple) y por lo tanto el modelo de línea recta explica una buena parte del comportamiento de la variable dependiente. Por el otro lado un valor cerca de cero significa que eso valores se encuentran alejados de la línea recta y el modelo no explica mucho de la variación observada en la variable dependiente.

Un valor de R cuadrado cercano a 1 no indica automáticamente que el modelo es bueno ya que esa conclusión tiene que depender directamente del problema particular. De la misma manera, un valor pequeño de R cuadrado no indica directamente que el modelo es malo. Por ejemplo, suponga que la variable Y es explicada por un número relativamente grande de variables, X1, X2, ..., Xn. Un caso concreto podría ser Y = peso de individuos y las X1, X2, ..., Xn podrían ser estatura, edad, sexo, número de calorías ingeridas, tiempo que invierte en actividades sedentarias, tiempo que dedica a ejercitarse, intensidad de los ejercicios y muchas otras. Si en esta situación, encontramos una sola variable, X* que explica el 30% de la variación de Y (peso), el valor de R² puede considerarse como bueno.
coeficiente de variación: coefficient of variation
Variabilidad relativa a la media. Expresa la proporción de variabilidad de una característica por cada unidad de la media. Computacionalmente se obtiene dividiendo la desviación estándar por la media.
confiabilidad (fiabilidad): confiability
Indica cuán seguros podemos estar de que el proceso seguido resulte en valores que representen verdaderamente la población. Se usa más comúnmente con intervalos de confianza. En sentido probabilístico, si tuviéramos una confiabilidad del 95%, decimos que si repitiéramos el proceso muchas veces, en cerca del 95% de las veces obtendríamos resultados que reflejan verdaderamente la realidad. Cerca del 95% de los intervalos así construidos contendrían el valor desconocido del parámetro.
contable: countable
Es una propiedad de un conjunto de objetos o números. Si el conjunto tiene un número finito de objetos decimos que es contable. También es contable un conjunto que contiene un número infinito de objetos si cada objeto puede ser potencialmente contado. Es decir, a cada objeto contenido en el conjunto puede asignársele un número natural 1, 2, 3, ... Ejemplos de conjuntos contables son {1, 2, 3, 4, ....}, el número de hojas de un árbol, el número de estrellas en el universo, los números racionales....
convergencia en distribución: convergence in distribution
Sea Yn una variable aleatoria cuya función de distribución acumulativa (cdf) Fn(y) depende de un entero positivo n. Si Y es otra variable aleatoria con cdf F(y)  tal que lim Fn(y) = F(y) cuando n tiende a infinito para todos los puntos y en los cuales F(y) es continua, entonces decimos que la variable aleatoria Yn converge en distribución a la variable aleatoria Y.
convergencia en probabilidad: convergence in probability
Sea Yn una variable aleatoria. Si existe una constante real c tal que para cada € > 0, el límite de P(|Yn - c| > ε) es cero cuando n tiende a infinito, decimos que Yn  converge en probabilidad a la constante c. Véase ley débil de números grandes.
correlación: correlation
 
 
covarianza: covariance
cuadrados mínimos: least squares
Es un método matemático que sirve para ajustar líneas o funciones a datos. En este método se reduce al mínimo la suma del cuadrado de las distancias (verticales) de los puntos observados a la función que se quiere ajustar. Se usa el cálculo y el álgebra lineal para obtener estimados de los parámetros que definen la función.
cuartilas o cuartilas: quartiles
Son tres valores que dividen los datos observados en cuatro partes con esencialmente la misma cantidad de datos cada una. El valor central es llamado mediana, y los otros dos cuartilas superior (Q3) y inferior (Q1), respectivamente. Pueden representarse gráficamente mediante un diagrama de caja y bigotes:
boxplot Q1 (aproximadamente igual a 45) representa la primera cuartila y es un número tal que alrededor del 25% de los datos es menor o igual que Q1. La tercera cuartila es Q3 (aproximadamente igual a 60), un número tal que alrededor del 75% de los datos es menor o igual que Q3. La segunda cuartila corresponde a la mediana.

Para encontrar la primera cuartila Q1 se encuentra primero la mediana de los datos. Sin incluir la mediana misma, se toman todos los datos que son menores o iguales a la mediana, y se encuentra la mediana de este nuevo y más pequeño conjunto de datos. Para encontrar la tercera cuartila se hace exactamente lo mismo con el conjunto de datos que son mayores o iguales a la mediana.

Ejemplo:
Se observan los valores 1, 6, 5, 4, 3, 4, 5, 4, 5. El primer paso es ordenarlos: 1, 3, 4, 4, 4, 5, 5, 5, 6. Como hay un total de 9 datos el valor que se encuentra en la quinta posición dividirá el conjunto de datos en dos subconjuntos de 4 datos cada uno:   1, 3, 4, 4, 4, 5, 5, 5, 6. Así la mediana es 4. La primera cuartila es la mediana de los cuatro datos menores o iguales a 4, 1, 3, 4, 4 , es decir, Q1 = 3.5. La tercera cuartila corresponde a la mediana de 5, 5, 5, 6, Q3 = 5.
Back to Top

- D -

datos: data
Valores que se obtienen al observar directamente los resultados de una variable en la muestra o población. Pueden ser numéricos o cualitativos.
desigualdad de Chebyshev:
.
desigualdad de Markov:
.
datos cuantitativos: quantitative data
Valores que se obtienen al observar directamente los resultados de una variable numérica (no de atributo).
datos cuantitativos: quantitative data
Valores que se obtienen al observar directamente los resultados de una variable numérica (no de atributo).
desviación absoluta media: mean absolute deviation
Es una medida de distancia promedio de los valores observados a su media. La distancia de cada valor a la media se mide tomando el valor absoluto de la diferencia entre ese valor y la media. Se obtiene de la siguiente manera: stat-mad .
desviación estándar: standard deviation
Es una medida de distancia promedio de los valores observados a su media. La distancia de cada valor a la media se mide tomando el cuadrado de la diferencia entre ese valor y la media. Luego de obtener el promedio de esos cuadrados, tomamos la raíz cuadrada. La desviación estándar es la raíz cuadrada de la varianza. En el caso de una muestra se calcula de la siguiente manera: stat-std_dev-n .
diagrama de caja y bigotes: box and whisker plot, boxplot
Es una gráfica que presenta un solo eje. En este se representan cinco valores: los valores mínimo y máximo, la primera y tercera cuartila y la mediana. Del valor mínimo a la primera cuartila, Q1, se observa aproximadamente el 25% de los datos. De Q1 a la mediana se observa la misma cantidad y así sucesivamente. Este diagrama permite ver la algunas características generales de la distribución, tal como simetría y dispersión.
                Ejemplo:  boxplot
diagrama de puntos: dotplot
Es una gráfica que presenta un solo eje. En este se representa cada valor observado en la muestra con un punto sobre el lugar geométrico correspondiente al valor. Si se repitiera algún valor se dibuja un punto sobre el anterior. Es útil para visualizar la distribución de los datos, si éstos se agrupan alrededor de uno o más puntos, la dispersión, valor máximo, mínimo, moda. En este diagrama se facilita además la localización de la mediana y cuartilas. Sin embargo, no es muy práctico si se tiene un número grande de datos.
Ejemplo:  dotplo
diseño de la muestra: sample design
Plan definitivo, determinado por completo antes de recopilar cualquier dato, para tomar una muestra de una población particular. (Lismarie Torres y Lydiaris González)
diseño del experimento: experimental design
Puede ser experimento controlado o diseño completamente aleatorio. En el experimento controlado todas las variables, excepto la que se considera, se maneja como fijas. En el diseño completamente aleatorio todas las variaciones debidas a factores extraños no controlados pueden, por tanto, incluirse en el término de variación debida al azar. (Lismarie Torres y Lydiaris González)
distribución de frecuencias: frequency distribution
Es una especificación de cómo las frecuencias de los elementos de una población o muestra están distribuidos de acuerdo con los valores observados. Se puede representar en forma de tabla, gráfica de barras o histograma.Nos dice cuantos elementos tienen el mismo valor o caen en el mismo intervalo.
distribución normal: normal distribution
distribución de probabilidad: probability distribution
En el caso de una variable aleatoria discreta, da la probabilidad de observar que la variable X asume un valor x, es decir, P( X = x). Se expresa como función de x: f (x) = P( X = x). La función f (x) se llama función de probabilidad. En el caso de una variable aleatoria continua, la distribución de probabilidad se representa por una función g(x) llamada función de densidad. En este caso, si tenemos un intervalo pequeño, [x, x + a], entonces, P( x < X <= x + a) es aproximadamente igual a: a g(x). En todo caso, la función de probabilidad siempre en un valor no negativo y su suma o integral sobre todos los valores de x siempre es igual a 1.
distribución de probabilidad acumulativa o acumulada: cummulative distribution function
Es una función de un número real x que indica cual es la probabilidad de observar un valor de la variable aleatoria X que sea menor o igual al número x. Es decir. F(x) = P( X ≤ x). Es una función no decreciente con F( -∞ ) = 0 y F( ∞ ) = 1.
Back to Top

- E -

encuesta: survey
Método de obtener datos de una población o muestra, sin ejercer control alguno sobre los factores que pueden afectar las características de interés o resultados de la encuesta.
encuesta por muestreo: sample survey
Es una encuesta en la que participa sólo una porción de la población
error estándar: standard error
pronto
error tipo I: type I error
Ocurre cuando rechazamos la hipótesis nula siendo ésta cierta.
error tipo II: type II error
Ocurre cuando no rechazamos la hipótesis nula siendo ésta falsa.
error de medición: measurement error
ocurre cuando las preguntas que se hacen en el cuestionario no miden la variable que se quiere medir.
error de no respuesta: non response error
se introduce este error cuando los miembros de la población no responden a una encuesta. Por ejemplo, encuestas por correo, la persona no está en casa cuando llega el encuestador, no contestan el teléfono ...
error de respuesta: response error
ocurre cuando las personas encuestadas no proveen una contestación correcta a la pregunta. Ocurre con frecuencia cuando se quiere medir alguna variable cuya contestación puede ser íntima o "problemática". Por ejemplo, si la persona no confía en el uso en que se le dará a los resultados de sus preguntas.
error de respuesta voluntaria: voluntary response error
ocurre cuando una encuesta no se conduce en una muestra seleccionada al azar, pero se invita a las personas a llenar un cuestionario publicado en una revista, periódico, estación de radio o televisión.
error de selección: selection error
la lista de miembros de la población, el marco, que se usa para seleccionar la muestra no incluye o enumera a toda la población. Esto introduce un sesgo. Elementos de la población con determinadas características no son incluidos en la muestra o tienen una probabilidad distinta a la deseada de ser seleccionados.
error muestral: sampling error
Es la diferencia entre un estadístico y su parámetro correspondiente. Es una medida de la variabilidad de las estimaciones del parámetro usando muestras repetidas en torno al valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad una estimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Un estadístico será más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es la desviación de la distribución muestral de un estadístico y su fiabilidad. (Johanna Alicea, Sec 2. II 98-99)
error no muestral: non sampling error
Son errores que ocurren en la selección, recolección, anotación y tabulación de los datos. Son usualmente resultado de error humano.
espacio muestral: sample space
Es el conjunto de todos lo posibles resultados de un experimento.
estadística: statistics
Es una función real de los datos, concretamente, es un valor que se calcula a partir de los datos. Ejemplos: suma, producto, mediana, máximo, desviación absoluta media de los datos.
estadística descriptiva: descriptive statistics
Métodos que usamos para describir los datos que se han obtenido de la muestra o población. Nos sirve para presentar una idea de la realidad y para hacer inferencia informal.
estadística inferencial: inferential statistics
Métodos probabilísticos que usamos para tomar decisiones, estimar, predecir o hacer generalizaciones sobre una población basados en una muestra.
estadística prueba: test statistic
Cantidad calculada de los datos muestrales que se usa para decidir si se rechaza o no la hipótesis nula. Generalmente, un valor grande de esta estadística es un indicador que nos apunta hacia el rechazo de la hipótesis nula.
estadística suficiente: sufficient statistic
Pronto
estandarización: standardization
Proceso por el cual obtenemos valores estándar, es decir, con media cero y varianza o desviación estándar de uno. Sirve para comparar valores obtenidos de distintas distribuciones. Es un método fundamental usado para obtener estadísticas pruebas e intervalos de confianza. Para estandarizar una variable X, se le resta su media poblacional μ y se divide el resultado por la desviación estándar σ de la variable X. Obtenemos una variable estándar Z de la siguiente manera: Z = [ X - μ]/σ. Z tendrá distribución normal si y solo si X tiene distribución normal.
estimador: estimator
El estimador de un parámetro poblacional es una función de las observaciones que de alguna manera resulta en un valor cercano al parámetro poblacional. Por ejemplo, la media de la muestra es un estimador de la media poblacional.
estimador insesgado: unbiased estimator
Es un estimador cuyo promedio es el valor del parámetro desconocido. Su valor esperado es el valor del parámetro poblacional. Un estimador insesgado es uno que tiene la propiedad de exactitud.
estudio observacional: observational study
Los investigadores meramente observan los valores de algunas características de la muestra.No manipulan ni establecen condiciones. Estos estudios sólo pueden describir o revelar asociación entre dos o más variables. No pueden determinar causa y efecto. Para esto último es necesario un experimento debidamente diseñado.
evento: event
Es un subconjunto del espacio muestral y como tal contiene cero, uno o más de los posibles resultados de un experimento. Un evento ocurre cuando cualquier resultado contenido en el evento es observado. Es un conjunto que es miembro del álgebra sigma generado por el experimento.
eventos independientes: independent events
Dos eventos son independientes si el que uno ocurra no afecta la probabilidad del que el otro ocurra. Matemáticamente hablando, dos eventos A, B son independientes si y sólo si P( A y B) = P(A) P(B), o casi equivalentemente, P(A |B) = P(A).
eventos mutuamente excluyentes: mutually exclusive events
Son dos o más eventos que no pueden ocurrir simultáneamente. Si A, B son eventos mutuamente excluyentes,
P(A y B) = 0 siempre. Por ejemplo, al lanzar un dado no es posible observar el evento {1, 2} y el evento {3} a la vez.
exactitud
Una medida (o un instrumento para medir) tiene la propiedad de exactitud cuando las observaciones que  se toman se distribuyen alrededor del valor "real". El valor "real" es un parámetro de la población cuyo valor es usualmente desconocido, tal como la media poblacional. Un estimador de un parámetro es exacto cuando es insesgado, es decir, cuando su valor esperado o promedio es igual al parámetro que se estima. Por ejemplo, la media muestral es un estimador exacto (insesgado) para la media poblacional.
PrecNoExacto Prec y Exacto No Pres-Exacto
Datos con mucha precisión, pero inexactos. Datos con  precisión, y con exactitud. Datos con menos precisión, pero todavía exactos.
NoPrecNoExact    
Datos sin precisión e inexactos.    
experimento: experiment
Es un proceso que cuando lo llevamos a cabo resulta en uno y sólo uno de los posibles resultados que podríamos obtener (probabilidad). Generalmente, datos son observados de los miembros de la población o muestra ejerciendo control sobre uno o más de los factores que podrían alterar la característica de interés o los resultados del experimento (ciencia).
experimento diseñado: designed experiment
Es un experimento donde controlamos la asignación de los elementos a los distintos grupos de tratamiento. El valor del tratamiento que recibe cada individuo de la muestra es seleccionado (variable manipulada) por la persona que efectúa el experimento.
Back to Top

- F -

función de densidad: density function
Se asocia a una variable aleatoria continua X. Es una función, f(x), no negativa y su integral sobre todos los números reales resulta en 1. El área bajo f(x) y sobre el intervalo [a, b] (el integral de f(x) desde a hasta b) nos da la probabilidad de que X adquiera algún valor en ese intervalo: P( a <= X <= b).
función de distribución acumulativa: cumulative distribution function
Se asocia a cualquier variable aleatoria X. F(x) indica la probabilidad de que  la variable X obtenga un valor menor o igual al número x: F(x) = P( X ≤ x).
función de probabilidad: probability function
Se asocia a una variable aleatoria discreta X. Es una función, f(x), no negativa, tal que la suma sobre todos los posibles valores que puede asumir X resulta en 1. La función de probabilidad de X evaluada en un número a es igual a la probabilidad de que X sea igual al número a: f( a ) = P( X = a).
Back to Top

- G -

grupo control: control group
En un experimento, es el grupo asignado a no recibir tratamiento o algún tratamiento inocuo conocido como placebo.
grupo experimental: experimental group
En un experimento es el grupo que recibe el tratamiento.
 
Back to Top

- H -

hipertexto: hypertext
Un documento que contiene enlaces (links) a otros documentos o a otras secciones en el documento mismo. El documento enlazado se despliega seleccionando una palabra o un ícono destacado en el hipertexto.
hipótesis nula: null hypothesis
Es una aseveración sobre el valor de un parámetro desconocido de una población. Se presume cierta hasta tanto se demuestre lo contrario. Usualmente indica que no hay cambio, que no hay diferencia (por eso se llama nula). Esta hipótesis se rechaza o no (no decimos se acepta) dependiendo del valor de la estadística prueba o del valor p al nivel de significancia deseado.
hipótesis alternativa: alternative hypothesis
Es una aseveración sobre el valor de un parámetro desconocido de una población. Es la hipótesis de investigación, es lo que deseamos demostrar con el experimento o estudio. Cuando rechazamos la hipótesis nula lo hacemos a favor de ésta.
Histograma: histogram
próximo
HyperText Markup Language (HTML)
Conjunto de instrucciones que se usa para crear e interpretar páginas que pueden ser desplegadas en un Web browser en el World Wide Web.
HyperText Transfer Protocol (http)
Protocolo utilizado por el World Wide Web para transferir información de hipertexto. Las direcciones de los documentos en el Web comienzan con http://
 
Back to Top

- I -

inferencia informal
Conjunto de aseveraciones, hipótesis o conclusiones razonables que se pueden hacer sobre una población basándonos en una muestra. Se distingue de la estadística inferencial porque aquí no usamos elementos de probabilidad.
información: information
Próximo
Internet
Es un conglomerado de redes de computadoras interconectas a través de todo el mundo para transportar información. Se considera, en esencia, una red de redes. Algunos de los servicios de Internet son: WWW, E-mail, FTP, Gopher, Archie, Talk.
intervalo de confianza: confidence interval

Back to Top

- J -

 
Back to Top

- K -

 
Back to Top

- L -

ley débil de números grandes: weak law of large numbers (WLLN)
Sea X1, X2, ..., Xn una sucesión de variables aleatorias, cada una con media poblacional μ y varianza σ² < ∞. Sea Xbar la media muestral de X1, X2, ..., Xn, y sea ε (epsilon) un número mayor de cero (ε > 0), entonces lim P( | Xbar - μ | < ε ) = 1 cuando n tiende a infinito.

Esto quiere decir que la media muestral Xbar converge en probabilidad a la media poblacional μ. La convergencia aquí no es de variables aleatorias, sino de números correspondientes a probabilidades, pues arriba se toma el límite luego de calcular la probabilidad. El límite se toma sobre la sucesión de probabilidades, calculada cada una de las probabilidades para cada valor de n. La ley débil de números grandes se demuestra usando la desigualdad de Chebyshev.

La Ley de números grandes indica que la probabilidad de encontrar a la media de la muestra Xbar, cerca de la media poblacional μ se acerca a 1 (uno) a medida que el tamaño de la muestra aumenta. Por lo tanto, para un valor grande de n, es muy probable encontrar a Xbar cerca de μ y entonces es muy poco probable encontrar a Xbar lejos de μ.

Ley de números grandes
La gráfica arriba muestra que los valores observados de la proporción de caras en cada uno de tres experimentos de 1,000 tiradas de una moneda, se acercan a .5 a medida que el número de observaciones aumenta (las tres gráficas se acercan a la línea roja), haciendo que la probabilidad de que esa porporción esté cerca de μ, se acerque a 1. Nota: si X = 1 cuando se observa una cara y X = 0 cuando se observa cruz, entonces la proporción de caras es ΣX/n. La suma de las X es sobre todos los valores observados de X en n tiradas. Ejemplo simulado

línea de regresión: regression line
En la situación más sencilla, es una línea recta que puede explicar la variabilidad de una variable (dependiente) como una función lineal de otra variable (independiente). Por el método que se usa para estimar sus coeficientes, el de cuadrados mínimos, se le conoce también como la línea de mejor ajuste. En el caso de la imagen abajo, la variación de la variable y alrededor de su media es explicada totalmente por la existencia de una variable x, que cuando se toma en consideración, forma junto a y, una línea recta.


En la gráfica de abajo, vemos que la variación de la variable y es explicada, aunque no totalmente, por la línea recta.
Back to Top

- M -

máquina o motor de búsqueda (search engine)
Programa diseñado a la manera de un índice o catálogo de una biblioteca, para buscar información en Internet. Ejemplo de éstos son Google, Yahoo, Ask y Webcrawler.
marco: frame
Es una lista de todos los elementos que componen la población.
margen de error: marigin of error
Cuando deseamos estimar el valor de un parámetro, usamos una estadística para ello y construimos un intervalo alrededor de esa estadística. Decimos entonces que con una confiabilidad establecida, el intervalo incluye el valor desconocido del parámetro. El margen de error es la mitad del ancho de ese intervalo.
máxima verosimilitud: maximum likelihood
pronto
media (aritmética): mean
Computacionalmente es la suma de todos los valores observados dividida por el número de observaciones. Representa el centro de masa de los datos, un punto de equilibrio.
Ejemplo: Observamos los valores 1, 6, 5, 4, 3, 4, 5, 4, 5. Su media aritmética es (1 + 6 + 5 + 4 + 3 + 4 + 5 +4 + 5) / 9.
media ponderada: weighted mean
Pronto
mediana: median
Es una medida de localización o tendencia central de los datos. Es un número que divide al conjunto de datos en dos conjuntos de igual tamaño. Unos que son  menores o iguales que la mediana y otros que son mayores o iguales que la mediana. Una vez ordenados los datos su valor sólo depende de la posición que ocupa, no del valor particular observado.
Ejemplo: Se observan los valores 1, 6, 5, 4, 3, 4, 5, 4, 5. El primer paso es ordenarlos: 1, 3, 4, 4, 4, 5, 5, 5, 6. Como hay un total de 9 datos el valor que se encuentra en la quinta posición dividirá el conjunto de datos en dos subconjuntos de 4 datos cada uno:   1, 3, 4, 4, 4, 5, 5, 5, 6. Así la mediana es 4.
Ejemplo: Se observa un número par de datos. Los valores 1, 6, 5, 4, 3, 4, 5, 5 son observados. El primer paso es ordenarlos: 1, 3, 4, 4, 5, 5, 5, 6. Como hay un total de 8 datos, un valor que se encuentre entre la cuarta y la quinta posición dividirá el conjunto de datos en dos subconjuntos de 4 datos cada uno:   1, 3, 4, 4, x, 5, 5, 5, 6. Así la mediana de este conjunto es (4 + 5)/2 = 4.5.
minería de datos: data mining
Es el proceso de descubrir nuevas correlaciones, patrones y tendencias buscando en grandes cantidades de datos usando tecnologías de reconocimiento de patrones así como metodología estadística y matemática. Ver Evolution of Data Mining. (Web site de www.spss.com)
moda: mode
Valor o valores más comunes en la población o en la muestra. En el caso de una distribución continua es el punto o puntos donde la función de densidad alcanza el máximo.
Ejemplo: Observamos  1, 6, 5, 4, 3, 4, 5, 5. La moda de éstos es el 5, el valor más frecuente.
Ejemplo: Observamos  1, 6, 5, 4, 3, 4, 5, 5, 4. Este conjunto de datos tiene dos modas, el 4 y el 5.
Ejemplo: Observamos  1, 6, 5, 4, 3, 8, -1, 0. La moda de este conjunto de datos no existe.
modelo: model
Próximo
muestra: sample
Es un subconjunto cualquiera de la población.
muestra aleatoria: random sample
Es una muestra donde todos los elementos de la población tienen una probabilidad conocida de ser seleccionados. Se usa cuando la población es esencialmente homogénea.
  • Ventajas
    • Tiene una alta probabilidad de resultar en una muestra representativa de la población.
    • Puede establecerse su confiabilidad y margen de error.
  • Desventajas
    • El muestreo puede tener un alto costo.
    • Requiere más tiempo para la selección y análisis de la muestra.
muestra aleatoria simple: simple random sample
Es una muestra aleatoria donde todos los elementos de la población tienen la misma probabilidad de ser seleccionados.
muestra con reemplazo: sampling with replacement
Es una muestra donde cada elemento observado de la población se devuelve a la misma y tiene misma la probabilidad de ser observado nuevamente.
muestra estratificada: stratified sample
Primero dividimos la población en subpoblaciones (estratos). Entonces se toma una muestra aleatoria simple de cada uno de estos estratos. La colección de todas las muestras de los estratos nos da como resultado una muestra es traficada. Los estratos se seleccionan de acuerdo con los valores conocidos de alguna variable de manera que hay poca variabilidad entre los miembros de un estrato particular, pero que haya diferencias (grandes) entre los distintos estratos.
muestra por conglomerado: cluster sample
Suponemos que la población se puede dividir en grupos llamados conglomerados. Suponemos que cada conglomerado es representativo de la población. Se toma una muestra aleatoria de conglomerados y luego una muestra aleatoria de los miembros de cada conglomerado seleccionado. Por ejemplo,  si suponemos que cada Facultad en la universidad es representativa de la universidad como un todo, seleccionamos Facultades al azar y luego allí seleccionamos al azar miembros de cada una de las facultades seleccionadas.
muestra por conveniencia: convenience sample
Se seleccionan aquellos miembros de la población que están fácilmente accesibles. Se usa cuando se quieren obtener resultados rápidamente.
  • Ventajas
    • Costo de selección es pequeño
    • Se producen resultados rápidamente
    • Puede usarse para conocer posiciones generales, usualmente extremas de la población
  • Desventajas
    • Es muy poco probable que la muestra así seleccionada sea representativa de la población.
    • No se puede establecer su confiabilidad ni margen de error.
    • No se puede inferir sobre la población a base de los resultados obtenidos.
muestra representativa: representative sample
Es una muestra que refleja las características de la población. Se comporta estadísticamente como la propia población. La forma usual de seleccionarla es a través de una muestra aleatoria.
muestra sistemática: systematic sample
Una población de tamaño N se divide entre el tamaño deseado de la muestra n para obtener k grupos distintos. Seleccionamos al azar un elemento del  primer grupo y comenzando con ése, selccionamos cada k-ésimo elemento. Es útil cuando la población está dispuesta en algún orden o lista, tal como en la guía telefónica.
Back to Top

- N -

nivel de confianza: confidence level
Próximo
nivel de significancia: significance level
Probabilidad de rechazar la hipótesis nula cuando es cierta. Probabilidad de cometer un error tipo I. Este nivel es seleccionado por el investigador antes de realizar el experimento. Los valores mas comúnmente seleccionados son niveles de .01, .05 y .10.
normalización
Back to Top

- O -

observación: observartion
Es el valor observado una variable o característica de un objeto.

           

Back to Top

- P -

página: page
La forma básica de transmitir información a ser desplegada a través de WWW. El Home page es un ejemplo de una página. Puede contener enlaces a recursos de multimedios, sonido, imágenes y vídeo.
parámetro: parameter
Es una característica medible que describe una población. Su valor es usualmente desconocido.
placebo: placebo
Próximo
población: population
Conjunto o colección de todos los objetos o individuos de interés para la investigación.
por ciento: percent
Pronto
precisión: precision
Decimos que una medida (o un instrumento para medir) es precisa cuando tomamos observaciones repetidas y obtenemos valores cercanos entre sí. Es decir, la dispersión (desviación estándar, varianza) entre las observaciones  es pequeña, se acerquen o no al valor "real". El valor real es un parámetro de la población cuyo valor es usualmente desconocido, tal como la media poblacional.
prec no exacto
precision
no precision
Datos con precisión, inexactos. Datos con precisión y exactitud. Datos con menor precisión, pero con exactitud.
NoPrecNoExact    
Datos con poca precisión e inexactos.    
probabilidad: probability
Próximo
probabilidad clásica: classical probability
Próximo
probabilidad condicional: conditional probability
Próximo
probabilidad conjunta: joint probability
Próximo
probabilidad empírica: empirical probability
Próximo
probabilidad subjetiva: subjective probability
Se interpreta como evaluación personal. Refleja la opinión personal acerca de las incertidumbres implícitas y se aplican, en especial, cuando hay poca o ninguna evidencia directa, de modo que en realidad no hay otra alternativa que considerar información colateral (indirecta), suposiciones razonables y tal vez la intuición y otros factores subjetivos. (Lismarie Torres y Lydiaris González)
problema de la estadística

 

protocolo: protocol
Define cómo las computadoras se comunican y como interpretan la información recibida. Es una descripción formal de los formatos para mensajes y de las reglas que las computadoras deben seguir para intercambiar esos mensajes.
prueba de hipótesis: hypothesis test
Es un procedimiento por el cual establecemos hipótesis nula y alterna con el fin de resolver un problema. El procedimiento incluye el diseño y selección de la muestra. Luego de tomados los datos de la muestra, se calcula el valor de una estadística prueba. A un nivel de significancia previamente seleccionado, la estadística prueba se compara con el valor obtenido de la tabla de la distribución estadística apropiada. Esa comparación nos lleva a tomar la decisión de rechazar o no la hipótesis nula.
prueba de hipótesis de dos colas: two tailed hypothesis test
Próximo
prueba de hipótesis de una cola: one tailed hypothesis test
Próximo
prueba ji cuadrado: chi square test
Próximo
prueba t: t test
Próximo
prueba z: z test
Próximo
Back to Top

- Q -

 
Back to Top

- R -

regla de Bayes: Bayes rule
Próximo
regla de decisión: decision rule
Próximo
regla empírica: empirical rule
Cuando tenemos datos que tiene aproximadamente una distribución normal (simétricos, unimodales, en forma de campana), observaremos aproximadamente: el 68% de los datos a una distancia de una desviación estándar o menos de la media, el 95% a una distancia de dos o menos desviaciones estándar de la media y el 99% a una distancia de tres o menos desviaciones estándar de la media.
regla de multiplicación: multiplication rule
Supongamos que tenemos dos actividades que hacer, como por ejemplo ponernos una camisa y luego un pantalón. Cada una de esas actividades se pueden hacer de varias formas distintas. Si la primera actividad se puede hacer de n formas y para cada una de las formas de la primera, la segunda actividad se puede hacer de m formas distintas, entonces las dos actividades se pueden hacer, en conjunto, en n x m formas distintas.
regla de Sturges : Sturges rule
Ver Sturges, H. (1926) The choice of a class-interval. J. Amer. Statist. Assoc., 21, 65–66 y artículo.
Back to Top

- S -

sesgo: bias
Es un efecto que priva a un resultado estadístico de representatividad al distorsionarlo sistemáticamente. Ocurre cuando, por ejemplo, en el caso de medir el valor de una variable, lo hacemos con un instrumento que no ha sido calibrado que por lo tanto introduce un error sistemático en la medida.
serie de tiempo o cronológica: time series
Pronto
significancia: significance
Corresponde a la probabilidad de error tipo I que estamos dispuestos a permitir cuando hacemos una prueba de hipótesis. Usualmente se expresa como un porcentaje. Los valores más comunes son 1%, 5%, 10%. Una significancia del 5% quiere decir que de cada cien pruebas donde rechacemos la hipótesis nula, nos permitimos la posibilidad de haberla rechazado en 5 ocasiones a pesar de ser cierta. El nivel de significancia se selecciona de acuerdo a una amplia gama de criterios que incluyen el costo de cometer error tipo I y la tradición en el área de contenido sobre el cual se está haciendo la prueba.
suma de cuadrados debido al error: error sum of squares
En un modelo de regresión lineal simple, y = mx + b, SSE está dada por la suma de los cuadrados de las diferencias de los valores observados de y al valor correspondiente en la línea recta. Así la suma de cuadrados correspondiente a las diferencias observadas es: Suma de cuandrados debido al error  .
suma de cuadrados debido a la regresión: regression sum of squares
En un modelo de regresión lineal simple, y = mx + b, SSR está dada por la suma de los cuadrados de las diferencias de la media al valor correspondiente en la línea recta. En la gráfica de abajo esa diferencia está representada por yi sombrero - y &barra.

 ssr

suma total de cuadrados: total sum of squares
En un modelo de regresión lineal simple, y = mx + b, la suma total de cuadrados está dada por la suma de los cuadrados de las diferencias de los valores observados de yi a la media:
sst.
El término a la izquierda corresponde a la suma total de cuadrados (corregida) SST. Esta suma puede descomponerse en dos partes: una debido al error (SSE), representada por el primer término a la derecha del signo de igualdad y otra debido a la regresión (SSR). Así SST = SSE + SSR.
Back to Top

- T -

tabla de contingencia: contingency table
Es una tabla que sirve para clasificar a  los miembros de un grupo de acuerdo a algunas características cualitativas o cuantitativas. Por ejemplo:
Desglose preliminar de la composición de los cuerpos legislativos de Puerto Rico luego de las elecciones de 1988. El Nuevo Día, 12 de noviembre de 1988.
  Partido Popular Democrático Partido Nuevo Progresista Partido Independentista Puertorriqueño Total
Senado

18

8

1

27

Cámara de Representantes

36

14

1

51

Total

54

22

2

78

tamaño de la muestra: sample size
Número de elementos en el subconjunto que tomamos de la población con el fin de obtener datos. El tamaño de la muestra está determinado por los siguientes criterios: confiabilidad o significancia deseada, margen de error deseado, variabilidad de la población, tipo de muestreo usado y recursos económicos disponibles. Para poblaciones grandes su tamaño no depende del tamaño de la población.
Para obtener el tamaño de una muestra con el fin de estimar la media poblacional con un margen de error E y confiabilidad 1-alfa, resolvemos en el intervalo de confianza apropiado y obtenemos: n. Finalmente tomamos el entero mayor de esa expresión como el tamaño de muestra requerido.
En el caso en que querramos estimar una proporción poblacional, con una confiabilidad de 1-alfa y margen de error E, obtenemos: n. El tamaño requerido para la muestra es el entero mayor de esa expresión. Este método es uno conservador, adjudicando la máxima variabilidad posible, es decir, suponiendo p=.5. Si tuviéramos más información sobre la variabilidad de los datos, el tamaño de la muestra se reduciría.
tasa: rate
Pronto
TCP/IP (Transmission Control Protocol/Internet Protocol)
Es el conjunto de protocolos que determina cómo los datos son transmitidos en Internet.
teorema del límite central : central limit theorem
Este teorema da a la distribución normal un papel central en la estadística y en la probabilidad. La forma más simple del teorema dice que si tenemos n variables aleatorias independientes (no importa la distribución de la cual provengan), cada una con una varianza finita, entonces la distribución de su media (muestral) se acercará a la distribución normal cuando n tiende a infinito. Es decir: Sea X1, X2, ...Xn una muestra aleatoria de una distribución con media  µ y varianza ð2. Sea xbarra n = Σ( Xi/n ). Entonces la variable aleatoria Yn = [ xbarran - µ ] / [ σ ÷ sqrt(n) ] converge en distribución a una variable aleatoria Z con distribución normal con media cero y varianza 1.
tratamiento: treatment
Se refiere a los estímulos, condiciones o procedimientos experimentales cuyos efectos deseamos comparar y que se le imponen al grupo experimental. Por ejemplo, si deseamos comparar el efecto que producen distintas concentraciones de alcohol en unas moscas, deseamos comparar el una dilución al 1%, otras al 2% y 3% con el placebo (grupo control). Estas cuatro condiciones constituyen los tratamientos.
Back to Top

- U -

Uniform Resource Locator (URL)
Estándar de direcciones para localizar documentos de Internet.
Back to Top

- V -

valor crítico: critical value
Próximo
valor esperado: expected value
Es la media teórica de una variable aleatoria X. Se escribe E(X). Ejemplos: si X es una variable aleatoria con media μ, entonces E(X) = μ; si S² representa la varianza de una muestra, entonces E( S² ) = σ².
valor p: p value
Es la probabilidad de observar un valor tan grande o más que el obtenido de la estadística prueba si la hipótesis nula es cierta. Por ejemplo, si en una prueba z donde la hipótesis alterna es Ha: µ > µ0, se obtiene un valor de la estadística prueba z = 1.83, entonces el valor p es igual a P( Z > 1.83) = .0336. Esto indica que se debe rechazar la hipótesis nula al nivel de significancia del 5% pero no al nivel del 1%. Mientras más pequeño es el valor p, menos probable es observar un valor tan extremo como el que hemos observado si la hipótesis nula es cierta, por lo cual la evidencia en contra de esa hipótesis es más contundente.
variabilidad
Próximo
variable: variable
Es una característica bajo investigación de los elementos de la población o muestra que puede asumir distintos valores para cada elemento. Puede ser cuantitativa o cualitativa, discreta o continua.
variable aleatoria: random variable
Es una función que adquiere un valor numérico como resultado de un experimento. Como no se sabe su valor de antemano y el mismo depende del resultado del experimento, el valor observado de esta variable será aleatorio y debe seguir alguna distribución de probabilidad.
variable continua: continuous variable
Es una variable que puede adquirir valores en un conjunto no contable de objetos, tal como un intervalo, o la recta numérica. Ejemplos: estatura, largo, peso, distancia, tiempo, volumen.
variable dependiente: dependent variable
Es una variable que adquiere un valor en función de una o más variables (independientes).
variable discreta: discrete variable
Es una variable que puede asumir un número contable de distintos valores. La cantidad de valores que puede asumir una variable discreta puede contarse (potencialmente, ya que puede que nunca se llegue al final). Un conjunto contable es aquel en que a cada elemento puede asignarse un número natural. Ejemplos: números que se observan a lanzar un dado, marca de autos que cruzan determinada intersección, sexo, número de hojas en un árbol, el conjunto de números enteros, el conjunto de números naturales.
variable independiente: independent variable
Es una variable que .
variable manipulada:
Es una variable que .
varianza: variance
Es una medida de la variabilidad de un conjunto de datos. Es un promedio de los cuadrados de las diferencias de los puntos o datos a su media. Un estimador (insesgado) de la varianza poblacional es la varianza de la muestra: stat-var-n .
Back to Top

- W -

Web browser
Un programa tal como Netscape o Internet Explorer que interpreta y despliega documentos creados en HTML. Se comunica con un computador servidor de documentos del Web.
Próximo
World Wide Web (WWW, W3 o Web)
Es un sistema de comunicación que enlaza documentos en el Internet en un formato que incluye texto, imágenes, vídeo y sonido. Es, asimismo, un conjunto de estándares y protocolos utilizados para obtener información en Internet. Los estándares que utiliza el Web son: HTML (HyperText Markup Language), HTTP (HyperText Transfer Protocol), y URLs (Uniform Resource Locators).
Back to Top

- X -

Próximo
Back to Top

- Y -

Próximo
Back to Top

- Z -

zona de no rechazo: non rejection region
Próximo
zona de rechazo: rejection region
Próximo
Back to Top

- # -

Próximo
Back to Top