Selecciona la primera letra de la palabra en la lista de arriba para saltar a la sección apropiada del glosario. Si el término que buscas comienza con un dígito o símbolo, selecciona el enlace '#' .
Otros glosarios (haz una búsqueda en la web: glosario estadístico, statistical glossary):
Es una colección de subconjuntos del espacio muestral que contiene el conjunto vacío ø y es cerrada bajo uniones contables y complementación de esos subconjuntos. Un espacio muestral puede tener más de un álgebra sigma.
Ejemplo: Lanzamos un dado al aire, observamos el número de puntos en la cara superior. El espacio muestral del experimento es S = {1, 2, 3, 4, 5, 6}. Uno de los álgebra sigma que podemos asociar a S es la colección { ø, {1,2}, {3, 4, 5, 6}, S}.
Es la distancia entre el valor máximo observado y el valor mínimo observado en un conjunto o distribución de datos. Su valor se obtiene restando el valor mínimo observado del valor máximo observado: max(x1, x2, ..., xn) - min(x1, x2, ..., xn)
Al azar, estocástico. Este término representa una idea que debe ser expresada en términos del concepto de probabilidad. Tenemos la noción de que un fenómeno ocurre en forma aleatoria cuando no sigue un patrón particular que se pueda predecir o explicar con absoluta precisión o certeza. El patrón general de comportamiento o tendencia de un fenómeno aleatorio usualmente se puede modelar por alguna distribución de probabilidad.
Es una medida de dependencia estadística lineal entre dos
características o variables. Es un número r que se encuentra
en el intervalo [-1, 1] . Un valor cerca de uno indica que a medida que el
valor de una variable aumenta, el valor de la otra también tiende
a aumentar. Si el valor está cerca de -1 a medida que el valor de
una variable aumenta, el valor de la otra variable tiende a disminuir.
Una correlación de cero indica que no hay dependencia lineal estadística
entre las dos variables, aunque no indica que las variables sean independientes
(excepto en el caso en que las variables tengan distribución normal).
Una correlación distinta de cero no es evidencia suficiente para concluir
que hay una relación
de causa y efecto entre las variables. Mientras más cercano del número
1 esté el valor absoluto
del coeficiente de correlación, más cerca de una línea
recta estarán los valores observados.
Se puede entender o computar, como la covarianza entre dos variales aleatorias
estandarizadas y se calcula de la siguiente manera: .
EJEMPLOS:
Computacionalmente es el cuadrado del coeficiente de correlación
y se denota por R cuadrado (R²). Expresa la proporción de la
varianza de la variable dependiente que es explicada por la variable independiente.
Cuando se expresa en por ciento, representa el porcentaje de la variación
de la variable dependiente que es explicada por la variable independiente.
Su valor se obtiene de la partición de la suma total de cuadrados
en el modelo de regresión: .
En esta ecuación, SSR representa la suma de cuadrados debido a la regresión,
SST es la suma total de cuadrados (corregida) y SSE es la suma de
cuadrados debido al error.
R cuadrado siempre tiene un valor entre cero y uno 0 ≤ R² ≤ 1.
Un valor cerca de cero significa que los puntos o valores observados
se encuentran cerca de la línea recta (en el caso de regresión
lineal simple) y por lo tanto el modelo de línea recta explica
una buena parte del comportamiento de la variable dependiente. Por el
otro lado un valor cerca de cero significa que eso valores se encuentran
alejados de la línea recta y el modelo no explica mucho de la
variación observada en
la variable dependiente.
Un valor de R cuadrado cercano a 1 no indica
automáticamente que el modelo es bueno ya que esa conclusión
tiene que depender directamente del problema particular. De la misma
manera, un valor pequeño de R cuadrado no indica directamente
que el modelo es malo. Por ejemplo, suponga que la variable Y es explicada
por un número
relativamente grande de variables, X1, X2, ...,
Xn. Un caso concreto
podría ser Y = peso de individuos y las X1, X2,
..., Xn podrían ser estatura, edad, sexo, número
de calorías
ingeridas, tiempo que invierte en actividades sedentarias, tiempo que
dedica a ejercitarse, intensidad de los ejercicios y muchas otras. Si
en esta situación, encontramos una sola variable, X* que explica
el 30% de la variación de Y (peso), el valor de R² puede
considerarse como bueno.
Variabilidad relativa a la media. Expresa la proporción de variabilidad
de una característica por cada unidad de la media. Computacionalmente
se obtiene dividiendo la desviación estándar por la media.
Indica cuán seguros podemos estar de que el proceso seguido resulte
en valores que representen verdaderamente la población. Se usa más
comúnmente con intervalos de confianza. En sentido probabilístico,
si tuviéramos una confiabilidad del 95%, decimos que si repitiéramos
el proceso muchas veces, en cerca del 95% de las veces obtendríamos
resultados que reflejan verdaderamente la realidad. Cerca del 95% de los
intervalos así construidos contendrían el valor desconocido
del parámetro.
Es una propiedad de un conjunto de objetos o números. Si el conjunto
tiene un número finito de objetos decimos que es contable. También
es contable un conjunto que contiene un número infinito de objetos
si cada objeto puede ser potencialmente contado. Es decir, a cada objeto
contenido en el conjunto puede asignársele un número natural
1, 2, 3, ... Ejemplos de conjuntos contables son {1, 2, 3, 4, ....}, el número
de hojas de un árbol, el número de estrellas en el universo,
los números racionales....
Sea Yn una variable aleatoria cuya función de distribución
acumulativa (cdf) Fn(y) depende de un entero positivo n. Si Y
es otra variable aleatoria con cdf F(y) tal que lim Fn(y)
= F(y) cuando n tiende a infinito para todos los puntos y en los cuales F(y)
es continua, entonces decimos que la variable aleatoria Yn converge
en distribución a la variable aleatoria Y.
Sea Yn una variable aleatoria. Si existe una constante real
c tal que para cada € > 0, el límite de P(|Yn -
c| > ε) es cero cuando n tiende a infinito, decimos que Yn converge
en probabilidad a la constante c. Véase ley
débil de números grandes.
Es un método matemático que sirve para ajustar líneas
o funciones a datos. En este método se reduce al mínimo
la suma del cuadrado de las distancias (verticales) de los puntos observados
a la función que se quiere ajustar. Se usa el cálculo y el álgebra
lineal para obtener estimados de los parámetros que definen la función.
Son tres valores que dividen los datos observados en cuatro partes con
esencialmente la misma cantidad de datos cada una. El valor central es llamado
mediana, y los otros dos cuartilas superior (Q3) y inferior (Q1),
respectivamente. Pueden representarse gráficamente mediante un diagrama
de caja y bigotes: Q1 (aproximadamente
igual a 45) representa la primera cuartila y es un número tal que alrededor
del 25% de los datos es menor o igual que Q1. La tercera cuartila es Q3 (aproximadamente
igual a 60), un número
tal que alrededor del 75% de los datos es menor o igual que Q3. La segunda
cuartila corresponde a la mediana.
Para encontrar la primera cuartila Q1 se encuentra primero la mediana de los
datos. Sin incluir la mediana misma, se toman todos los datos que son menores
o iguales a la mediana, y se encuentra la mediana de este nuevo y más
pequeño
conjunto de datos. Para encontrar la tercera cuartila se hace exactamente
lo mismo con el conjunto de datos que son mayores o iguales a la mediana.
Ejemplo:
Se observan los valores 1, 6, 5, 4, 3, 4, 5, 4, 5. El primer paso
es ordenarlos: 1, 3, 4, 4, 4, 5, 5, 5, 6. Como hay un total de 9 datos el
valor que se encuentra en la quinta posición dividirá el conjunto
de datos en dos subconjuntos de 4 datos cada uno: 1, 3, 4,
4, 4, 5, 5, 5, 6. Así la mediana es 4. La primera cuartila
es la mediana de los cuatro datos menores o iguales a 4, 1, 3, 4, 4 ,
es decir, Q1 = 3.5. La
tercera cuartila corresponde a la mediana de 5, 5, 5, 6, Q3 = 5.
Es una medida de distancia promedio de los valores observados a su media.
La distancia de cada valor a la media se mide tomando el valor absoluto de
la diferencia entre ese valor y la media. Se obtiene de la siguiente manera: .
Es una medida de distancia promedio de los valores observados a su media.
La distancia de cada valor a la media se mide tomando el cuadrado de la diferencia
entre ese valor y la media. Luego de obtener el promedio de esos cuadrados,
tomamos la raíz cuadrada. La desviación estándar es
la raíz cuadrada de la varianza. En el caso de una muestra se calcula
de la siguiente manera: .
Es una gráfica que presenta un solo eje. En este se representan cinco valores: los valores mínimo y máximo, la primera y tercera cuartila y la mediana. Del valor mínimo a la primera cuartila, Q1, se observa aproximadamente el 25% de los datos. De Q1 a la mediana se observa la misma cantidad y así sucesivamente.
Este diagrama permite ver la algunas características generales de la distribución, tal como simetría y dispersión.
Es una gráfica que presenta un solo eje. En este se representa cada
valor observado en la muestra con un punto sobre el lugar geométrico correspondiente al valor. Si se repitiera algún valor se dibuja un punto sobre el anterior. Es útil para visualizar la distribución de los datos, si éstos se agrupan alrededor de uno o más puntos, la dispersión, valor máximo, mínimo, moda. En este diagrama se facilita además la localización de la mediana y cuartilas. Sin embargo, no es muy práctico si se tiene un número grande de datos.
Plan definitivo, determinado por completo antes de recopilar cualquier dato, para tomar una muestra de una población particular. (Lismarie Torres y Lydiaris González)
Puede ser experimento controlado o diseño completamente aleatorio. En el experimento controlado todas las variables, excepto la que se considera, se maneja como fijas. En el diseño completamente aleatorio todas las variaciones debidas a factores extraños no controlados pueden, por tanto, incluirse en el término de variación debida al azar. (Lismarie Torres y Lydiaris González)
Es una especificación de cómo las frecuencias de los elementos de una población o muestra están distribuidos de acuerdo con los valores observados. Se puede representar en forma de tabla, gráfica de barras o histograma.Nos dice cuantos elementos tienen el mismo valor o caen en el mismo intervalo.
En el caso de una variable aleatoria discreta, da la probabilidad de observar que la variable X asume un valor x, es decir, P( X = x). Se expresa como función de x: f (x) = P( X = x). La función f (x) se llama función de probabilidad. En el caso de una variable aleatoria continua, la distribución de probabilidad se representa por una función g(x) llamada función de densidad. En este caso, si tenemos un intervalo pequeño, [x, x + a], entonces, P( x < X <= x + a) es aproximadamente igual a: a g(x). En todo caso, la función de probabilidad siempre en un valor no negativo y su suma o integral sobre todos los valores de x siempre es igual a 1.
Es una función de un número real x que indica cual es la probabilidad de observar un valor de la variable aleatoria X que sea menor o igual al número x. Es decir. F(x) = P( X ≤ x). Es una función no decreciente con F( -∞ ) = 0 y F( ∞ ) = 1.
Método de obtener datos de una población o muestra, sin ejercer control alguno sobre los factores que pueden afectar las características de interés o resultados de la encuesta.
se introduce este error cuando los miembros de la población no responden a una encuesta. Por ejemplo, encuestas por correo, la persona no está en casa cuando llega el encuestador, no contestan el teléfono ...
ocurre cuando las personas encuestadas no proveen una contestación correcta a la pregunta. Ocurre con frecuencia cuando se quiere medir alguna variable cuya contestación puede ser íntima o "problemática". Por ejemplo, si la persona no confía en el uso en que se le dará a los resultados de sus preguntas.
ocurre cuando una encuesta no se conduce en una muestra seleccionada al azar, pero se invita a las personas a llenar un cuestionario publicado en una revista, periódico, estación de radio o televisión.
la lista de miembros de la población, el marco, que se usa para seleccionar la muestra no incluye o enumera a toda la población. Esto introduce un sesgo. Elementos de la población con determinadas características no son incluidos en la muestra o tienen una probabilidad distinta a la deseada de ser seleccionados.
Es la diferencia entre un estadístico y su parámetro correspondiente. Es una medida de la variabilidad de las estimaciones del parámetro usando muestras repetidas en torno al valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad una estimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Un estadístico será más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es la desviación de la distribución muestral de un estadístico y su fiabilidad. (Johanna Alicea, Sec 2. II 98-99)
Es una función real de los datos, concretamente, es un valor que se calcula a partir de los datos. Ejemplos: suma, producto, mediana, máximo, desviación absoluta media de los datos.
Métodos que usamos para describir los datos que se han obtenido de la muestra o población. Nos sirve para presentar una idea de la realidad y para hacer inferencia informal.
Cantidad calculada de los datos muestrales que se usa para decidir si se rechaza o no la hipótesis nula. Generalmente, un valor grande de esta estadística es un indicador que nos apunta hacia el rechazo de la hipótesis nula.
Proceso por el cual obtenemos valores estándar, es decir, con media
cero y varianza o desviación estándar de uno. Sirve para comparar
valores obtenidos de distintas distribuciones. Es un método fundamental
usado para obtener estadísticas pruebas e intervalos de confianza.
Para estandarizar una variable X, se le resta su media poblacional μ y se divide
el resultado por la desviación estándar σ de la variable X. Obtenemos
una variable estándar Z de la siguiente manera: Z = [ X - μ]/σ.
Z tendrá distribución normal si y solo
si X tiene distribución normal.
El estimador de un parámetro poblacional es una función de las observaciones que de alguna manera resulta en un valor cercano al parámetro poblacional. Por ejemplo, la media de la muestra es un estimador de la media poblacional.
Es un estimador cuyo promedio es el valor del parámetro desconocido. Su valor esperado es el valor del parámetro poblacional. Un estimador insesgado es uno que tiene la propiedad de exactitud.
Los investigadores meramente observan los valores de algunas características de la muestra.No manipulan ni establecen condiciones. Estos estudios sólo pueden describir o revelar asociación entre dos o más variables. No pueden determinar causa y efecto. Para esto último es necesario un experimento debidamente diseñado.
Es un subconjunto del espacio muestral y como tal contiene cero, uno o más de los posibles resultados de un experimento. Un evento ocurre cuando cualquier resultado contenido en el evento es observado. Es un conjunto que es miembro del álgebra sigma generado por el experimento.
Dos eventos son independientes si el que uno ocurra no afecta la probabilidad del que el otro ocurra. Matemáticamente hablando, dos eventos A, B son independientes si y sólo si P( A y B) = P(A) P(B), o casi equivalentemente, P(A |B) = P(A).
Son dos o más eventos que no pueden ocurrir simultáneamente. Si A, B son eventos mutuamente excluyentes,
P(A y B) = 0 siempre. Por ejemplo, al lanzar un dado no es posible observar el evento {1, 2} y el evento {3} a la vez.
Una medida (o un instrumento para medir) tiene la propiedad de exactitud cuando las observaciones que se toman se distribuyen alrededor del valor "real". El valor "real" es un parámetro de la población cuyo valor es usualmente desconocido, tal como la media poblacional. Un estimador de un parámetro es exacto cuando es insesgado, es decir, cuando su valor esperado o promedio es igual al parámetro que se estima. Por ejemplo, la media muestral es un estimador exacto (insesgado) para la media poblacional.
Es un proceso que cuando lo llevamos a cabo resulta en uno y sólo uno de los posibles resultados que podríamos obtener (probabilidad). Generalmente, datos son observados de los miembros de la población o muestra ejerciendo control sobre uno o más de los factores que podrían alterar la característica de interés o los resultados del experimento (ciencia).
Es un experimento donde controlamos la asignación de los elementos a los distintos grupos de tratamiento. El valor del tratamiento que recibe cada individuo de la muestra es seleccionado (variable manipulada) por la persona que efectúa el experimento.
Se asocia a una variable aleatoria continua X. Es una función, f(x), no negativa y su integral sobre todos los números reales resulta en 1. El área bajo f(x) y sobre el intervalo [a, b] (el integral de f(x) desde a hasta b) nos da la probabilidad de que X adquiera algún valor en ese intervalo: P( a <= X <= b).
Se asocia a cualquier variable aleatoria X. F(x) indica la probabilidad de que la variable X obtenga un valor menor o igual al número x:
F(x) = P( X ≤ x).
Se asocia a una variable aleatoria discreta X. Es una función, f(x), no negativa, tal que la suma sobre todos los posibles valores que puede asumir X resulta en 1. La función de probabilidad de X evaluada en un número a es igual a la probabilidad de que X sea igual al número a: f( a ) = P( X = a).
Un documento que contiene enlaces (links) a otros documentos o a otras secciones en el documento mismo. El documento enlazado se despliega seleccionando una palabra o un ícono destacado en el hipertexto.
Es una aseveración sobre el valor de un parámetro desconocido de una población. Se presume cierta hasta tanto se demuestre lo contrario. Usualmente indica que no hay cambio, que no hay diferencia (por eso se llama nula). Esta hipótesis se rechaza o no (no decimos se acepta) dependiendo del valor de la estadística prueba o del valor p al nivel de significancia deseado.
Es una aseveración sobre el valor de un parámetro desconocido de una población. Es la hipótesis de investigación, es lo que deseamos demostrar con el experimento o estudio. Cuando rechazamos la hipótesis nula lo hacemos a favor de ésta.
Conjunto de aseveraciones, hipótesis o conclusiones razonables que se pueden hacer sobre una población basándonos en una muestra. Se distingue de la estadística inferencial porque aquí no usamos elementos de probabilidad.
Es un conglomerado de redes de computadoras interconectas a través de todo el mundo para transportar información. Se considera, en esencia, una red de redes. Algunos de los servicios de Internet son: WWW, E-mail, FTP, Gopher, Archie, Talk.
Sea X1, X2, ..., Xn una sucesión de variables aleatorias, cada una con media poblacional μ y varianza σ² < ∞. Sea la media muestral de X1, X2, ..., Xn, y sea ε (epsilon) un número mayor de cero (ε > 0), entonces
lim P( | - μ | < ε ) = 1 cuando n tiende a infinito.
Esto quiere decir que la media muestral converge
en probabilidad a la media poblacional μ. La convergencia aquí no
es de variables aleatorias, sino de números correspondientes a
probabilidades, pues arriba se toma el límite luego de calcular
la probabilidad. El límite se toma sobre la sucesión
de probabilidades, calculada cada una de las probabilidades para cada
valor de n. La ley débil de números grandes se demuestra
usando la desigualdad de Chebyshev.
La Ley de números grandes indica que la probabilidad de encontrar a la media de la muestra , cerca de la media poblacional μ se acerca a 1 (uno) a medida que el tamaño de la muestra aumenta. Por lo tanto, para un valor grande de n, es muy probable encontrar a cerca de μ y entonces es muy poco probable encontrar a lejos de μ.
La gráfica arriba muestra que los valores observados de la proporción de caras en cada uno de tres experimentos de 1,000 tiradas de una moneda, se acercan a .5 a medida que el número de observaciones aumenta (las tres gráficas se acercan a la línea roja), haciendo que la probabilidad de que esa porporción esté cerca de μ, se acerque a 1. Nota: si X = 1 cuando se observa una cara y X = 0 cuando se observa cruz, entonces la proporción de caras es ΣX/n. La suma de las X es sobre todos los valores observados de X en n tiradas. Ejemplo simulado
En la situación más sencilla, es una línea recta que puede explicar la variabilidad de una variable (dependiente) como una función lineal de otra variable (independiente). Por el método que se usa para estimar sus coeficientes, el de cuadrados mínimos, se le conoce también como la línea de mejor ajuste. En el caso de la imagen abajo, la variación de la variable y alrededor de su media es explicada totalmente por la existencia de una variable x, que cuando se toma en consideración, forma junto a y, una línea recta.
En la gráfica de abajo, vemos que la variación de la variable y es explicada, aunque no totalmente, por la línea recta.
Programa diseñado a la manera de un índice o catálogo de una biblioteca, para buscar información en Internet. Ejemplo de éstos son Google, Yahoo, Ask y Webcrawler.
Cuando deseamos estimar el valor de un parámetro, usamos una estadística para ello y construimos un intervalo alrededor de esa estadística. Decimos entonces que con una confiabilidad establecida, el intervalo incluye el valor desconocido del parámetro. El margen de error es la mitad del ancho de ese intervalo.
Computacionalmente es la suma de todos los valores observados dividida por el número de observaciones. Representa el centro de masa de los datos, un punto de equilibrio.
Ejemplo: Observamos los valores 1, 6, 5, 4, 3, 4, 5, 4, 5. Su media aritmética es (1 + 6 + 5 + 4 + 3 + 4 + 5 +4 + 5) / 9.
Es una medida de localización o tendencia central de los datos. Es un número que divide al conjunto de datos en dos conjuntos de igual tamaño. Unos que son menores o iguales que la mediana y otros que son mayores o iguales que la mediana. Una vez ordenados los datos su valor sólo depende de la posición que ocupa, no del valor particular observado.
Ejemplo: Se observan los valores 1, 6, 5, 4, 3, 4, 5, 4, 5.
El primer paso es ordenarlos: 1, 3, 4, 4, 4, 5, 5, 5, 6. Como hay un total
de 9 datos el valor que se encuentra en la quinta posición dividirá el
conjunto de datos en dos subconjuntos de 4 datos cada uno: 1,
3, 4, 4, 4, 5, 5, 5, 6. Así la mediana es 4.
Ejemplo: Se observa un número par de datos. Los valores 1, 6, 5,
4, 3, 4, 5, 5 son observados. El primer paso es ordenarlos: 1, 3, 4, 4, 5,
5, 5, 6. Como hay un total de 8 datos, un valor que se encuentre entre la
cuarta y la quinta posición dividirá el conjunto de datos
en dos subconjuntos de 4 datos cada uno: 1, 3, 4, 4, x, 5,
5, 5, 6. Así la mediana de este conjunto es (4 + 5)/2 = 4.5.
Es el proceso de descubrir nuevas correlaciones, patrones y tendencias buscando en grandes cantidades de datos usando tecnologías de reconocimiento de patrones así como metodología estadística y matemática. Ver Evolution of Data Mining. (Web site de www.spss.com)
Valor o valores más comunes en la población o en la muestra. En el caso de una distribución continua es el punto o puntos donde la función de densidad alcanza el máximo.
Ejemplo: Observamos 1, 6, 5, 4, 3, 4, 5, 5. La moda de éstos es el 5, el valor más frecuente.
Ejemplo: Observamos 1, 6, 5, 4, 3, 4, 5, 5, 4. Este conjunto de datos tiene dos modas, el 4 y el 5.
Ejemplo: Observamos 1, 6, 5, 4, 3, 8, -1, 0. La moda de este conjunto de datos no existe.
Es una muestra donde todos los elementos de la población tienen una probabilidad conocida de ser seleccionados. Se usa cuando la población es esencialmente homogénea.
Ventajas
Tiene una alta probabilidad de resultar en una muestra representativa de la población.
Puede establecerse su confiabilidad y margen de error.
Desventajas
El muestreo puede tener un alto costo.
Requiere más tiempo para la selección y análisis de la muestra.
Primero dividimos la población en subpoblaciones (estratos). Entonces se toma una muestra aleatoria simple de cada uno de estos estratos. La colección de todas las muestras de los estratos nos da como resultado una muestra es traficada. Los estratos se seleccionan de acuerdo con los valores conocidos de alguna variable de manera que hay poca variabilidad entre los miembros de un estrato particular, pero que haya diferencias (grandes) entre los distintos estratos.
Suponemos que la población se puede dividir en grupos llamados conglomerados. Suponemos que cada conglomerado es representativo de la población. Se toma una muestra aleatoria de conglomerados y luego una muestra aleatoria de los miembros de cada conglomerado seleccionado. Por ejemplo, si suponemos que cada Facultad en la universidad es representativa de la universidad como un todo, seleccionamos Facultades al azar y luego allí seleccionamos al azar miembros de cada una de las facultades seleccionadas.
Es una muestra que refleja las características de la población. Se comporta estadísticamente como la propia población. La forma usual de seleccionarla es a través de una muestra aleatoria.
Una población de tamaño N se divide entre el tamaño deseado de la muestra n para obtener k grupos distintos. Seleccionamos al azar un elemento del primer grupo y comenzando con ése, selccionamos cada k-ésimo elemento. Es útil cuando la población está dispuesta en algún orden o lista, tal como en la guía telefónica.
Probabilidad de rechazar la hipótesis nula cuando es cierta. Probabilidad de cometer un error tipo I. Este nivel es seleccionado por el investigador antes de realizar el experimento. Los valores mas comúnmente seleccionados son niveles de .01, .05 y .10.
La forma básica de transmitir información a ser desplegada
a través de WWW. El Home page es un ejemplo de una página.
Puede contener enlaces a recursos de multimedios, sonido, imágenes
y vídeo.
Decimos que una medida (o un instrumento para medir) es precisa cuando
tomamos observaciones repetidas y obtenemos valores cercanos entre sí.
Es decir, la dispersión (desviación estándar, varianza)
entre las observaciones es pequeña, se acerquen o no al valor "real".
El valor real es un parámetro de la población cuyo valor es
usualmente desconocido, tal como la media poblacional.
Se interpreta como evaluación personal. Refleja la opinión
personal acerca de las incertidumbres implícitas y se aplican, en
especial, cuando hay poca o ninguna evidencia directa, de modo que en realidad
no hay otra alternativa que considerar información colateral (indirecta),
suposiciones razonables y tal vez la intuición y otros factores subjetivos.
(Lismarie Torres y Lydiaris González)
Define cómo las computadoras se comunican y como interpretan la
información recibida. Es una descripción formal de los formatos
para mensajes y de las reglas que las computadoras deben seguir para intercambiar
esos mensajes.
Es un procedimiento por el cual establecemos hipótesis nula y alterna
con el fin de resolver un problema. El procedimiento incluye el diseño
y selección de la muestra. Luego de tomados los datos de la muestra,
se calcula el valor de una estadística prueba. A un nivel de significancia
previamente seleccionado, la estadística prueba se compara con el
valor obtenido de la tabla de la distribución estadística apropiada.
Esa comparación nos lleva a tomar la decisión de rechazar o
no la hipótesis nula.
Cuando tenemos datos que tiene aproximadamente una distribución
normal (simétricos, unimodales, en forma de campana), observaremos
aproximadamente: el 68% de los datos a una distancia de una desviación
estándar
o menos de la media, el 95% a una distancia de dos o menos desviaciones estándar
de la media y el 99% a una distancia de tres o menos desviaciones estándar
de la media.
Supongamos que tenemos dos actividades que hacer, como por ejemplo ponernos una camisa y luego un pantalón. Cada una de esas actividades se pueden hacer de varias formas distintas. Si la primera actividad se puede hacer de n formas y para cada una de las formas de la primera, la segunda actividad se puede hacer de m formas distintas, entonces las dos actividades se pueden hacer, en conjunto, en n x m formas distintas.
regla de Sturges : Sturges rule
Ver Sturges, H. (1926) The choice of a class-interval. J. Amer. Statist. Assoc., 21, 65–66 y artículo.
Es un efecto que priva a un resultado estadístico de representatividad al distorsionarlo sistemáticamente. Ocurre cuando, por ejemplo, en el caso de medir el valor de una variable, lo hacemos con un instrumento que no ha sido calibrado que por lo tanto introduce un error sistemático en la medida.
Corresponde a la probabilidad de error tipo I que estamos dispuestos a permitir cuando hacemos una prueba de hipótesis. Usualmente se expresa como un porcentaje. Los valores más comunes son 1%, 5%, 10%. Una significancia del 5% quiere decir que de cada cien pruebas donde rechacemos la hipótesis nula, nos permitimos la posibilidad de haberla rechazado en 5 ocasiones a pesar de ser cierta. El nivel de significancia se selecciona de acuerdo a una amplia gama de criterios que incluyen el costo de cometer error tipo I y la tradición en el área de contenido sobre el cual se está haciendo la prueba.
En un modelo de regresión lineal simple, y = mx + b, SSE está dada por la suma de los cuadrados de las diferencias de los valores observados de y al valor correspondiente en la línea recta. Así la suma de cuadrados correspondiente a las diferencias observadas es: .
En un modelo de regresión lineal simple, y = mx + b, SSR está dada por la suma de los cuadrados de las diferencias de la media al valor correspondiente en la línea recta. En la gráfica de abajo esa diferencia está representada por yi sombrero - y &barra.
En un modelo de regresión lineal simple, y = mx + b, la suma total de cuadrados está dada por la suma de los cuadrados de las diferencias de los valores observados de yi a la media:
.
El término a la izquierda corresponde a la suma total de cuadrados (corregida) SST. Esta suma puede descomponerse en dos partes: una debido al error (SSE), representada por el primer término a la derecha del signo de igualdad y otra debido a la regresión (SSR). Así SST = SSE + SSR.
Es una tabla que sirve para clasificar a los miembros de un grupo de acuerdo a algunas características cualitativas o cuantitativas. Por ejemplo:
Desglose preliminar de la composición de los cuerpos legislativos de Puerto Rico luego de las elecciones de 1988. El Nuevo Día, 12 de noviembre de 1988.
Número de elementos en el subconjunto que tomamos de la población con el fin de obtener datos. El tamaño de la muestra está determinado por los siguientes criterios: confiabilidad o significancia deseada, margen de error deseado, variabilidad de la población, tipo de muestreo usado y recursos económicos disponibles. Para poblaciones grandes su tamaño no depende del tamaño de la población.
Para obtener el tamaño de una muestra con el fin de estimar la media poblacional con un margen de error E y confiabilidad 1-alfa, resolvemos en el intervalo de confianza apropiado y obtenemos: . Finalmente tomamos el entero mayor de esa expresión como el tamaño de muestra requerido.
En el caso en que querramos estimar una proporción poblacional, con una confiabilidad de 1-alfa y margen de error E, obtenemos: . El tamaño requerido para la muestra es el entero mayor de esa expresión. Este método es uno conservador, adjudicando la máxima variabilidad posible, es decir, suponiendo p=.5. Si tuviéramos más información sobre la variabilidad de los datos, el tamaño de la muestra se reduciría.
Este teorema da a la distribución normal un papel central en la estadística y en la probabilidad. La forma más simple del teorema dice que si tenemos n variables aleatorias independientes (no importa la distribución de la cual provengan), cada una con una varianza finita, entonces la distribución de su media (muestral) se acercará a la distribución normal cuando n tiende a infinito. Es decir: Sea X1, X2, ...Xn una muestra aleatoria de una distribución con media µ y varianza ð2. Sea xbarra n = Σ( Xi/n ). Entonces la variable aleatoria Yn = [ xbarran - µ ] / [ σ ÷ sqrt(n) ] converge en distribución a una variable aleatoria Z con distribución normal con media cero y varianza 1.
Se refiere a los estímulos, condiciones o procedimientos experimentales cuyos efectos deseamos comparar y que se le imponen al grupo experimental. Por ejemplo, si deseamos comparar el efecto que producen distintas concentraciones de alcohol en unas moscas, deseamos comparar el una dilución al 1%, otras al 2% y 3% con el placebo (grupo control). Estas cuatro condiciones constituyen los tratamientos.
Es la media teórica de una variable aleatoria X. Se escribe E(X). Ejemplos: si X es una variable aleatoria con media μ, entonces E(X) = μ; si S² representa la varianza de una muestra, entonces E( S² ) = σ².
Es la probabilidad de observar un valor tan grande o más que el obtenido de la estadística prueba si la hipótesis nula es cierta. Por ejemplo, si en una prueba z donde la hipótesis alterna es Ha: µ > µ0, se obtiene un valor de la estadística prueba z = 1.83, entonces el valor p es igual a P( Z > 1.83) = .0336. Esto indica que se debe rechazar la hipótesis nula al nivel de significancia del 5% pero no al nivel del 1%. Mientras más pequeño es el valor p, menos probable es observar un valor tan extremo como el que hemos observado si la hipótesis nula es cierta, por lo cual la evidencia en contra de esa hipótesis es más contundente.
Es una característica bajo investigación de los elementos de la población o muestra que puede asumir distintos valores para cada elemento. Puede ser cuantitativa o cualitativa, discreta o continua.
Es una función que adquiere un valor numérico como resultado de un experimento. Como no se sabe su valor de antemano y el mismo depende del resultado del experimento, el valor observado de esta variable será aleatorio y debe seguir alguna distribución de probabilidad.
Es una variable que puede adquirir valores en un conjunto no contable de objetos, tal como un intervalo, o la recta numérica.
Ejemplos: estatura, largo, peso, distancia, tiempo, volumen.
Es una variable que puede asumir un número contable de distintos valores. La cantidad de valores que puede asumir una variable discreta puede contarse (potencialmente, ya que puede que nunca se llegue al final). Un conjunto contable es aquel en que a cada elemento puede asignarse un número natural. Ejemplos: números que se observan a lanzar un dado, marca de autos que cruzan determinada intersección, sexo, número de hojas en un árbol, el conjunto de números enteros, el conjunto de números naturales.
Es una medida de la variabilidad de un conjunto de datos. Es un promedio
de los cuadrados de las diferencias de los puntos o datos a su media. Un
estimador (insesgado) de la varianza poblacional es la varianza de la muestra: .
Un programa tal como Netscape o Internet Explorer que interpreta y despliega documentos creados en HTML. Se comunica con un computador servidor de documentos del Web.
Es un sistema de comunicación que enlaza documentos en el Internet en un formato que incluye texto, imágenes, vídeo y sonido. Es, asimismo, un conjunto de estándares y protocolos utilizados para obtener información en Internet. Los estándares que utiliza el Web son: HTML (HyperText Markup Language), HTTP (HyperText Transfer Protocol), y URLs (Uniform Resource Locators).