Edustatspr Header Logo Menu
Busca en este espacio:

MATE 3026

Regresión, selección de muestras

ASEGURATE DE LEER LAS INSTRUCCIONES. Muestra todo tu trabajo. Circula la mejor contestación. Puedes usar una calculadora y la tabla de la distribución normal provista. Cada ejercicio tien un valor de 3 puntos, excepto donde se indique.

I. (18) Los siguientes datos reflejan el Largo promedio de peces capturados en un río a lo largo de varios años.  Se observaron además la Densidad Poblacional de los peces (DP),  el Aumento en Temperatura promedio en el río (AT), y la Velocidad promedio de Desplazamiento del Agua en el Río (VD).  Se cree que estas tres variables afectan el Largo de los peces y se construye un modelo de regresión múltiple.


Observación
Largo
DP
AT
VD
1
23.7
1.2
0.308
-3.236
2
18.3
10.0
0.444
-1.341
3
27.8
4.2
0.400
-1.553
4
18.5
1.3
0.182
0.007
5
7.9
32.1
0.211
-0.199
6
15.3
16.7
0.182
-1.118
7
21.2
9.7
0.267
4.343
8
21.8
28.6
0.500
1.850
9
22.1
9.5
0.154
0.899
10
25.2
18.3
0.444
1.098
11
25.1
11.0
0.444
5.156


a. Se usa Data Analysis de Excel para obtener los siguientes resultados:


ANOVA
 
df
SS
MS
F
Significance F
Regression
216.422
72.1406
Ver 5.6385
0.0277
Residual
7
89.560
Ver 12.794

Total

10
Ver 305.982

i. (2) Completa la tabla de arriba.

ii. (2) Encuentra el valor del Coeficiente de Determinación, R²
Ver = SSR / SST = 216.422 / 305.982 = .7073

iii. (3) Indica si el modelo, considerado como un todo, parece ser un buen modelo. EXPLICA. Ver El valor p (Significance F) del modelo es .0277, un valor pequeño, ciertamente menor de .05. El valor del coeficiente de determinación, R² = .7073, por lo que el modelo explica el 70.73% de la variación de la variable dependiente. Sin otra información el modelo como un todo puede considerarse bueno.

b. Se estima el modelo y se obtienen los siguientes resultados:

  Coefficients Standard Error t Stat P-value
Intercept 16.989 3.232 5.256 0.001
DP -0.366 0.114 -3.200 0.015
AT 25.334 9.039 2.803 0.026
VD 0.446 0.466 0.957 0.370

i. (3) Escribe la ecuación del modelo estimado:

Ver LARGO = 16.989 - 0.366DP + 25.344AT + 0.446VD

ii.  (4) Para los siguientes coeficientes , indica si se puede concluir que es distinto de cero. Explica.

  ¿Distinto de cero?
Sí o No.
Razón
DP Ver Ver Su valor p = 0.015, menor de 0.5
VD Ver No Ver Su valor p = 0.370, mayor de 0.5

iii. (1) Si la Densidad Poblacional (DP) aumenta en una unidad, ¿cuánto tiende a aumentar el Largo promedio de los peces?: Ver -.366, el valor del coeficiente de DP en la línea de regresión estimada.

 

c. Se obtienen los residuos, los residuos estandarizados y una gráfica de los residuos estandarizados..


Observation
Predicted Largo Residuals Standard Residuals
1 22.910 0.790 0.264
2 27.980 -7.680 -2.898
3 24.893 2.907 0.971
4 21.127 -2.627 -0.878
5 10.498 -2.598 -0.868
6 14.989 0.311 0.104
7 22.138 -0.938 -0.314
8 20.013 1.787 0.597
9 17.814 4.286 1.432
10 22.029 3.171 1.060
11 26.509 -1.409 -0.471
Grafica de residuos estandarizados
i. (3) Indica si hay algún patrón notable en los residuos o si hay algún valor que se pueda considerar atípico o influyente. Explica.
Ver Esta gráfica no refleja valor influyente alguno, pues para ello sería necesario ver las gráficas de los residuos en función de cada una de las variables independientes. La segunda observación muestra un residuo estandarizado de -2.898, casi tres desviaciones estándar menor que la media de cero, por lo que parece ser un valor atípico. Antes de pensar en removerlo, hay que examinar las razones que dieron pie a que ocurriera tal valor. No parece haber un patrón, aunque es posible argumantar que parece haber uno senosoidal.

II. (42, 3 puntos c/u) Selecciona la mejor contestación o indica cierto o falso en las situaciones 1 a la 7:
1. Para determinar si el fumar produce cáncer, investigadores examinaron los casos de un gran número de personas.  Preguntaron a cada adulto si fuma o ha fumado regularmente en algún momento de su vida y si la persona tiene o no cáncer.  Compararon entonces la proporción de casos de cáncer en ambos grupos.  Encontraron que una proporción mayo de cáncer en personas que fuman o han fumado regularmente que entre aquellos que nunca han fumado regularmente.  Esta investigación corresponde a: Ver a, pues no hay una variable manipulada, en la que la persona que hace la investigación determine su valor.

a. Estudio observacional                                   c. Experimento, pero no “double blind”
b. Experimento “double blind”                            d. Diseño en bloques

2. Para conocer los efectos del ejercicio sobre el colesterol, una investigadora tomó a 50 personas que se ejercitan regularmente y a 50 personas que no se ejercitan regularmente.  Midió el nivel de colesterol de cada uno de los 100 individuos.  Las personas no conocían el propósito de la investigación y el técnico que midió el colesterol no conocía si las personas se ejercitaban regularmente o no. Esta investigación corresponde a: Ver a, pues no hay una variable manipulada, en la que la persona que hace la investigación determine su valor. El hecho de examinar dos grupos no lo convierte en un experimento.

a. Estudio observacional                                   c. Experimento de observaciones pareadas (“matched”)
b. Experimento “double blind”                            d. Diseño en bloques

3. Un fanático del béisbol cree que los lanzadores que ponchan muchos bateadores también otorgan muchas bases por bolas.  Llegó a su conclusión examinando los récords de todos los lanzadores de grandes ligas entre 1980 y 2005.  Esta investigación es un ejemplo de: Ver   c

a. Evidencia anecdótica                                     c. Estudio observacional basado en datos disponibles
b. Experimento                                                 d. Estudio observacional basado en encuesta por muestreo

4. María no usa su cinturón de seguridad al manejar.  Dice que su hermano tiene un amigo que no pudo escaparse del auto luego de un accidente porque no pudo quitarse el cinturón.  La decisión de María se basa en: Ver a

a. Evidencia anecdótica                                     c. Estudio observacional basado en datos disponibles
b. Experimento                                                 d. Estudio observacional basado en encuesta por muestreo

5. Contesta las preguntas 5i. a la 5iii. usando la siguiente situación. Cien voluntarios que sufren de depresión severa están disponibles para una investigación.  Se seleccionan 50 al azar y se les administra un nuevo medicamento.  Los otros 50 reciben el medicamento usual. Al cabo de seis semanas todos son evaluados por un siquiatra para determinar si ha habido una mejoría en la severidad de la depresión.

5i. El factor en este estudio es: Ver a, el factor corresponde a la variable que manipulada: nuevo o viejo medicamento.

  1. El medicamento que recibe cada participante
  2. El uso de la asignación aleatoria y el hecho de que es un estudio comparativo
  3. El nivel de reducción en la severidad de la depresión
  4. El uso de un siquiatra para evaluar la severidad de la depresión.
5ii. La investigación, tal como se condujo, sería “double blind” si Ver c, el que los medicamentos fueran idénticos, o que el siquiatra no lo viera, no garantizan que el siquiatra y los participantes no sepan cual medicamento recibe cada uno.
  1. Si los medicamentos lucieran idénticos
  2. Si la evaluación del siquiatra se hiciera a través de un cristal donde cada participante y el siquiatra no pudieran verse
  3. Si los participantes y el siquiatra desconocieran qué medicamento recibió cada participante.
  4. Todos los anteriores
5iii. En otra investigación similar los participantes se dividieron por sexo.  A la mitad de los hombres se les dio el nuevo medicamento y a la otra mitad el medicamento usual.  Lo mismo ocurrió con las mujeres, a la mitad se les dio el nuevo tratamiento y a la otra mitad el usual.  Esto es un ejemplo de: Ver c
  1. Replicación
  2. Confusión.  No se puede distinguir entre el efecto de los medicamentos y el efecto del sexo.
  3. Diseño experimental en bloques.
  4. Un diseño pareado (“matched pairs”)
6. (i. y ii) El Nuevo Día hizo la siguiente pregunta a través de su página electrónica: ¿Le compra usted armas de juguete a sus hijos?  De las 1,567 personas que contestaron, 217 (13.85%) dijeron que SÍ, 1,240 (79.13%) dijeron que NO y 109 (6.96%) personas dijeron que NO las compraban, pero que otras personas se las regalaban.

6i. Esta investigación es un ejemplo de: Ver c

  1. Una encuesta por muestreo aleatorio
  2. Una encuesta por muestreo de conveniencia
  3. Una encuesta de participantes auto-seleccionados
  4. Una encuesta con una muestra representativa de usuarios de Internet.

6ii. (Cierto o Falso) De esta encuesta se puede concluir que la mayoría de los padres y madres en Puerto Rico NO le compra armas de juguetes a sus hijos.Ver Falso, la muestra no fue seleccionada al azar. El método de selección no permite hacer inferencias válidas sobre la población.

7. La compañía NÚMEROS tomó una muestra aleatoria simple de 1,200 padres y madres y se les hizo la pregunta ¿Le compra usted armas de juguete a sus hijos?  La muestra, por su tamaño y forma de selección, arroja un nivel de significancia del 5% y un margen de error de 3 puntos porcentuales para la población.  La muestra resultó con una participación de 660 mujeres y 540 hombres. Se obtuvieron los siguientes resultados:

    ¿Le compra usted armas de juguete a sus hijos?  
    Si No Total
Sexo Hombre 180 360    540
Mujer 60 600    660
  Total 240 960 1,200

7i. (Cierto o Falso) La forma de seleccionar la muestra permite que la misma tenga una alta probabilidad de ser representativa de todos los padres y madres en la población de Puerto Rico.Ver Cierto, pues fue una aleatoria simple, con confiabilidad del 95%. Estamos 95% seguros de que la muestra representa la población.

7ii. (Cierto o Falso) El tamaño de la muestra es muy pequeño para poder hacer conclusiones sobre todos los padres y madres en la población de Puerto Rico.Ver Falso, el tamaño es uno adecuado, pues provee para un margen de error de 3 puntos y una confiabilidad del 95%.

7iii. (Cierto o Falso) De esta encuesta se puede concluir que la mayoría de los padres y madres en Puerto Rico NO le compra armas de juguetes a sus hijos. Ver Cierto, pues la encuesta cumple con el nivel de significancia y margen de error deseados.

7iv. (Cierto o Falso) La muestra en esta encuesta es un ejemplo de muestreo estratificado por sexo.Ver Falso, pues el sexo fue una variable que se midió y se observó como resultado de la encuesta. No fue una variable que se consideró para diseñar la muestra.

7v. (Cierto o Falso) Los resultados en esta encuesta de NÚMEROS son menos confiables que los obtenidos por El Nuevo Día, ya que la muestra que usó ese periódico es más grande que la usada por NÚMEROS. Ver Falso, el tamaño de una muestra por sí sólo no dice ABSOLUTAMENTE NADA sobre la calidad de los resultados, tan o más importante es el método de selección. Los participantes que se auto-seleccionan generalmente sesgan los resultados, pues usualmente deciden participar porque tienen una opinión fuerte al respecto. Por otro lado, una muestra aleatoria no garantiza que sea representativa de toda la población, pero permite establecer una alta probabilidad de que lo sea. UNa buena encuesta, cuyo resultados pueden extenderse a la población indica SIEMPRE la confiabilidad y el margen de error. Esos dos valores ni tan siquiera pueden calcularse de una encuesta con participantes autoseleccionados, o donde el muestreo no es aleatorio.