Dentro del análisis de datos llamamos estadística al conjunto de métodos usado para analizar, peresentar e interpretar datos. Nunca se debe perder el objetivo de todo analisis de datos, que es la toma de decisiones fundamentadas en los resultados del análisis.
Existen dos tipo de estadísticas:
- La estadística descriptiva es el conjunto de metodos para organizar, mostrar y describir el dato. Para ello se usan tablas, gráficos y medidas que nos ayudan a describir las cualidades y características del dato.
Normalmente el dato original es muy grande en terminos de volumen. Esto hace que que no podamos manejarlo mentalmente, y por lo tanto, no podamos extraer ningún valor de él. Para que este dato pueda aportarnos información manejable es útil desarrollar resumenes con valores significativos y diferentes medidas tomadas del dato inicial.
- La estadísica inferencial nos ayuda a predecir propiedades de una población basándonos en los resultados obtenidos de una muestra de la misma.
Normalmente las poblaciones objetivo del análisis son demasiado grandes. Esto hace difícil o incluso imposible obtener dato del total de la población. Utilizando el dato de una muestra de la población es posible extraer información que nos ayude a describir e intuir el comportamiento de esta.
Conceptos básicos:
- Población (population)
Todos los elementos cuyas características están siendo estudiadas.
- Muestra (sample)
Parte de la población seleccionada para el estúdio.
- Encuesta (survey)
Colección de información de los elementos de una población o muestra.
- Censo (census)Una encuentra que cubre a todos los elementos de una población.
- Elemento (element or member of a sample)
El sujeto especifico objetivo del estúdio sobre el que se recoge datos.
- Variable (variable)
Característica bajo estudio que irá tomando diferentes valores para cada elemento estudiado.
- Observación (observation or measurement)
El valor de una variable para un elemento.
- Conjunto de datos (data set)
La colección de observaciones de una o más variables realizadas sobre la muestra.
- Variable quantitativa (quantitative variable)La variable que se mide de forma numérica. Las variables quantitativas a su vez pueden ser discretas (discrete) o contínuas (continuous) según si el conjunto de posibles valores es finito o infinito.
- Variable cualitativa (qualitative or categorical variable)
La variable que no toma valores numéricos pero puede ser clasificada dentro de un conjunto finito de categorias.
- Cross-section data
Dato recogido sobre un elemento en un momento o periodo de tiempo determinado.
- Time-series data
Dato recogido sobre un elemento en diferentes momentos o periodos de tiempo.
Un poco más sobre las muestras:
- Muestra representativa (representative sample)
La muestra que representa las características de la población.
- Muestra aleatoria (random sample)
La muestra seleccionada de forma que todo elemento de la población tiene las mismas posibilidades de ser seleccionado, y del conjunto de muestras posibles, cualquier muestra tiene las mismas posibilidades de ser seleccionada.
- Selección con reemplazo (selection with replacement)
Cada vez que un elemento de la población es seleccionada, este es devuelto a la población antes de hacer la siguiente selección. En la selección con reemplazo es posible seleccionar el mismo elemento varias veces.
- Selección sin reemplazo (selection without replacement)
Cuando un elemento de la población es seleccionado este es apartado de la misma y no forma parte de la siguiente selección. En la selección sin reemplazo no es posible seleccionar el mismo elemento varias veces.
No hay comentarios:
Publicar un comentario