sábado, 9 de febrero de 2013

Data Análisis - Conceptos básicos de estadística


Dentro del análisis de datos llamamos estadística al conjunto de métodos usado para analizar, peresentar e interpretar datos. Nunca se debe perder el objetivo de todo analisis de datos, que es la toma de decisiones fundamentadas en los resultados del análisis.

Existen dos tipo de estadísticas:

  • La estadística descriptiva es el conjunto de metodos para organizar, mostrar y describir el dato. Para ello se usan tablas, gráficos y medidas que nos ayudan a describir las cualidades y características del dato.

    Normalmente el dato original es muy grande en terminos de volumen. Esto hace que que no podamos manejarlo mentalmente, y por lo tanto, no podamos extraer ningún valor de él. Para que este dato pueda aportarnos información manejable es útil desarrollar resumenes con valores significativos y diferentes medidas tomadas del dato inicial.

  • La estadísica inferencial nos ayuda a predecir propiedades de una población basándonos en los resultados obtenidos de una muestra de la misma.

    Normalmente las poblaciones objetivo del análisis son demasiado grandes. Esto hace difícil o incluso imposible obtener dato del total de la población. Utilizando el dato de una muestra de la población es posible extraer información que nos ayude a describir e intuir el comportamiento de esta.


Conceptos básicos:



  • Población (population)
    Todos los elementos cuyas características están siendo estudiadas.
  • Muestra (sample)
    Parte de la población seleccionada para el estúdio.
  • Encuesta (survey)
    Colección de información de los elementos de una población o muestra.
  • Censo (census)Una encuentra que cubre a todos los elementos de una población.
  • Elemento (element or member of a sample)
    El sujeto especifico objetivo del estúdio sobre el que se recoge datos.
  • Variable (variable)
    Característica bajo estudio que irá tomando diferentes valores para cada elemento estudiado.
  • Observación (observation or measurement)
    El valor de una variable para un elemento.
  • Conjunto de datos (data set)
    La colección de observaciones de una o más variables realizadas sobre la muestra.
  • Variable quantitativa (quantitative variable)La variable que se mide de forma numérica. Las variables quantitativas a su vez pueden ser discretas (discrete) o contínuas (continuous) según si el conjunto de posibles valores es finito o infinito.
  • Variable cualitativa (qualitative or categorical variable)
    La variable que no toma valores numéricos pero puede ser clasificada dentro de un conjunto finito de categorias.
  • Cross-section data
    Dato recogido sobre un elemento en un momento o periodo de tiempo determinado.
  • Time-series data
    Dato recogido sobre un elemento en diferentes momentos o periodos de tiempo.

Un poco más sobre las muestras:


  • Muestra representativa (representative sample)
    La muestra que representa las características de la población.
  • Muestra aleatoria (random sample)
    La muestra seleccionada de forma que todo elemento de la población tiene las mismas posibilidades de ser seleccionado, y del conjunto de muestras posibles, cualquier muestra tiene las mismas posibilidades de ser seleccionada.
  • Selección con reemplazo (selection with replacement)
    Cada vez que un elemento de la población es seleccionada, este es devuelto a la población antes de hacer la siguiente selección. En la selección con reemplazo es posible seleccionar el mismo elemento varias veces.
  • Selección sin reemplazo (selection without replacement)
    Cuando un elemento de la población es seleccionado este es apartado de la misma y no forma parte de la siguiente selección. En la selección sin reemplazo no es posible seleccionar el mismo elemento varias veces.

No hay comentarios:

Publicar un comentario