lunes, 11 de febrero de 2013

Data Análisis - Agrupando el dato


  • Dato crudo (raw data)
    El dato tal cual es recolectado. Este es de gran volumen denso y puede contener errores.

Uno de los primeros pasos para estudiar el data puede ser el agrupamiento del dato en categorías o clases. De forma que podamos estudiar como se distribuye la población dentro de cada clase o categoría. Para ello utilizamos:

  • Distribución de frecuencia (frequency distribution)
    Muestra como el dato se distribuye en diferentes categorías o clases
  • Frecuencia relativa (relative frequency)
    Muestra la probabilidad de que un elemento aleatorio de al muestra caiga sobre una determinada categoría o clase.

Variables cualitativas:


El dato puede ser agrupado bajo los diferentes valores de una variable cualitativa. De esta forma podemos crear un listado con todos los valores de la variable junto con el número de elementos de la muestra que pertenecen a esa categoria.

Añadiendo al listado el cociente de la frecuencia de cada categoria entre el numero de elementos de la muestra obtendremos la frecuencia relativa.


Variables cuantitativas:


  • Clase (class)
    Un intervalo que incluye todos los valores que caen entre dos números (los limites inferior y superior).

Una variable cuantitativa puede ser agrupada de la misma manera que una variable qualitativa utilizando clases en lugar de valores únicos.

Siendo las clases un conjunto ordenado es posible calcular la frecuencia acumulada de una distribución. El calculo de esta distribución en variables cualitativas depende de cada variable ya que no siempre pueden ser ordenadas.

  • Frecuencia acumulada (cumulative frequency)
    Muestra el numero de elementos que pertenecen a la clase o a cualquier clase que la preceda. Es decir, el numero de elementos cuya observación es menor que el límite superior de la clase.
  • Frecuencia acumulada relativa (cumulative relative frequency)
    Muestra la probabilidad de que un elemento aleatorio de la muestra pertenezca a la clase indicada o a cualquier clase que la preceda.

Si las observaciones de una muestra toman solo unos pocos valores discretos distintos, podría ser adecuado utilizas clases compuestas por un único valor en lugar de utilizar intervalos.

No hay comentarios:

Publicar un comentario