Archivos de la categoría Estadística

EIDUM, MAN01: Métodos de análisis de datos multivariantes

fernandoPSComienza el curso de EIDUM “Métodos de análisis de datos multivariantes.”. Consiste en dos sesiones, y hay tres grupos con diferente horario (horario de tarde). Se imparte en el aula Mangel de ATICA y la buitre de la facultad de Biología. Acceso a la agenda aquí.

Destinatarios

El curso está dirigido a alumnos de doctorado con conocimientos básicos en R y elaboración de informes y documentos sencillos en Rmarkdown. En su caso es recomendable haber realizado los cursos de Introducción a R y Rstudio, Procedimientos para la elaboración de informes y documentos científico-técnicos, Representación y tabulación de datos, o tener los conocimientos considerados en estos cursos.

En el curso abordará las técnicas de análisis de datos multivariantes evitando en lo posible los aspectos más formales, abordando las cuestiones desde un punto de vista eminentemente práctico. Se estudiarán las técnicas de ordenación y clasificación más habituales sus aplicaciones y ejemplos prácticos. Finalmente se hará una introducción a las técnicas de aprendizaje automatizado (machine learning), así como al empleo de curvas ROC y sus aplicaciones.

Competencias

  • Ser capaz de identificar la naturaleza del problema multivariante a abordar y las técnicas a aplicar
  • Ser capaz de realizar una clasificación e interpretar los resultados identificando las características de los grupos obtenidos.
  • Ser capaz de realizar una ordenación e interpretar los resultados
    describiendo el significado de los ejes obtenidos.
  • Ser capaz de leer un informe de resultados de una análisis realizado por una técnica de aprendizaje automático.

Contenidos

  1. Técnicas de ordenación: Análisis de componentes principales
  2. Técnicas de ordenación: Análisis de correspondencias
  3. Técnicas de ordenación: Escalado multidimensional
  4. Técnicas de ordenación: Análisis factorial
  5. Técnicas de clasificación: Clasificación no jerárquica: algoritmo k-means
  6. Técnicas de clasificación: Clasificación jerárquica: Elaboración de dendrogramas
  7. Introducción al aprendizaje automatizado.
  8. Curvas ROC usos e interpretación.

Resultados de aprendizaje

  • Conocer las más habituales técnicas multivariantes existentes.
  • Saber aplicar las técnicas multivariantes con R.
  • Ser capaz de interpretar y elaborar informes de los resultados.
  • Saber aplicar los fundamentos del aprendizaje automatizado para el diseño de análisis
  • Ser capaz de construir en R una curva ROC e interpretar el resultado.
  • Ser capaz de combinar los resultados de distintos análisis multivariantes para mejorar la interpretación de los resultados.

En la clase de hoy hemos hecho un PCA viviente….

PCA( 00Rteam[,1:4], graph = TRUE, scale.unit = TRUE )

pca_00rteam

EIDUM, MEX01: Métodos de contraste de hipótesis y diseño de experimentos

421821075_110627

Destinatarios

Para cualquier investigador resulta básico la lectura y la generación de documentación donde se encuentran detallados los procedimientos de análisis estadístico. En este curso se plantea como objetivo general proporcionar a los participantes la capacidad práctica para abordar un estudio estadístico basado en el contraste de hipótesis. De forma práctica se abordarán, especialmente, tanto el análisis de la varianza (ANOVA) como la realización de análisis lineal (regresión lineal), pasando por otros aspectos relevantes y test más habituales.

Se trata de un curso eminentemente práctico y es imprescindible tener conocimientos de R (en particular de tabulación y representación gráfica de datos) y del uso de investigación reproducible.

Competencias

  • Se capaz de realizar adecuadamente un análisis de la varianza con R e interpretar los resultados obtenidos.
  • Se capaz de realizar adecuadamente un análisis de regresión con R e interpretar los resultados obtenidos.
  • Ser capaz de evaluar la adecuación de los principales test estadísticos a los problemas y los casos prácticos más frecuentes.

Contenidos

  1. Conceptos y distribuciones de probabilidad aplicados al contraste de hipótesis. El teorema del límite central. Los intervalos de confianza de un estadístico y los tipos de variables.
  2. Introducción a la aplicación de los contrastes de hipótesis y las situaciones de aplicación.
  3. Pruebas de diferencias de poblaciones (t, \chi^2 y ANOVA).
  4. Modelos de respuesta (el modelo lineal y otros modelos).

Resultados de aprendizaje

  • Capacidad de uso de los conceptos de probabilidad, las pruebas estadísticas, el contrastes de hipótesis y la significación en la elaboración de los datos propios y en la lectura crítica de documentación técnica.

  • Identificar las situaciones más frecuentes en el diseño de experimentos y sus soluciones.

  • Realización de protocolos de análisis con R y uso de análisis reproducible para elaborar informes de resultados.

Generando gráficos 3D en movimiento con R

movie

En esta entrada explicamos cómo elaborar un gráfico 3D en movimiento con R. Además veremos cómo exportarlo en formato .gif. Utilizamos para ello la librería rgl de R.

Preparando los datos

Leemos el fichero de datos con el que queremos trabajar.

biom <- read.table("http://ares.inf.um.es/00Rteam/datos/biom2003.dat")

Verificamos una lectura adecuada con un simple vistazo de las primeras filas de biom:

head( biom )

Comprobamos que el número de filas y columnas es adecuado:

dim( biom )

Pasamos a elaborar nuestro gráfico en 3 dimensiones.

Gráficos 3D

Cargamos la librería rgl y elaboramos el gráfico con la función plot3d().

library( rgl )
plot3d( biom$Altura, biom$Peso, biom$Hombros, 
        col = biom$Sexo, type = "s", radius = 1.5 )

Para ver nuestro gráfico en movimiento utilizamos la función play3d() cuyos argumentos son

  • spin3d(): para girar el gráfico.
  • duration: tiempo que está en movimiento (seg.)

La expresión quedaría:

play3d( spin3d(  ), duration = 10 )

Podemos añadirle a la función spin3d() los argumentos axis y rpm, con los que indicamos los ejes y la velocidad de rotación.

play3d( spin3d( axis = c(0, 0, 1), rpm = 7), duration = 10 )

Sigue leyendo

Cursos de la Escuela Internacional de Doctorado UMU

Desde la Sección de Apoyo Estadístico del SAI colaboramos en algunos cursos del Doctorado Internacional destinados a los futuros doctores y doctoras de esta Universidad. Los cursos están encuadrados en de la temática Diseño de Experimentos y Fundamentos de Análisis de Datos:

  • IER01: Introducción a R y RStudio.
  • GDA01: Procedimientos para la elaboración de informes y documentos científico-técnicos.
  • IDC01: Representación y tabulación de datos.
  • MEX01: Métodos de contraste de hipótesis y diseño de experimentos.
  • MAN01: Métodos de análisis de datos multivariantes.
  • EDE01: Creación, manejo y explotación de datos espaciales.

A principios de mes comenzamos con el primero de los cursos, sobre Introducción a R y RStudio. En futuras entradas os iremos contando más cosas sobre ellos :).

Fdo. El 00Rteam

logo-00rteam

2015-12-15-todos-00rteam

¡Adiós a los datos a pelo!

 

En los tiempos que corren podemos adaptar el dicho más vale una imagen que 1000 palabras a su versión estadística más vale un gráfico que 1000 datos.

Este hecho queda reflejado en la entrada “¡Españoles! ¡Los datos a pelo han muerto!” dónde podemos ver que una visualización sobre distribución de la población en España es mucho más poderosa que una descripción de la misma.

Leer entrada completa.

Los mejores lenguajes de programación 2015

New languages enter the scene, and big data makes its mark

This app ranks top10proglang2015the popularity of dozens of programming languages. You can filter them by listing only those most relevant to particular sectors, such as “Web” or “embedded programming.” Rankings are created by weighting and combining 12 metrics from 10 sources. We offer preset weightings—the default is our IEEE Spectrum ranking—but there are presets for those interested in what’s trending or most looked for by employers. Don’t like the defaults? Take complete control and create your own ranking by adjusting each metric’s weighting yourself. To compare with last year’s data, add a comparison and then choose “edit ranking,” which will give you the option to take data from 2014.

We take a similarly pragmatic approach to how we classify languages into types like “embedded” or “Web.” Placement is based on typical use: For example, we are very impressed by those brave souls who have written Web servers completely in assembly code, but we’re not going to categorize Assembly as a Web development language. (Read more about our method and sources)

Once you’ve had a chance to use the app, let us know your feedback using this quick survey, or leave a comment below.

Leer el post original completoy comentarios en :  spectrum.ieee.org

El divertido mundo de las correlaciones falsas

Interesante entrada en http://www.microsiervos.com/

En Spurious Correlations (correlaciones falsas) hay literalmente decenas de «correlaciones que no tienen ni pies ni cabeza» (en palabras de Diego de Haller, que es vía) y, lo que es mejor, cuenta una herramienta para encontrar más correspondencias entre dos conjuntos de datos: la relación entre el consumo de queso mozzarela y los divorcios en Maine; la edad de Miss América y el número de muertes por quemaduras o la (aparente) relación entre el consumo de pollo y la importación de petróleo.

Además de la web, el analista de inteligencia militar Tyler Vigen también firma un libro con el mismo título, Spurious Correlations — disponible en Amazon, en papel y ebook.

Data scientists: ‘As rare as unicorns’

keep-calm-and-love-unicorns-35Data scientists are in high demand as executives seek talented individuals capable of unlocking the hidden value from big data to create big business results. But managing such scarce talent requires a proactive approach over the short, medium and long term.

Big data is enabling companies to gain new insights into areas ranging from customer behaviour to how their businesses function. These data-driven findings can have profound results on the bottom line.

The explosive growth in the amount of available data and an appreciation of its value is going to continue driving very strong demand for data scientists. In fact, their rarity already has some executives describing them as “unicorns”.

Sigue leyendo

Los analistas de negocio que gestionan BBDD serán reemplazados en los próximos años por los científicos de datos

Stonebraker,

Predice que muchos de los analistas de negocio que gestionan los almacenes de datos serán reemplazados en los próximos años por los científicos de datos, ya que están capacitados para trabajar con matrices en lugar de tablas, y con técnicas tales como el análisis de regresión, el análisis bayesiano y otros enfoques representados por programas como el paquete estadístico R:

Leer articulo original en español: http://www.bigdatahispano.org

Artículo original: Michael Stonebraker Explains Oracle’s Obsolescence, Facebook’s Enormous Challenge, by Tiernan Ray

 

Breve introducción del software PSPP

Desde el servicio de Apoyo Estadístico del SAI queremos presentar un paquete estadístico del que nos habéis preguntado muchas veces.

Enlaces de descarga del PSPP

Para descargar el programa puede pulsar en el siguiente enlace:

http://www.gnu.org/software/pspp/get.html.

La última actualización a día de hoy es la versión 0.8.4 (septiembre de 2014).

Actualmente está disponible para las principales plataformas:

            - Windows XP, Vista, 7 y 8
            - Mac OS X
            - Linux

¿Qué es PSPP?

PSPP es una aplicación de software libre para el análisis de datos. Se presenta en modo gráfico y está escrita en el lenguaje de programación C. Usa la biblioteca científica GNU para sus rutinas matemáticas, y plotutils para la generación de gráficos. Es un reemplazo libre para el software propietario SPSS y aparentemente muy similar con pequeñas excepciones. Las más importante de estas excepciones son:

1- La copia de PSPP no expira con el tiempo

2- Admite alrededor de un billón de casos y un billón de variables.

3- No hay paquetes adicionales que haya que adquirir con el fin de obtener las funciones “avanzadas”; todas las funcionalidades que PSPP aporta actualmente están en el paquete básico.

Técnicas que implementa

PSPP ofrece muchas transformaciones y utilidades. Entre ellas, cabe destacar la capacidad de realizar:

- t-tests
- ANOVA
- Regresión lineal
- Regresión logística
- Análisis de conglomerados
- Análisis de confiabilidad
- Análisis factorial
- Pruebas no paramétricas

Algunas funcionalidades implementadas

- Pegar la sintaxis del análisis en ficheros parecidos 
  a los .sps de SPSS.
- Exportar los resultados a pdf, html, odt, csv, etc…

Recursos en la web

Cuestiones tales como cómo descargarlo, cómo instalarlo y cómo configurar el interface pueden consultarse en la web: https://www.gnu.org/software/pspp/.

Además, también hay una lista de distribución, a la cual puede acceder en el siguiente enlace: https://lists.gnu.org/mailman/listinfo/pspp-users