Archivos de la categoría Estadística

El machine learning es estadística glorificada

John Alexis Guerra, profesor de la Universidad de los Andes, desmitifica las tecnologías del momento y defiende una mejor selección de las herramientas necesarias para cada caso.

Accede a la noticia completa aquí.

GELMAN: Some Natural Solutions to the p-Value Communication Problem—And Why They Won’t Work

Blake McShane and David Gal recently wrote two articles (“Blinding us to the obvious? The effect of statistical training on the evaluation of evidence” and “Statistical significance and the dichotomization of evidence”) on the misunderstandings of p-values that are common even among supposed experts in statistics and applied social research.

Lea la noticia completa aquí

Vídeo

The Bayesian Trap

Hoy os traemos un interesante vídeo sobre estadística bayesiana del canal Veritasium, que aprovechamos para recomendaros.

El banco de Nueva Zelanda sustituye SAS por R

El banco Heartland Bank, de Nueva Zelanda, decidió utilizar técnicas de análisis de datos para evaluar las líneas de crédito, analizar riesgos y comprender los flujos de efectivo.

Comenzaron utilizando el sistema SAS, usual en estos ambientes, pero pronto se dieron cuenta de que este sistema era complicado y consumía mucho tiempo y recursos, sobretodo cuando trataban de actualizar los modelos financieros.

Así, el Heartland Bank reemplazó a SAS por servidores de R y SQL Server, y a adoptó R como su plataforma de análisis de datos. Heartland utiliza ahora R para diferentes procesos como el desarrollo de tarjetas de crédito, el análisis de atrasos y la previsión de inversiones, entre otros.

Además, su uso ha generado una nueva forma de trabajar los datos dentro de la empresa, ahora son los propios empresarios del banco quienes utilizan R para trabajar directamente con los nuevos modelos de datos, en lugar de depender de TI para producir informes. Así los empleados tienen acceso a información en tiempo real.

Pueden ver el artículo completo aquí.

Imagen

Una imagen vale más que mil palabras

Errores tipo I y tipo II

Descripción gráfica. Errores tipo I y tipo II

Seminario SAE: Consistencia interna en cuestionarios

corrplotMañana (viernes 14/oct) tendrá lugar el en el aula del SACE (12h) el seminario sobre “Consistencia interna en cuestionarios “, que dará Elvira Ferre Jaén, matemática estadística de este servicio.

En la exposición se repasaran diversa técnicas para medir consistencia interna y correlación en cuestionarios.

Actualización: Aquí os dejamos la presentación correlacion-consistencia-interna.pdf

Seminario SAE: El paquete Tables

alvarox Hoy ha tenido lugar el seminario sobre “El paquete tables de R”, que ha dado Álvaro Hernández Vicente. Que facilita mucho la creación de tablas con muchas categorías, cuidando el aspecto, genial para incluir en nuestros informes automáticos de grandes conjuntos de datos.

Os dejamos aquí la presentación en pdf. Paquete-tables-pres.pdf

PSPP reemplazo libre a SPSS

PSPP screenshot

¿Qué es PSPP y por qué usarlo?

Muchos de los cursos introductorios de estadística requieren el uso de algún software de análisis estadístico. La estadística debe y es independiente del software que se emplee, ¿por qué usar un software propietario cuando existe una alternativa libre como PSPP?

PSPP es una aplicación de software libre para el análisis de datos. Se presenta en modo gráfico y está escrita en el lenguaje de programación C. Usa la biblioteca científica GNU para sus rutinas matemáticas, y plotutils para la generación de gráficos. Es un reemplazo libre para el software propietario SPSS y aparentemente muy similar con pequeñas excepciones. Las más importantes son:

  1. La copia de PSPP no expira con el tiempo
  2. Admite alrededor de un billón de casos y un billón de variables.
  3. No hay paquetes adicionales que haya que adquirir con el fin de obtener las funciones “avanzadas”; todas las funcionalidades que PSPP aporta actualmente están en el paquete básico.

Técnicas que implementa

PSPP ofrece muchas transformaciones y utilidades. Entre ellas, cabe destacar la capacidad de realizar:

  • t-tests
  • ANOVA
  • Regresión lineal
  • Regresión logística
  • Análisis de conglomerados
  • Análisis de confiabilidad
  • Análisis factorial
  • Pruebas no paramétricas

Algunas funcionalidades adicionales:

  • Pegar la sintaxis del análisis en ficheros parecidos a los .sps de SPSS.
  • Exportar los resultados a pdf, html, odt, csv, etc.

Enlaces de descarga del PSPP

Sigue leyendo

Seminario: Visualización y análisis de escalas Likert

Ant J. Perán en el aula del edificio SACE del SAI

Ant José Peran en el aula del edificio SACE del SAI

El pasado viernes 30 de septiembre tuvo lugar en el Edificio SACE, el seminario “Visualización y análisis de escalas Likert”, presentado por nuestro compañero Antonio José Perán.

Esperamos que sea el primero de una saga de pequeños seminarios sobre paquetes de R y técnicas estadísticas que consideremos interesantes. Las iremos anunciando con más antelación que esta en esta web.

Os dejamos aquí la presentación en pdf: Visualizacion-y-analisis-de-escalas-Likert.pdf

Paquetes para aprendizaje automático en R

El pasado 6 de junio se publicaba en R-bloggers una entrada titulada What are the Best Machine Learning Packages in R? En ella el autor hacía una lista con los paquetes que él considera más importantes para machine learning en R (y que puede hacer que algunos opten por iniciarse por este software).

La lista incluye los paquetes:

  • mice: Multivariate Imputation by Chained Equations. Para completar los valores perdidos o NA de nuestra base de datos.
  • rpart: Recursive Partitioning and Regression Trees. Para realizar árboles de clasificación y regresión.
  • party: A Laboratory for Recursive Partytioning. También sirve para realizar modelos basados en árboles de decisión.
  • caret: Classification And REgression Training. Con este paquete se pretende tener un marco común para utilizar las demás técnicas de Machine learning.
  • randomForest: Breiman and Cutler’s Random Forests for Classification and Regression. Para realizar bosques aleatorios.
  • nnet: Feed-Forward Neural Networks and Multinomial Log-Linear Models. Para realizar redes neuronales.
  • e1071: Misc Functions of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien. Entre otros nos permite realizar modelos de máquinas de soporte de vectores, transformaciones de Fourier, etc.
  • kernlab: Kernel-Based Machine Learning Lab. Implementa algoritmos basados en métodos de Kernel.

En la entrada se puede ver más información y ejemplos de cada paquete.