Archivos de la categoría R

R supera a SAS en el uso escolar

Una buena forma de analizar el uso de los distintos paquetes de software estadístico es analizar su aparición en artículos escolares. Basándonos en ello, tenemos que durante los últimos 15 años SPSS ha sido el paquete más dominante, y sigue siendolo a finales de 2015, seguramente debido a su equilibrio entre potencia y facilidad de uso. La novedad está en que por primera vez, R se encuentra en el segundo puesto con más de la mitad de artículos, quedando SAS relegado a un tercer lugar.

Estos datos son útiles para analizar la cuota de mercado, pero si queremos ver cómo el uso de los paquetes está cambiando, lo ideal es analizar la tendencia de crecimiento en los dos últimos años para cada uno de los paquetes de análisis de datos. Podemos ver en rojo, aquellos paquetes “calientes” cuyo uso está creciendo, y en azul aquellos que se “están enfriando”.

Observamos que Python es aquel con mayor crecimiento. El segundo y tercer puesto es para los paquetes de código abierto KNIME y RapidMiner, respectivamente. R está en el cuarto lugar, y teniendo en cuenta su segundo lugar en cuota de mercado global, está en una posición envidiable. En el otro extremo de la escala están SPSS y SAS, ambos de los cuales redujeron su uso un 25% o más.

Si analizamos esta tendencia a largo plazo (de 1995 a 2015) observamos que SPSS tiene una clara ventaja, pero ahora se puede ver que su dominio alcanzó su punto máximo en 2008 y que su uso está en fuerte descenso. SAS nunca llegó a nivel de dominio de SPSS, y también alcanzó su punto máximo alrededor de 2008. Esto se equilibra ligeramente con el aumento en el uso del resto de software en general y de R en particular.

Quitando del gráfico las curvas de SAS y SPSS, podemos ver que el crecimiento en el uso de R es bastante rápido y se está alejando de la manada. Si las tendencias actuales continúan, R cruzará SPSS para convertirse en el software #1 para el uso de datos ciencia académica a finales de 2017.

Para dejar aún más claro este punto, repetimos el gráfico anterior aplicando escala logarítmica en el eje y. Esto reduce proporcionalmente los paquetes más populares, que nos permite ver más claro que el uso de R ha pasado al de SAS, y que el uso de Stata se está cerca de hacerlo.

Léase la noticia completa en https://www.r-bloggers.com/r-passes-sas-in-scholarly-use-finally/

Buenas noticias: IBM crea una plataforma de cursos online gratuitos sobre Big Data

En los tiempos que corren es innegable que el conocimiento de las técnicas estadísticas que engloban la disciplina conocida como Big Data, se ha convertido en una herramienta indispensable para la gran mayoría de analistas de datos de la actualidad. La hiper-conectividad del siglo XXI y los grandes avances en materia tecnológica de estos últimos veinte años hacen que la sociedad se esté involucrando, voluntaria o involuntariamente, en una generación continua de datos que están esperando para ser analizados.

Cada vez más, plataformas o empresas propensas a recabar grandes volúmenes de datos, ven necesario disponer de una sección dedicada a aplicar técnicas de Big Data a la información obtenida en pos de un próspero desarrollo. Ejemplos de esto pueden hallarse en ámbitos como el de la sanidad, el transporte, o las redes sociales.

Quizá por este u otros motivos IBM haya decidido subirse al carro del Big Data presentando “Big Data University”, un sitio web educacional que ofrece cursos gratuitos sobre Big Data y bases de datos. Lo más interesante de estos cursos es que incluyen laboratorios prácticos que puede realizar en la nube y que cuenta con una pequeña prueba que si superas recibes un certificado.

Otra de las ventaja de BigDataUniversity.com es que se trata de un sitio manejado por la comunidad de IBMers, que contribuyen voluntariamente al desarrollo de los cursos y a la mejora del sitio web.

R4U…. Introducción al uso de R en entornos universitarios

R44U

Comienza el curso “Introducción al uso de R en entornos universitarios” al que nosotros denominamos R4U

Este curso plantea un desafío aproximar el uso de R, un lenguaje, a un colectivo diverso como es el del “personal” de la universidad. Es un colectivo diverso en cualquiera de sus dimensiones, la marca es la heterogeneidad tanto en el PDI como en el PAS. Sin embargo, más allá del propio lenguaje está la metodología de trabajo, la gestión de la información, la automatización de procedimientos y tanto la optimización en la gestión del tiempo, como la de los resultados de la comunicación.

Veremos como R forma parte de un sistema de trabajo más amplio que exige ciertos cambios en los modus operandi y una formación continua, este esfuerzo proporciona resultado de distinta naturaleza y plantea preguntas personales relevantes, para conseguir las respuestas vamos a proporcionar elementos de juicio.

¿Qué esperamos del curso?

Estamos seguros de que muchas son las preguntas que los participantes en el taller se plantean y pueden ir desde lo más simple hasta cuestiones mucho más avanzadas ¿Qué es R? ¿R sólo lo usan los estadísticos? ¿Sabiendo ya manejar el programa estadístico X podre cambiarme a R fácilmente? ¿Cuánto cuesta aprender a utilizarlo? ¿Está orientado a un campo del conocimiento específico? ¿Tengo que aprender mucho e invertir mucho tiempo? ¿Hay diferentes niveles de “aprendizaje”? ¿Me compensa el esfuerzo de aprender para el rendimiento que obtendré en mi trabajo? ¿Cómo puedo hacer el análisis estadístico X y que significan sus resultados?

Realizaremos una serie de actividades que nos proporcionaran argumentos para responder a estas y otras preguntas, así, veremos:

  • como utilizar el lenguaje R para resolver problemas simples que nos afectan en el quehacer cotidiano.
  • Como se puede utilizar con fluidez la terminal y manejar la interfaz básica de R con muy poco esfuerzo.
  • Estudiaremos como aprovechar las características los principales elementos de R y su entrono, así como el fundamento de la sintaxis de R.
  • Abordaremos el desafío de elaborar procedimientos básicos de trabajo documentados y reproducibles con R.

Obviamente, el nivel del experiencia previa y las expectativas de uso para cada uno de los distintos participantes puede ser muy distinta, por ello, vamos a empezar desde cero, los más experimentados pueden saltar aquellas propuestas de lectura o actividades que sugerimos en los materiales de trabajo; pero nadie puede “saltarse” las tareas propuestas.

Estamos a vuestra disposición… 00RTeam

EIDUM, EDE01: Creación, manejo y explotación de datos espaciales

paqui1Comienza el curso de EIDUM: Creación, manejo y explotación de datos espaciales”. Consiste en tres sesiones, y hay tres grupos con diferente horario (horario de tarde). Se imparte en el aula Bisbita de la facultad de Biología.

Destinatarios

Alumnos de doctorado con conocimientos básicos de SIG (esencialmente los recogidos por el documento del Instituto Geográfico Nacional Conceptos cartográficos ) y con conocimientos de R, tanto los gestión de datos como en los de representación gráfica, puede participar en este curso para aprovechar el potencial de R en la gestión y la representación de datos espaciales y complementar este conocimiento con el uso de un programa de desktop mapping potente como es Quantum GIS.

Competencias

paqui2

  • Ser capaz de combinar información espacial procedente de distintas fuentes o formatos
  • Ser capaz de preparar datos espaciales propios y representarlos adecuadamente
  • Ser capaz de independizar los datos del software empleado para su procesamiento, análisis o representación

Contenidos

  1. Visualización de datos cartográficos (Qgis)
  2. Reproyecciones (gdal y ogr)
  3. Captura de datos cartográficos de Internet (openlayers y otros)
  4. Introducción a la elaboración de mapas con R. Gestión de información ráster y vectorial
  5. Diseño de impresión de mapas (Qgis y R)

Resultados de aprendizaje

  • Poder visualizar mapas propios en pantalla o en papel documentación cartográfica personalizada
  • Poder utilizar la información procedente de servidores cartográficos y otras fuentes
  • Poder realizar cálculos básicos con la información espacial para la obtención de mapas propios
  • Manejar adecuadamente los sistemas de proyección y poder reproyectar convenientemente la cartografía disponible
  • Preparar la información para generar mapas de calidad destinados a la impresión

Evaluación

Para la superación del curso se exigirá:

  • la asistencia a las sesiones presenciales obligatorias
  • la cumplimentación del cuestionario de satisfacción del curso
  • la realización y entrega de las tareas requeridas, tal como se indica a continuación

El curso es semipresencial, y al trabajo en las sesiones presenciales ha de sumarse el realizado por los alumnos siguiendo las indicaciones que se detallan en el aula virtual; estas se inician antes de las sesiones presenciales.

En todas las sesiones presenciales se realizarán dos controles, tipo test, de unos diez minutos de duración:

  1. Al inicio, donde se evaluará la actividad del alumno con los materiales puestos a su disposición en el aula virtual. La actividad será seguida además por las herramientas de monitorización del AV.

  2. Al final, en el que se evaluará los avances logrados durante la sesión de clase.

Además, existe una tarea del curso que se presentará en el aula virtual con fecha límite de una semana tras la realización de la última sesión presencial. Esta tarea será evaluada por dos compañeros en la propia aula virtual con una semana de tiempo a contar desde la entrega de la tarea.

VIII Jornadas de Usuarios de R

RalbaceteLa Asociación R-Hispano tiene el placer de anunciar la celebración de las VIII Jornadas de Usuarios de R. En esta ocasión, será la Universidad de Castilla-La Mancha, en su campus de Albacete, quien acoja las Jornadas los días 17 y 18 de noviembre de 2016.

El objetivo de las Jornadas es proporcionar un punto de encuentro a la diversidad de usuarios de R por lo que, independientemente de la filiación o del área de trabajo o investigación, todo usuario de R es bienvenido.

Como en años anteriores, la presentación de trabajos en las Jornadas puede ser en forma de Presentación oral, en distintas sesiones paralelas, que reflejen el amplio abanico de análisis de datos mediante R, Póster, en una sesión específica, o como un Taller que permita profundizar en aspectos interesantes y menos conocidos de R.

El envío de trabajos ha de hacerse a través del formulario habilitado en la web del congreso en http://r-es.org/8jornadasR . En esta edición de las Jornadas también se otorgará un premio al mejor trabajo presentado por un investigador joven (ver bases en la web de las Jornadas).

Finalmente, queremos agradecer la colaboración de nuestros patrocinadores, sin los que las Jornadas no serían posible. Si tú o tu institución estáis interesados en patrocinar las Jornadas puedes consultar cómo hacerlo en http://r-es.org/8jornadasR .

Las fechas importantes son:

  • Envío de comunicaciones (presentación/póster/taller): del 15/02/2016 al 15/06/2016 (PLAZO AMPLIADO)
  • Decisión sobre envíos: 01/07/2016
  • Registro: del 01/03/2016 al 18/11/2016

EIDUM, MAN01: Métodos de análisis de datos multivariantes

fernandoPSComienza el curso de EIDUM “Métodos de análisis de datos multivariantes.”. Consiste en dos sesiones, y hay tres grupos con diferente horario (horario de tarde). Se imparte en el aula Mangel de ATICA y la buitre de la facultad de Biología. Acceso a la agenda aquí.

Destinatarios

El curso está dirigido a alumnos de doctorado con conocimientos básicos en R y elaboración de informes y documentos sencillos en Rmarkdown. En su caso es recomendable haber realizado los cursos de Introducción a R y Rstudio, Procedimientos para la elaboración de informes y documentos científico-técnicos, Representación y tabulación de datos, o tener los conocimientos considerados en estos cursos.

En el curso abordará las técnicas de análisis de datos multivariantes evitando en lo posible los aspectos más formales, abordando las cuestiones desde un punto de vista eminentemente práctico. Se estudiarán las técnicas de ordenación y clasificación más habituales sus aplicaciones y ejemplos prácticos. Finalmente se hará una introducción a las técnicas de aprendizaje automatizado (machine learning), así como al empleo de curvas ROC y sus aplicaciones.

Competencias

  • Ser capaz de identificar la naturaleza del problema multivariante a abordar y las técnicas a aplicar
  • Ser capaz de realizar una clasificación e interpretar los resultados identificando las características de los grupos obtenidos.
  • Ser capaz de realizar una ordenación e interpretar los resultados
    describiendo el significado de los ejes obtenidos.
  • Ser capaz de leer un informe de resultados de una análisis realizado por una técnica de aprendizaje automático.

Contenidos

  1. Técnicas de ordenación: Análisis de componentes principales
  2. Técnicas de ordenación: Análisis de correspondencias
  3. Técnicas de ordenación: Escalado multidimensional
  4. Técnicas de ordenación: Análisis factorial
  5. Técnicas de clasificación: Clasificación no jerárquica: algoritmo k-means
  6. Técnicas de clasificación: Clasificación jerárquica: Elaboración de dendrogramas
  7. Introducción al aprendizaje automatizado.
  8. Curvas ROC usos e interpretación.

Resultados de aprendizaje

  • Conocer las más habituales técnicas multivariantes existentes.
  • Saber aplicar las técnicas multivariantes con R.
  • Ser capaz de interpretar y elaborar informes de los resultados.
  • Saber aplicar los fundamentos del aprendizaje automatizado para el diseño de análisis
  • Ser capaz de construir en R una curva ROC e interpretar el resultado.
  • Ser capaz de combinar los resultados de distintos análisis multivariantes para mejorar la interpretación de los resultados.

En la clase de hoy hemos hecho un PCA viviente….

PCA( 00Rteam[,1:4], graph = TRUE, scale.unit = TRUE )

pca_00rteam

EIDUM, MEX01: Métodos de contraste de hipótesis y diseño de experimentos

421821075_110627

Destinatarios

Para cualquier investigador resulta básico la lectura y la generación de documentación donde se encuentran detallados los procedimientos de análisis estadístico. En este curso se plantea como objetivo general proporcionar a los participantes la capacidad práctica para abordar un estudio estadístico basado en el contraste de hipótesis. De forma práctica se abordarán, especialmente, tanto el análisis de la varianza (ANOVA) como la realización de análisis lineal (regresión lineal), pasando por otros aspectos relevantes y test más habituales.

Se trata de un curso eminentemente práctico y es imprescindible tener conocimientos de R (en particular de tabulación y representación gráfica de datos) y del uso de investigación reproducible.

Competencias

  • Se capaz de realizar adecuadamente un análisis de la varianza con R e interpretar los resultados obtenidos.
  • Se capaz de realizar adecuadamente un análisis de regresión con R e interpretar los resultados obtenidos.
  • Ser capaz de evaluar la adecuación de los principales test estadísticos a los problemas y los casos prácticos más frecuentes.

Contenidos

  1. Conceptos y distribuciones de probabilidad aplicados al contraste de hipótesis. El teorema del límite central. Los intervalos de confianza de un estadístico y los tipos de variables.
  2. Introducción a la aplicación de los contrastes de hipótesis y las situaciones de aplicación.
  3. Pruebas de diferencias de poblaciones (t, \chi^2 y ANOVA).
  4. Modelos de respuesta (el modelo lineal y otros modelos).

Resultados de aprendizaje

  • Capacidad de uso de los conceptos de probabilidad, las pruebas estadísticas, el contrastes de hipótesis y la significación en la elaboración de los datos propios y en la lectura crítica de documentación técnica.

  • Identificar las situaciones más frecuentes en el diseño de experimentos y sus soluciones.

  • Realización de protocolos de análisis con R y uso de análisis reproducible para elaborar informes de resultados.

Generando gráficos 3D en movimiento con R

movie

En esta entrada explicamos cómo elaborar un gráfico 3D en movimiento con R. Además veremos cómo exportarlo en formato .gif. Utilizamos para ello la librería rgl de R.

Preparando los datos

Leemos el fichero de datos con el que queremos trabajar.

biom <- read.table("http://ares.inf.um.es/00Rteam/datos/biom2003.dat")

Verificamos una lectura adecuada con un simple vistazo de las primeras filas de biom:

head( biom )

Comprobamos que el número de filas y columnas es adecuado:

dim( biom )

Pasamos a elaborar nuestro gráfico en 3 dimensiones.

Gráficos 3D

Cargamos la librería rgl y elaboramos el gráfico con la función plot3d().

library( rgl )
plot3d( biom$Altura, biom$Peso, biom$Hombros, 
        col = biom$Sexo, type = "s", radius = 1.5 )

Para ver nuestro gráfico en movimiento utilizamos la función play3d() cuyos argumentos son

  • spin3d(): para girar el gráfico.
  • duration: tiempo que está en movimiento (seg.)

La expresión quedaría:

play3d( spin3d(  ), duration = 10 )

Podemos añadirle a la función spin3d() los argumentos axis y rpm, con los que indicamos los ejes y la velocidad de rotación.

play3d( spin3d( axis = c(0, 0, 1), rpm = 7), duration = 10 )

Sigue leyendo

Índice de contenidos, figuras y tablas

Este documento es un ejemplo de cómo hacer con RStudio que tus documentos, además de un índice de contenidos, tengan un índice de tablas y otro de figuras. Para eso haremos uso de instrucciones de LaTeX en el documento de Rmarkdown.

Se puede descargar el fichero en Rmd y pdf desde aquí:.Rmd, .pdf

Índice de contenidos: toc

Para hacer que aparezca un índice de contenidos, en el preámbulo del documento ponemos toc: yes, de esta forma:

---
title: "Índice de contenidos, figuras y tablas"
output:
  pdf_document:
    toc: yes
---

toc

Índice de tablas y figuras

Para el índice de figuras tenemos que añadir dos sentencias de LaTeX donde queramos que aparezcan estos índices

\listoffigures
\listoftables

simplemente aparecerá al principio el toc o table of contents que es lo que pretendíamos. Vemos los detalles …

listoffigures

list of figures

Sigue leyendo

EIDUM, IDC01: Representación y tabulación de datos

elvirax-pizarra

Esta semana comienza el curso de EIDUM “Representación y tabulación de datos.”. Consiste en tres sesiones, y hay tres grupos con diferente horario (mañana y tarde). Se imparte en el aula Mangel de ATICA y la buitre de la facultad de Biología. Acceso a la agenda aquí.

Destinatarios

Alumnos de doctorado con conocimientos básicos sobre el manejo de R y sobre la elaboración de informes y documentos reproducibles. Recomendable haber realizado previamente los cursos de Introduccción a R y Rstudio y Procedimientos para la elaboración de informes y documentos ciéntifico-técnicos, o poseer los conocimientos que se abordan en ellos.

El curso está destinado a aquellos investigadores que se interesan por avanzar en tareas de gestión de datos, y en su caso, el manejo de grandes volúmenes de información. También se abordará la adecuada organización de los datos en una o más tablas, la codificación y los formatos para la presentación de los dados. Por otro lado, discutiremos métodos para la elaboración automática de tablas de datos. En especial a partir de fuentes originalmente heterogéneas o donde es necesario reelaborar la propia información para abordar otros enfoques o análisis de la información. También se abordará la elaboración una estadística descriptiva mediante tablas de resultados o gráficos más o menos complejos. Todo ello considerando siempre la forma de automatizar las tareas repetitivas con funciones de usuario.

Competencias

  • Saber preparar la información para su mecanización y tratamiento estadístico
  • Ser capaz de representar datos y funciones de forma integrada con R
  • Ser capaz de resumir la información mediante tablas y estadísticos
  • Ser capaz de exportar tablas y gráficos elaborados con R

Contenidos

  1. Datos y ficheros: formatos, codificación y estructura
  2. Importación y exportación de datos en R
  3. Resumen de datos: tablas, estadísticos y gráficos
  4. Distribución de frecuencias y distribuciones de probabilidad
  5. Objetos en R: manipulación avanzada de datos y simulación
  6. Creación de funciones en R: generalizando un procedimiento
  7. Toda la potencia de la representación gráfica en R
  8. Creación de gráficos y exportación: formatos gráficos Sigue leyendo