EIDUM: Métodos de análisis de datos multivariantes

fernandoPS

La segunda semana de marzo comienza el curso de EIDUM “Métodos de análisis de datos multivariantes.”. Consiste en tres sesiones,con un solo grupo. Se imparte en el aula Mangel de ATICA.

Aulas

Destinatarios

El curso está dirigido a alumnos de doctorado con conocimientos básicos en R y elaboración de informes y documentos sencillos en Rmarkdown. En su caso es recomendable haber realizado los cursos de Introducción a R y Rstudio, Procedimientos para la elaboración de informes y documentos científico-técnicos, Representación y tabulación de datos, o tener los conocimientos considerados en estos cursos.

En el curso abordará las técnicas de análisis de datos multivariantes evitando en lo posible los aspectos más formales, abordando las cuestiones desde un punto de vista eminentemente práctico. Se estudiarán las técnicas de ordenación y clasificación más habituales sus aplicaciones y ejemplos prácticos. Finalmente se hará una introducción a las técnicas de aprendizaje automatizado (machine learning), así como al empleo de curvas ROC y sus aplicaciones.

Competencias

  • Ser capaz de identificar la naturaleza del problema multivariante a abordar y las técnicas a aplicar
  • Ser capaz de realizar una clasificación e interpretar los resultados identificando las características de los grupos obtenidos.
  • Ser capaz de realizar una ordenación e interpretar los resultados
    describiendo el significado de los ejes obtenidos.
  • Ser capaz de leer un informe de resultados de una análisis realizado por una técnica de aprendizaje automático.

Contenidos

  1. Técnicas de ordenación: Análisis de componentes principales
  2. Técnicas de ordenación: Análisis de correspondencias
  3. Técnicas de ordenación: Escalado multidimensional
  4. Técnicas de ordenación: Análisis factorial
  5. Técnicas de clasificación: Clasificación no jerárquica: algoritmo k-means
  6. Técnicas de clasificación: Clasificación jerárquica: Elaboración de dendrogramas
  7. Curvas ROC usos e interpretación
  8. Introducción al aprendizaje automatizado

Resultados de aprendizaje

  • Conocer las más habituales técnicas multivariantes existentes.
  • Saber aplicar las técnicas multivariantes con R.
  • Ser capaz de interpretar y elaborar informes de los resultados.
  • Saber aplicar los fundamentos del aprendizaje automatizado para el diseño de análisis.
  • Ser capaz de construir en R una curva ROC e interpretar el resultado.
  • Ser capaz de combinar los resultados de distintos análisis multivariantes. para mejorar la interpretación de los resultados.

Evaluación

Para la superación del curso se exigirá:

  • la asistencia a las sesiones presenciales que son obligatorias
  • la cumplimentación del cuestionario de satisfacción del curso
  • la realización y entrega de las tareas requeridas, tal como se indica a continuación

El curso es semipresencial, al trabajo en las sesiones presenciales ha de sumarse el realizado por los alumnos siguiendo las indicaciones que se detallan en el aula virtual; estas se inician antes de las sesiones presenciales. En cada sesión se propondrán diversos ejercicios, que se discutirán y resolverán in situ, y se planteará una tarea previa a la siguiente sesión que se entregará en el aula virtual. Además, existe una tarea final del curso con fecha límite de una semana tras la realización de la última sesión presencial.

pca 00rteam

EIDUM: Representación y tabulación de datos con R

elvirax-pizarra

La segunda semana de marzo comienza el curso de EIDUM “Representación y tabulación de datos.”.

Consiste en tres sesiones, y hay dos grupos diferentes, es necesario que se desde el Aula virtual se seleccione uno de los dos grupos. El horario es de 16:00 a 20:00. En cada una de ellas habrá un descanso de 20 minutos, la duración total es de 4 horas.

Se imparte en el aula Mangel de ATICA y la Bisbita de la facultad de Biología.

Destinatarios/as

Alumnos y alumnas de doctorado con conocimientos básicos sobre el manejo de R y sobre la elaboración de informes y documentos reproducibles. Recomendable haber realizado previamente los cursos de Introduccción a R y Rstudio y Procedimientos para la elaboración de informes y documentos ciéntifico-técnicos, o poseer los conocimientos que se abordan en ellos.

El curso está destinado a quienes se interesen por avanzar en tareas de gestión de datos, y en su caso, en el manejo de grandes volúmenes de información. También se abordará la adecuada organización de los datos en una o más tablas, la codificación y los formatos para la presentación de los dados. Por otro lado, discutiremos métodos para la elaboración automática de tablas de datos; en especial, a partir de fuentes originalmente heterogéneas o donde es necesario reelaborar la propia información para abordar otros enfoques o análisis de la información. También se abordará la elaboración de una estadística descriptiva mediante tablas de resultados o gráficos más o menos complejos.
Todo ello considerando siempre la forma de automatizar las tareas repetitivas con funciones de usuario.

Competencias

  • Saber preparar la información para su mecanización y tratamiento estadístico
  • Ser capaz de representar datos y funciones de forma integrada con R
  • Ser capaz de resumir la información mediante tablas y estadísticos
  • Ser capaz de exportar tablas y gráficos elaborados con R

Sigue leyendo

Diferencias entre R y Excel o Calc

Si empelas Calc o Excel (o cualquier otra hoja de cálculo), la adaptación para aprender y usar R puede ser difícil. Como explica este post de Gordon Shotwell, una de las razones es que las cosas simples pueden ser más difíciles de hacer en R que Excel. Pero vale la pena perseverar, porque las cosas complejas pueden ser más fáciles.

Dificultad vs. complejidad

Mientras que Excel o Calc es muy bueno cosas como la aritmética y las tabulaciones, el enfoque programático de R introduce conceptos como estructuras de datos, iteración y funciones. Una vez que se ha hecho la inversión en tiempo para aprender R, estas abstracciones hacen que la reducción de tareas complejas en pasos discretos posibles, y la automatización de tareas similares repetidas mucho más fácil.

El banco de Nueva Zelanda sustituye SAS por R

El banco Heartland Bank, de Nueva Zelanda, decidió utilizar técnicas de análisis de datos para evaluar las líneas de crédito, analizar riesgos y comprender los flujos de efectivo.

Comenzaron utilizando el sistema SAS, usual en estos ambientes, pero pronto se dieron cuenta de que este sistema era complicado y consumía mucho tiempo y recursos, sobretodo cuando trataban de actualizar los modelos financieros.

Así, el Heartland Bank reemplazó a SAS por servidores de R y SQL Server, y a adoptó R como su plataforma de análisis de datos. Heartland utiliza ahora R para diferentes procesos como el desarrollo de tarjetas de crédito, el análisis de atrasos y la previsión de inversiones, entre otros.

Además, su uso ha generado una nueva forma de trabajar los datos dentro de la empresa, ahora son los propios empresarios del banco quienes utilizan R para trabajar directamente con los nuevos modelos de datos, en lugar de depender de TI para producir informes. Así los empleados tienen acceso a información en tiempo real.

Pueden ver el artículo completo aquí.

EIDUM: Introduccción a R y Rstudio para el análisis de datos

aurora-ant

Carga del curso

Número de horas de dedicación del estudiante:

  • Actividad presenciales (talleres): 12 horas (3 talleres de 4h)
  • Actividad personal: 18 horas

Destinatarios

Este curso va dirigido a los investigadores que requieren de herramientas para la manipulación de datos o han de utilizar métodos de análisis de datos. Esencialmente es un curso básico del lenguaje estadístico R y sus capacidades para manejar información cuantitativa y cualitativa, representación de datos y una introducción al uso de su amplísimo catálogo de funciones, que en la actualidad supera de largo el millón y medio. Entender los procedimientos de trabajo de los programas estadísticos y la metodología para preparar los datos y desarrollar protocolos de trabajo es uno de los aspectos básicos en la formación de un doctorando, si no posees estos conocimientos este curso es para ti; también, si sólo necesitas realizar tareas repetitivas para procesar información preparando tablas o gráficos. Es muy aconsejable haber realizado previamente el curso de Procedimientos para la elaboración de informes y documentos científico-técnicos, en su defecto conocer la elaboración de textos con rmarkdown.

Competencias

  • Utilizar con fluidez la terminal y manejar la interfaz básica de R.
  • Aprovechar las características los principales elementos, así como el fundamento, de la sintaxis de R.
  • Elaborar procedimientos básico de trabajo con R.
  • Resolver los problemas derivados de los mensajes de error del sistema.
  • Aprovechar las capacidades de R para generar documentos de investigación reproducible.

Resultados de aprendizaje

Ser capaz de instalar y utilizar el software libre R y Rstudio Disponer de procedimientos de trabajo para abordar el análisis para un conjunto de datos Saber elaborar procedimientos básicos para el tratamiento de datos Ser capaz de aplicar protocolos predefinidos de análisis con R Saber reutilizar protocolos conocidos o parte de ellos para resolver nuevos problemas Elaborar informes reproducibles

Evaluación

Para la superación del curso se exigirá:

  • la asistencia a las sesiones presenciales que son obligatorias
  • la cumplimentación del cuestionario de satisfacción del curso
  • la realización y entrega de las tareas requeridas, tal como se indica a continuación

El curso es semipresencial, al trabajo en las sesiones presenciales ha de sumarse el realizado por los alumnos siguiendo las indicaciones que se detallan en el aula virtual; estas se inician antes de las sesiones presenciales. En cada sesión se propondrán diversos ejercicios, que se discutirán y resolverán in situ, y se planteará una tarea previa a la siguiente sesión que se entregará en el aula virtual. Además, existe una tarea final del curso con fecha límite de una semana tras la realización de la última sesión presencial.

Agenda del curso

Todas las sesiones del curso, se realizarán durante el año 2017. El horario de los grupos 1 y 2 es de 16:00 a 20:00, el grupo 3 tiene horario de mañana, 9:30 a 13:00. En cada una de ellas habrá un descanso de 20 minutos, la duración total es de 4 horas.

calendario

Imagen

Una imagen vale más que mil palabras

Errores tipo I y tipo II

Descripción gráfica. Errores tipo I y tipo II

EIDUM: Procedimientos para la elaboración de informes y documentos científico-técnicos

Prof. Laura del Río

Prof. Laura del Río

En enero comenzará el curso “Procedimientos para la elaboración de informes y documentos científico-técnicos” del programa de la Escuela Internacional de Doctorado de la Universidad de Murcia.

Destinatarios

Para elaborar documentación de carácter técnico es necesario incluir diversos elementos en el texto: índice de contenidos, de figuras y de tablas, datos, referencias cruzadas, citas bibliográficas, etc. La utilización de un adecuado proceso de trabajo y del software recomendable proporciona los mejores resultados y numerosos beneficios, por ejemplo, el ahorro de tiempo, mejor calidad tipográfica y reducción de errores; además, permite introducir elementos y modificaciones en cualquier momento sin requerir una reedición del material ya elaborado.

Además de estas ventajas, cabe añadir la posibilidad de que los documentos, cuando contienen análisis estadísticos, puedan incluir tanto los procedimientos como los resultados de los cálculos realizados. Los documentos así elaborados permiten reproducir los mismos análisis y cálculos únicamente utilizando nuevos datos de entrada; esta forma de trabajar que se demonima investigación reproducible o análisis reproducible.

Estas tareas se pueden abordar desde lenguajes de marcas como markdown, que se ha convertido en un estándar en la elaboración de documentos digitales y que proporciona la posibilidad de crear desde un mismo documento base, distintas versiones en formatos de word, pdf, epub (y otras versiones de documentos electrónicos).

Este curso proporcionará las bases para poder preparar documentos aprovechando al máximo las capacidades de los programas que evitan el trabajo manual y descargando las tareas repetitivas en el ordenador. Estas preparando la tesis doctoral y este es tu curso.

Sigue leyendo

El SAE en las VIII Jornadas de Usuarios de R

Congreso-R-Albacete-2016-GrupoMurcia Este año 2016, los del SAE y algunas personas más pudimos asistir a las VIII Jornadas de R, que esta vez se celebraron en Albacete.

Como siempre, el encuentro fue magnífico. Vimos a viejos amigos y amigas, gente que lleva acudiendo a las jornadas desde las primeras allá por el año 2009 en Murcia, e hicimos nuevos que esperamos seguir viendo en la próximas.

Es curioso constatar cómo cada vez el mundo de R, que hace pocos años era un grupúsculo de “cuasi frikis” o “visionarios”, se va ampliando. Aún así, el ambiente es aún muy familiar; acudieron unas 100 personas. Quien llega nuevo rápidamente se integra y se crea una camaradería que yo no he visto en otras reuniones científicas. Es un “congreso” en el que mucha gente dice “aquí me siento normal”, hartos de ser “el o la rarita de de R”. Es grato encontrar gente con tus aficiones y formas parecidas de entender la ciencia y, como cada vez somos más, pudimos comprobar con la charla de David Ríos Insua (RIMAS) cómo, incluso ministros del estado español, ya tienen acceso a informes hechos con R y Rstudio en LaTeX. Parece sorprendente, ¿no?

Las presentaciones y los materiales están disponibles en este enlace, incluidas nuestras 6 aportaciones.

En la asamblea de la Comunidad R Hispano que tuvo lugar, se acordó el lugar donde celebrar las siguientes: las IX Jornadas de R Granada, de la mano de José Luis Cañadas Reche. Seguro que van a estar genial. Y las X en Murcia (¡las jornadas X!). Así que tenemos citas en el calendario.

¡¡Ah!! ¡Y molan las pegatinas!. 2016-11-23 13.53.06

De genes, Excel y errores

Si uno trabaja o ha trabajado con hojas de cálculo (dícese Excel o LibreOffice Calc, por citar algunas) es posible que se haya topado alguna vez con la autocorrección.

Si se quiere escribir “1-1-1”, el programa, con las opciones por defecto en español, entenderá que uno se refiere al primer día de enero del año 2001 y le hará el favor de cambiarlo a 01/01/01. Este comportamiento, más allá de que a uno le pueda gustar más o menos, es importante conocerlo al menos.

El pasado 23 de agosto se publicó el artículo Gene name errors are widespread in the scientific literature, Ziemann, Eren, y El-Osta (2016), donde los autores ponen en relieve la cantidad de errores que contienen los nombres de genes publicados en revistas científicas debido a la autocorrección de Excel. Uno de los ejemplos que citan es el caso de SEPT2 (Septin 2) que Excel (en este caso, la versión en inglés) lo convierte a 2 de septiembre o “2-Sep”.

Así que, si nos gusta la autocorrección para algunos casos y no queremos quitarla totalmente en opciones, mucho cuidado con ella.

Referencias

Ziemann, Mark, Yotam Eren, and Assam El-Osta. 2016. “Gene Name Errors Are Widespread in the Scientific Literature.” Genome Biology 17 (1): 177. doi: 10.1186/s13059-016-1044-7.

Taller: Documentos científicos y técnicos de alta calidad: más allá de wysiwyg

noWar

¿Qué es esto?

Presentaremos una metodología sencilla que proporciona documentos de calidad: tipográfica y estructurados. El método, relativamente sencillo, deja al ordenador y sus programas las tareas más rutinarias:

  • gestión de citas y referencias bibliográficas,
  • numeración de tablas y figuras,
  • salidas a distintos formatos (pdf, epub, web, word,. . . )
  • útil para documento cortos, trabajos organizados por capítulos, presentaciones, . . .

¿A quién va dirigido?

A los alumnos de cualquier titulación de la Facultad de Biología, pero puede participar cualquier miembro de la misma. Este taller está destinado preferentemente a alumnos de cuarto, tercer, segundo y primer curso (por ese orden). ¿Cuándo? De cuatro a seis de la tarde la fecha la seleccionas tu: 27 Octubre, 10 ó 15 Noviembre.

Sigue leyendo