Archivos de la categoría Software

EIDUM: Procedimientos para la elaboración de informes y documentos científico-técnicos

Prof. Laura del Río

Prof. Laura del Río

En enero comenzará el curso “Procedimientos para la elaboración de informes y documentos científico-técnicos” del programa de la Escuela Internacional de Doctorado de la Universidad de Murcia.

Destinatarios

Para elaborar documentación de carácter técnico es necesario incluir diversos elementos en el texto: índice de contenidos, de figuras y de tablas, datos, referencias cruzadas, citas bibliográficas, etc. La utilización de un adecuado proceso de trabajo y del software recomendable proporciona los mejores resultados y numerosos beneficios, por ejemplo, el ahorro de tiempo, mejor calidad tipográfica y reducción de errores; además, permite introducir elementos y modificaciones en cualquier momento sin requerir una reedición del material ya elaborado.

Además de estas ventajas, cabe añadir la posibilidad de que los documentos, cuando contienen análisis estadísticos, puedan incluir tanto los procedimientos como los resultados de los cálculos realizados. Los documentos así elaborados permiten reproducir los mismos análisis y cálculos únicamente utilizando nuevos datos de entrada; esta forma de trabajar que se demonima investigación reproducible o análisis reproducible.

Estas tareas se pueden abordar desde lenguajes de marcas como markdown, que se ha convertido en un estándar en la elaboración de documentos digitales y que proporciona la posibilidad de crear desde un mismo documento base, distintas versiones en formatos de word, pdf, epub (y otras versiones de documentos electrónicos).

Este curso proporcionará las bases para poder preparar documentos aprovechando al máximo las capacidades de los programas que evitan el trabajo manual y descargando las tareas repetitivas en el ordenador. Estas preparando la tesis doctoral y este es tu curso.

Sigue leyendo

El SAE en las VIII Jornadas de Usuarios de R

Congreso-R-Albacete-2016-GrupoMurcia Este año 2016, los del SAE y algunas personas más pudimos asistir a las VIII Jornadas de R, que esta vez se celebraron en Albacete.

Como siempre, el encuentro fue magnífico. Vimos a viejos amigos y amigas, gente que lleva acudiendo a las jornadas desde las primeras allá por el año 2009 en Murcia, e hicimos nuevos que esperamos seguir viendo en la próximas.

Es curioso constatar cómo cada vez el mundo de R, que hace pocos años era un grupúsculo de “cuasi frikis” o “visionarios”, se va ampliando. Aún así, el ambiente es aún muy familiar; acudieron unas 100 personas. Quien llega nuevo rápidamente se integra y se crea una camaradería que yo no he visto en otras reuniones científicas. Es un “congreso” en el que mucha gente dice “aquí me siento normal”, hartos de ser “el o la rarita de de R”. Es grato encontrar gente con tus aficiones y formas parecidas de entender la ciencia y, como cada vez somos más, pudimos comprobar con la charla de David Ríos Insua (RIMAS) cómo, incluso ministros del estado español, ya tienen acceso a informes hechos con R y Rstudio en LaTeX. Parece sorprendente, ¿no?

Las presentaciones y los materiales están disponibles en este enlace, incluidas nuestras 6 aportaciones.

En la asamblea de la Comunidad R Hispano que tuvo lugar, se acordó el lugar donde celebrar las siguientes: las IX Jornadas de R Granada, de la mano de José Luis Cañadas Reche. Seguro que van a estar genial. Y las X en Murcia (¡las jornadas X!). Así que tenemos citas en el calendario.

¡¡Ah!! ¡Y molan las pegatinas!. 2016-11-23 13.53.06

Taller: Documentos científicos y técnicos de alta calidad: más allá de wysiwyg

noWar

¿Qué es esto?

Presentaremos una metodología sencilla que proporciona documentos de calidad: tipográfica y estructurados. El método, relativamente sencillo, deja al ordenador y sus programas las tareas más rutinarias:

  • gestión de citas y referencias bibliográficas,
  • numeración de tablas y figuras,
  • salidas a distintos formatos (pdf, epub, web, word,. . . )
  • útil para documento cortos, trabajos organizados por capítulos, presentaciones, . . .

¿A quién va dirigido?

A los alumnos de cualquier titulación de la Facultad de Biología, pero puede participar cualquier miembro de la misma. Este taller está destinado preferentemente a alumnos de cuarto, tercer, segundo y primer curso (por ese orden). ¿Cuándo? De cuatro a seis de la tarde la fecha la seleccionas tu: 27 Octubre, 10 ó 15 Noviembre.

Sigue leyendo

Seminario SAE: Consistencia interna en cuestionarios

corrplotMañana (viernes 14/oct) tendrá lugar el en el aula del SACE (12h) el seminario sobre “Consistencia interna en cuestionarios “, que dará Elvira Ferre Jaén, matemática estadística de este servicio.

En la exposición se repasaran diversa técnicas para medir consistencia interna y correlación en cuestionarios.

Actualización: Aquí os dejamos la presentación correlacion-consistencia-interna.pdf

Seminario SAE: El paquete Tables

alvarox Hoy ha tenido lugar el seminario sobre “El paquete tables de R”, que ha dado Álvaro Hernández Vicente. Que facilita mucho la creación de tablas con muchas categorías, cuidando el aspecto, genial para incluir en nuestros informes automáticos de grandes conjuntos de datos.

Os dejamos aquí la presentación en pdf. Paquete-tables-pres.pdf

PSPP reemplazo libre a SPSS

PSPP screenshot

¿Qué es PSPP y por qué usarlo?

Muchos de los cursos introductorios de estadística requieren el uso de algún software de análisis estadístico. La estadística debe y es independiente del software que se emplee, ¿por qué usar un software propietario cuando existe una alternativa libre como PSPP?

PSPP es una aplicación de software libre para el análisis de datos. Se presenta en modo gráfico y está escrita en el lenguaje de programación C. Usa la biblioteca científica GNU para sus rutinas matemáticas, y plotutils para la generación de gráficos. Es un reemplazo libre para el software propietario SPSS y aparentemente muy similar con pequeñas excepciones. Las más importantes son:

  1. La copia de PSPP no expira con el tiempo
  2. Admite alrededor de un billón de casos y un billón de variables.
  3. No hay paquetes adicionales que haya que adquirir con el fin de obtener las funciones “avanzadas”; todas las funcionalidades que PSPP aporta actualmente están en el paquete básico.

Técnicas que implementa

PSPP ofrece muchas transformaciones y utilidades. Entre ellas, cabe destacar la capacidad de realizar:

  • t-tests
  • ANOVA
  • Regresión lineal
  • Regresión logística
  • Análisis de conglomerados
  • Análisis de confiabilidad
  • Análisis factorial
  • Pruebas no paramétricas

Algunas funcionalidades adicionales:

  • Pegar la sintaxis del análisis en ficheros parecidos a los .sps de SPSS.
  • Exportar los resultados a pdf, html, odt, csv, etc.

Enlaces de descarga del PSPP

Sigue leyendo

Seminario: Visualización y análisis de escalas Likert

Ant J. Perán en el aula del edificio SACE del SAI

Ant José Peran en el aula del edificio SACE del SAI

El pasado viernes 30 de septiembre tuvo lugar en el Edificio SACE, el seminario “Visualización y análisis de escalas Likert”, presentado por nuestro compañero Antonio José Perán.

Esperamos que sea el primero de una saga de pequeños seminarios sobre paquetes de R y técnicas estadísticas que consideremos interesantes. Las iremos anunciando con más antelación que esta en esta web.

Os dejamos aquí la presentación en pdf: Visualizacion-y-analisis-de-escalas-Likert.pdf

Paquetes para aprendizaje automático en R

El pasado 6 de junio se publicaba en R-bloggers una entrada titulada What are the Best Machine Learning Packages in R? En ella el autor hacía una lista con los paquetes que él considera más importantes para machine learning en R (y que puede hacer que algunos opten por iniciarse por este software).

La lista incluye los paquetes:

  • mice: Multivariate Imputation by Chained Equations. Para completar los valores perdidos o NA de nuestra base de datos.
  • rpart: Recursive Partitioning and Regression Trees. Para realizar árboles de clasificación y regresión.
  • party: A Laboratory for Recursive Partytioning. También sirve para realizar modelos basados en árboles de decisión.
  • caret: Classification And REgression Training. Con este paquete se pretende tener un marco común para utilizar las demás técnicas de Machine learning.
  • randomForest: Breiman and Cutler’s Random Forests for Classification and Regression. Para realizar bosques aleatorios.
  • nnet: Feed-Forward Neural Networks and Multinomial Log-Linear Models. Para realizar redes neuronales.
  • e1071: Misc Functions of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien. Entre otros nos permite realizar modelos de máquinas de soporte de vectores, transformaciones de Fourier, etc.
  • kernlab: Kernel-Based Machine Learning Lab. Implementa algoritmos basados en métodos de Kernel.

En la entrada se puede ver más información y ejemplos de cada paquete.

Matemáticas y Machine Learning

Algunas personas cuando oyen hablar de Machine Learning –o aprendizaje automático– comentan que les gustaría aprender pero que no saben si será muy difícil o si se necesitan muchas matemáticas.

Es cierto que para el desarrollo de las técnicas y los algoritmos se utilizan bastantes matemáticas –podemos hacernos una idea con la entrada de blog The Mathematics of Machine Learning— pero tampoco es que haya que tener un conocimiento tan profundo de las “entrañas” para aplicar algo de Machine Learning.

Nosotros, personalmente, estamos más de acuerdo con la entrada The real prerequisite for machine learning isn’t math, it’s data analysis del blog Sharp Sight Labs donde se afirma que

For beginning practitioners (i.e., hackers, coders, software engineers, and people working as data scientists in business and industry) you don’t need to know that much calculus, linear algebra, or other college-level math to get things done.

But you absolutely need to to know data analysis.

Entendiendo data analysis como: obtención y limpieza de los datos, análisis exploratorio o visualización de los datos.

Así que, para los que quieran empezar en esto del análisis de datos y del Machine Learning aquí os dejamos un par de entradas del blog anterior que sirven como introducción.

R supera a SAS en el uso escolar

Una buena forma de analizar el uso de los distintos paquetes de software estadístico es analizar su aparición en artículos escolares. Basándonos en ello, tenemos que durante los últimos 15 años SPSS ha sido el paquete más dominante, y sigue siendolo a finales de 2015, seguramente debido a su equilibrio entre potencia y facilidad de uso. La novedad está en que por primera vez, R se encuentra en el segundo puesto con más de la mitad de artículos, quedando SAS relegado a un tercer lugar.

Estos datos son útiles para analizar la cuota de mercado, pero si queremos ver cómo el uso de los paquetes está cambiando, lo ideal es analizar la tendencia de crecimiento en los dos últimos años para cada uno de los paquetes de análisis de datos. Podemos ver en rojo, aquellos paquetes “calientes” cuyo uso está creciendo, y en azul aquellos que se “están enfriando”.

Observamos que Python es aquel con mayor crecimiento. El segundo y tercer puesto es para los paquetes de código abierto KNIME y RapidMiner, respectivamente. R está en el cuarto lugar, y teniendo en cuenta su segundo lugar en cuota de mercado global, está en una posición envidiable. En el otro extremo de la escala están SPSS y SAS, ambos de los cuales redujeron su uso un 25% o más.

Si analizamos esta tendencia a largo plazo (de 1995 a 2015) observamos que SPSS tiene una clara ventaja, pero ahora se puede ver que su dominio alcanzó su punto máximo en 2008 y que su uso está en fuerte descenso. SAS nunca llegó a nivel de dominio de SPSS, y también alcanzó su punto máximo alrededor de 2008. Esto se equilibra ligeramente con el aumento en el uso del resto de software en general y de R en particular.

Quitando del gráfico las curvas de SAS y SPSS, podemos ver que el crecimiento en el uso de R es bastante rápido y se está alejando de la manada. Si las tendencias actuales continúan, R cruzará SPSS para convertirse en el software #1 para el uso de datos ciencia académica a finales de 2017.

Para dejar aún más claro este punto, repetimos el gráfico anterior aplicando escala logarítmica en el eje y. Esto reduce proporcionalmente los paquetes más populares, que nos permite ver más claro que el uso de R ha pasado al de SAS, y que el uso de Stata se está cerca de hacerlo.

Léase la noticia completa en https://www.r-bloggers.com/r-passes-sas-in-scholarly-use-finally/