Archivo del Autor: Álvaro Hernández

Vídeo

The Bayesian Trap

Hoy os traemos un interesante vídeo sobre estadística bayesiana del canal Veritasium, que aprovechamos para recomendaros.

IX Jornadas de Usuarios de R. Granada

Web de las IX Jornadas de R en Granada

Web de las IX Jornadas de R en Granada

Ya tenemos anuncio de las IX Jornadas de Usuarios de R, que este año se celebrarán en Granada los días 16 y 17 de noviembre.

La web de las jornadas ya está disponible en la dirección http://r-es.org/9jornadasR donde podéis encontrar toda la información sobre envío de comunicaciones, reservas, programa, etc.

Desde este Servicio os animamos a asistir, ya que, es una muy buena oportunidad de ver cómo utilizan R en otras disciplinas y conocer gente.

Aquí os dejamos el correo que hace unos días envío la Asociación R-Hispano.

La Asociación R-Hispano tiene el placer de anunciar la celebración de las IX Jornadas de Usuarios de R. En esta ocasión, será la Universidad de Granada , en la ETS de Ingenierías Informática y de Telecomunicación, quien acoja las Jornadas los días 16 y 17 de noviembre de 2017.

El objetivo de las Jornadas es proporcionar un punto de encuentro a la diversidad de usuarios de R por lo que, independientemente de la filiación o del área de trabajo o investigación, todo usuario de R es bienvenido.

Como en años anteriores, la presentación de trabajos en las Jornadas puede ser en forma de Presentación oral, en distintas sesiones paralelas, que reflejen el amplio abanico de análisis de datos mediante R, Póster, en una sesión específica, o como un Taller que permita profundizar en aspectos interesantes y menos conocidos de R.

El envío de trabajos ha de hacerse a través de enlace a easychair habilitado en la web del congreso en http://r-es.org/9jornadasR/. En esta edición de las Jornadas también se otorgará un premio al mejor trabajo presentado por un investigador joven (ver bases en la web de las Jornadas).

Finalmente, queremos agradecer la colaboración de nuestros patrocinadores, sin los que las Jornadas no serían posible. Si tú o tu institución estáis interesados en patrocinar las Jornadas puedes consultar cómo hacerlo en http://r-es.org/9jornadasR/.

Las fechas importantes son:

Donald Knuth

Donald Knuth (imagen tomada de Wikipedia)

Quizá a algunos os suene el nombre de Donald Knuth. Uno de los padres de la informática moderna y creador, entre otras cosas, del sistema de tipografía TeX (en el que se basan otros sistemas como LaTeX).

Pues bien, hace unos días se publicó en Magnet (Xataka) una breve entrada sobre él que os recomendamos desde la Sección de Apoyo Estadístico. La entrada no es muy larga pero hace un breve repaso sobre su vida y sus obras más conocidas The Art of Computer Programming y TeX. Además, se cuentan algunas curiosidades y anécdotas interesantes, por lo que se hace una lectura muy amena.

Así que, sin más, aquí os dejamos la entrada. Esperamos que la disfrutéis.

Imagen

Una imagen vale más que mil palabras

Errores tipo I y tipo II

Descripción gráfica. Errores tipo I y tipo II

De genes, Excel y errores

Si uno trabaja o ha trabajado con hojas de cálculo (dícese Excel o LibreOffice Calc, por citar algunas) es posible que se haya topado alguna vez con la autocorrección.

Si se quiere escribir “1-1-1”, el programa, con las opciones por defecto en español, entenderá que uno se refiere al primer día de enero del año 2001 y le hará el favor de cambiarlo a 01/01/01. Este comportamiento, más allá de que a uno le pueda gustar más o menos, es importante conocerlo al menos.

El pasado 23 de agosto se publicó el artículo Gene name errors are widespread in the scientific literature, Ziemann, Eren, y El-Osta (2016), donde los autores ponen en relieve la cantidad de errores que contienen los nombres de genes publicados en revistas científicas debido a la autocorrección de Excel. Uno de los ejemplos que citan es el caso de SEPT2 (Septin 2) que Excel (en este caso, la versión en inglés) lo convierte a 2 de septiembre o “2-Sep”.

Así que, si nos gusta la autocorrección para algunos casos y no queremos quitarla totalmente en opciones, mucho cuidado con ella.

Referencias

Ziemann, Mark, Yotam Eren, and Assam El-Osta. 2016. “Gene Name Errors Are Widespread in the Scientific Literature.” Genome Biology 17 (1): 177. doi: 10.1186/s13059-016-1044-7.

Seminario: Visualización y análisis de escalas Likert

Ant J. Perán en el aula del edificio SACE del SAI

Ant José Peran en el aula del edificio SACE del SAI

El pasado viernes 30 de septiembre tuvo lugar en el Edificio SACE, el seminario “Visualización y análisis de escalas Likert”, presentado por nuestro compañero Antonio José Perán.

Esperamos que sea el primero de una saga de pequeños seminarios sobre paquetes de R y técnicas estadísticas que consideremos interesantes. Las iremos anunciando con más antelación que esta en esta web.

Os dejamos aquí la presentación en pdf: Visualizacion-y-analisis-de-escalas-Likert.pdf

Paquetes para aprendizaje automático en R

El pasado 6 de junio se publicaba en R-bloggers una entrada titulada What are the Best Machine Learning Packages in R? En ella el autor hacía una lista con los paquetes que él considera más importantes para machine learning en R (y que puede hacer que algunos opten por iniciarse por este software).

La lista incluye los paquetes:

  • mice: Multivariate Imputation by Chained Equations. Para completar los valores perdidos o NA de nuestra base de datos.
  • rpart: Recursive Partitioning and Regression Trees. Para realizar árboles de clasificación y regresión.
  • party: A Laboratory for Recursive Partytioning. También sirve para realizar modelos basados en árboles de decisión.
  • caret: Classification And REgression Training. Con este paquete se pretende tener un marco común para utilizar las demás técnicas de Machine learning.
  • randomForest: Breiman and Cutler’s Random Forests for Classification and Regression. Para realizar bosques aleatorios.
  • nnet: Feed-Forward Neural Networks and Multinomial Log-Linear Models. Para realizar redes neuronales.
  • e1071: Misc Functions of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien. Entre otros nos permite realizar modelos de máquinas de soporte de vectores, transformaciones de Fourier, etc.
  • kernlab: Kernel-Based Machine Learning Lab. Implementa algoritmos basados en métodos de Kernel.

En la entrada se puede ver más información y ejemplos de cada paquete.

Matemáticas y Machine Learning

Algunas personas cuando oyen hablar de Machine Learning –o aprendizaje automático– comentan que les gustaría aprender pero que no saben si será muy difícil o si se necesitan muchas matemáticas.

Es cierto que para el desarrollo de las técnicas y los algoritmos se utilizan bastantes matemáticas –podemos hacernos una idea con la entrada de blog The Mathematics of Machine Learning— pero tampoco es que haya que tener un conocimiento tan profundo de las “entrañas” para aplicar algo de Machine Learning.

Nosotros, personalmente, estamos más de acuerdo con la entrada The real prerequisite for machine learning isn’t math, it’s data analysis del blog Sharp Sight Labs donde se afirma que

For beginning practitioners (i.e., hackers, coders, software engineers, and people working as data scientists in business and industry) you don’t need to know that much calculus, linear algebra, or other college-level math to get things done.

But you absolutely need to to know data analysis.

Entendiendo data analysis como: obtención y limpieza de los datos, análisis exploratorio o visualización de los datos.

Así que, para los que quieran empezar en esto del análisis de datos y del Machine Learning aquí os dejamos un par de entradas del blog anterior que sirven como introducción.

Bulgaria solo aceptará software de código abierto

Mapa y bandera de BulgariaDesde el pasado 1 de julio toda empresa que quiera contratar con la administración pública de Bulgaria para el desarrollo, mejora o implementación de programas informáticos tendrá como requisitos:

  1. Que se cumplan los criterios de open source software o software de código abierto,
  2. Que no hay limitaciones de copyright para su uso, modificación y distribución
  3. Y que se desarrolle en un repositorio mantenido por la administración.

Tal y como el autor de esta entrada afirma:

“Esto significa que cualquier software que el gobierno obtenga será visible y accesible para todo el mundo. Después de todo, es pagado con el dinero de los contribuyentes y ellos deberían poder verlo y beneficiarse de él.” De esta manera, todos los programas informáticos que se contraten a partir de ahora estarán disponibles para el público y podrán ser reutilizados y modificados según las necesidades de cada uno, con el ahorro que eso supone para la administración pública.

De esta manera, todos los programas informáticos que se contraten a partir de ahora estarán disponibles para el público y podrán ser reutilizados y modificados según las necesidades de cada uno, con el ahorro que eso supone para la administración pública.

Vía La mirada del replicante y ThePolicy.us.

Elsevier versus Sci-Hub

El pasado lunes 14 de febrero se publicaba en BigThink.com el artículo Meet the Robin Hood of Science contando la historia de Alexandra Elbakyan, una investigadora de Kazajistán, creadora en 2011 del portal Sci-Hub.

“On September 5th, 2011, Alexandra Elbakyan, a researcher from Kazakhstan, created Sci-Hub, a website that bypasses journal paywalls, illegally providing access to nearly every scientific paper ever published immediately to anyone who wants it.”

El año pasado, esto le costó que un juez de Nueva York emitiera una orden preliminar sobre el portal, en vísperas del próximo caso Elsevier vs Sci-Hub.

In a letter to the judge, Elbakyan defended her decision not on legal grounds, but on ethical grounds. Elbakyan writes: “When I was a student in Kazakhstan University, I did not have access to any research papers. These papers I needed for my research project. Payment of 32 dollars is just insane when you need to skim or read tens or hundreds of these papers to do research. I obtained these papers by pirating them. Later I found there are lots and lots of researchers (not even students, but university researchers) just like me, especially in developing countries. They created online communities (forums) to solve this problem. I was an active participant in one of such communities in Russia. Here anyone who needs a research paper, but cannot pay for it, could place a request and other members who can obtain the paper will send it for free by email. I could obtain any paper by pirating it, so I solved many requests and people always were very grateful for my help. After that, I created Sci-Hub.org, a website that simply makes this process automatic and the website immediately became popular.

It is true that Sci-Hub collects donations, however we do not pressure anyone to send them. Elsevier, in contrast, operates by racket: If you do not send money, you will not read any papers. On my website, any person can read as many papers as they want for free, and sending donations is their free will. Why can Elsevier not work like this, I wonder?”

A algunos nos viene a la mente el caso de Aaron Swartz. Para quien no lo conozca y sienta curiosidad recomendamos el documental The Internet’s Own Boy: The Story of Aaron Swartz.

No hay justicia al cumplir leyes injustas. Es hora de salir a la luz y, siguiendo la tradición de la desobediencia civil, oponernos a este robo privado de la cultura pública. Aaron Swartz

También puede leer la entrada de Wikipedia United States v. Swartz, y no podemos dejar de compartir el Guerilla Open Access Manifesto, cuya traducción al español podeis encontrar aquí.

La información es poder. Pero como todo poder, hay quienes quieren mantenerlo para sí mismos. Guerilla Open Acces Manifesto, Aaron Swartz