Archivos de la categoría Noticia

EIDUM: Introduccción a R y Rstudio para el análisis de datos

aurora-ant

Carga del curso

Número de horas de dedicación del estudiante:

  • Actividad presenciales (talleres): 12 horas (3 talleres de 4h)
  • Actividad personal: 18 horas

Destinatarios

Este curso va dirigido a los investigadores que requieren de herramientas para la manipulación de datos o han de utilizar métodos de análisis de datos. Esencialmente es un curso básico del lenguaje estadístico R y sus capacidades para manejar información cuantitativa y cualitativa, representación de datos y una introducción al uso de su amplísimo catálogo de funciones, que en la actualidad supera de largo el millón y medio. Entender los procedimientos de trabajo de los programas estadísticos y la metodología para preparar los datos y desarrollar protocolos de trabajo es uno de los aspectos básicos en la formación de un doctorando, si no posees estos conocimientos este curso es para ti; también, si sólo necesitas realizar tareas repetitivas para procesar información preparando tablas o gráficos. Es muy aconsejable haber realizado previamente el curso de Procedimientos para la elaboración de informes y documentos científico-técnicos, en su defecto conocer la elaboración de textos con rmarkdown.

Competencias

  • Utilizar con fluidez la terminal y manejar la interfaz básica de R.
  • Aprovechar las características los principales elementos, así como el fundamento, de la sintaxis de R.
  • Elaborar procedimientos básico de trabajo con R.
  • Resolver los problemas derivados de los mensajes de error del sistema.
  • Aprovechar las capacidades de R para generar documentos de investigación reproducible.

Resultados de aprendizaje

Ser capaz de instalar y utilizar el software libre R y Rstudio Disponer de procedimientos de trabajo para abordar el análisis para un conjunto de datos Saber elaborar procedimientos básicos para el tratamiento de datos Ser capaz de aplicar protocolos predefinidos de análisis con R Saber reutilizar protocolos conocidos o parte de ellos para resolver nuevos problemas Elaborar informes reproducibles

Evaluación

Para la superación del curso se exigirá:

  • la asistencia a las sesiones presenciales que son obligatorias
  • la cumplimentación del cuestionario de satisfacción del curso
  • la realización y entrega de las tareas requeridas, tal como se indica a continuación

El curso es semipresencial, al trabajo en las sesiones presenciales ha de sumarse el realizado por los alumnos siguiendo las indicaciones que se detallan en el aula virtual; estas se inician antes de las sesiones presenciales. En cada sesión se propondrán diversos ejercicios, que se discutirán y resolverán in situ, y se planteará una tarea previa a la siguiente sesión que se entregará en el aula virtual. Además, existe una tarea final del curso con fecha límite de una semana tras la realización de la última sesión presencial.

Agenda del curso

Todas las sesiones del curso, se realizarán durante el año 2017. El horario de los grupos 1 y 2 es de 16:00 a 20:00, el grupo 3 tiene horario de mañana, 9:30 a 13:00. En cada una de ellas habrá un descanso de 20 minutos, la duración total es de 4 horas.

calendario

El SAE en las VIII Jornadas de Usuarios de R

Congreso-R-Albacete-2016-GrupoMurcia Este año 2016, los del SAE y algunas personas más pudimos asistir a las VIII Jornadas de R, que esta vez se celebraron en Albacete.

Como siempre, el encuentro fue magnífico. Vimos a viejos amigos y amigas, gente que lleva acudiendo a las jornadas desde las primeras allá por el año 2009 en Murcia, e hicimos nuevos que esperamos seguir viendo en la próximas.

Es curioso constatar cómo cada vez el mundo de R, que hace pocos años era un grupúsculo de “cuasi frikis” o “visionarios”, se va ampliando. Aún así, el ambiente es aún muy familiar; acudieron unas 100 personas. Quien llega nuevo rápidamente se integra y se crea una camaradería que yo no he visto en otras reuniones científicas. Es un “congreso” en el que mucha gente dice “aquí me siento normal”, hartos de ser “el o la rarita de de R”. Es grato encontrar gente con tus aficiones y formas parecidas de entender la ciencia y, como cada vez somos más, pudimos comprobar con la charla de David Ríos Insua (RIMAS) cómo, incluso ministros del estado español, ya tienen acceso a informes hechos con R y Rstudio en LaTeX. Parece sorprendente, ¿no?

Las presentaciones y los materiales están disponibles en este enlace, incluidas nuestras 6 aportaciones.

En la asamblea de la Comunidad R Hispano que tuvo lugar, se acordó el lugar donde celebrar las siguientes: las IX Jornadas de R Granada, de la mano de José Luis Cañadas Reche. Seguro que van a estar genial. Y las X en Murcia (¡las jornadas X!). Así que tenemos citas en el calendario.

¡¡Ah!! ¡Y molan las pegatinas!. 2016-11-23 13.53.06

De genes, Excel y errores

Si uno trabaja o ha trabajado con hojas de cálculo (dícese Excel o LibreOffice Calc, por citar algunas) es posible que se haya topado alguna vez con la autocorrección.

Si se quiere escribir “1-1-1”, el programa, con las opciones por defecto en español, entenderá que uno se refiere al primer día de enero del año 2001 y le hará el favor de cambiarlo a 01/01/01. Este comportamiento, más allá de que a uno le pueda gustar más o menos, es importante conocerlo al menos.

El pasado 23 de agosto se publicó el artículo Gene name errors are widespread in the scientific literature, Ziemann, Eren, y El-Osta (2016), donde los autores ponen en relieve la cantidad de errores que contienen los nombres de genes publicados en revistas científicas debido a la autocorrección de Excel. Uno de los ejemplos que citan es el caso de SEPT2 (Septin 2) que Excel (en este caso, la versión en inglés) lo convierte a 2 de septiembre o “2-Sep”.

Así que, si nos gusta la autocorrección para algunos casos y no queremos quitarla totalmente en opciones, mucho cuidado con ella.

Referencias

Ziemann, Mark, Yotam Eren, and Assam El-Osta. 2016. “Gene Name Errors Are Widespread in the Scientific Literature.” Genome Biology 17 (1): 177. doi: 10.1186/s13059-016-1044-7.

Seminario SAE: El paquete Tables

alvarox Hoy ha tenido lugar el seminario sobre “El paquete tables de R”, que ha dado Álvaro Hernández Vicente. Que facilita mucho la creación de tablas con muchas categorías, cuidando el aspecto, genial para incluir en nuestros informes automáticos de grandes conjuntos de datos.

Os dejamos aquí la presentación en pdf. Paquete-tables-pres.pdf

PSPP reemplazo libre a SPSS

PSPP screenshot

¿Qué es PSPP y por qué usarlo?

Muchos de los cursos introductorios de estadística requieren el uso de algún software de análisis estadístico. La estadística debe y es independiente del software que se emplee, ¿por qué usar un software propietario cuando existe una alternativa libre como PSPP?

PSPP es una aplicación de software libre para el análisis de datos. Se presenta en modo gráfico y está escrita en el lenguaje de programación C. Usa la biblioteca científica GNU para sus rutinas matemáticas, y plotutils para la generación de gráficos. Es un reemplazo libre para el software propietario SPSS y aparentemente muy similar con pequeñas excepciones. Las más importantes son:

  1. La copia de PSPP no expira con el tiempo
  2. Admite alrededor de un billón de casos y un billón de variables.
  3. No hay paquetes adicionales que haya que adquirir con el fin de obtener las funciones “avanzadas”; todas las funcionalidades que PSPP aporta actualmente están en el paquete básico.

Técnicas que implementa

PSPP ofrece muchas transformaciones y utilidades. Entre ellas, cabe destacar la capacidad de realizar:

  • t-tests
  • ANOVA
  • Regresión lineal
  • Regresión logística
  • Análisis de conglomerados
  • Análisis de confiabilidad
  • Análisis factorial
  • Pruebas no paramétricas

Algunas funcionalidades adicionales:

  • Pegar la sintaxis del análisis en ficheros parecidos a los .sps de SPSS.
  • Exportar los resultados a pdf, html, odt, csv, etc.

Enlaces de descarga del PSPP

Sigue leyendo

R supera a SAS en el uso escolar

Una buena forma de analizar el uso de los distintos paquetes de software estadístico es analizar su aparición en artículos escolares. Basándonos en ello, tenemos que durante los últimos 15 años SPSS ha sido el paquete más dominante, y sigue siendolo a finales de 2015, seguramente debido a su equilibrio entre potencia y facilidad de uso. La novedad está en que por primera vez, R se encuentra en el segundo puesto con más de la mitad de artículos, quedando SAS relegado a un tercer lugar.

Estos datos son útiles para analizar la cuota de mercado, pero si queremos ver cómo el uso de los paquetes está cambiando, lo ideal es analizar la tendencia de crecimiento en los dos últimos años para cada uno de los paquetes de análisis de datos. Podemos ver en rojo, aquellos paquetes “calientes” cuyo uso está creciendo, y en azul aquellos que se “están enfriando”.

Observamos que Python es aquel con mayor crecimiento. El segundo y tercer puesto es para los paquetes de código abierto KNIME y RapidMiner, respectivamente. R está en el cuarto lugar, y teniendo en cuenta su segundo lugar en cuota de mercado global, está en una posición envidiable. En el otro extremo de la escala están SPSS y SAS, ambos de los cuales redujeron su uso un 25% o más.

Si analizamos esta tendencia a largo plazo (de 1995 a 2015) observamos que SPSS tiene una clara ventaja, pero ahora se puede ver que su dominio alcanzó su punto máximo en 2008 y que su uso está en fuerte descenso. SAS nunca llegó a nivel de dominio de SPSS, y también alcanzó su punto máximo alrededor de 2008. Esto se equilibra ligeramente con el aumento en el uso del resto de software en general y de R en particular.

Quitando del gráfico las curvas de SAS y SPSS, podemos ver que el crecimiento en el uso de R es bastante rápido y se está alejando de la manada. Si las tendencias actuales continúan, R cruzará SPSS para convertirse en el software #1 para el uso de datos ciencia académica a finales de 2017.

Para dejar aún más claro este punto, repetimos el gráfico anterior aplicando escala logarítmica en el eje y. Esto reduce proporcionalmente los paquetes más populares, que nos permite ver más claro que el uso de R ha pasado al de SAS, y que el uso de Stata se está cerca de hacerlo.

Léase la noticia completa en https://www.r-bloggers.com/r-passes-sas-in-scholarly-use-finally/

Buenas noticias: IBM crea una plataforma de cursos online gratuitos sobre Big Data

En los tiempos que corren es innegable que el conocimiento de las técnicas estadísticas que engloban la disciplina conocida como Big Data, se ha convertido en una herramienta indispensable para la gran mayoría de analistas de datos de la actualidad. La hiper-conectividad del siglo XXI y los grandes avances en materia tecnológica de estos últimos veinte años hacen que la sociedad se esté involucrando, voluntaria o involuntariamente, en una generación continua de datos que están esperando para ser analizados.

Cada vez más, plataformas o empresas propensas a recabar grandes volúmenes de datos, ven necesario disponer de una sección dedicada a aplicar técnicas de Big Data a la información obtenida en pos de un próspero desarrollo. Ejemplos de esto pueden hallarse en ámbitos como el de la sanidad, el transporte, o las redes sociales.

Quizá por este u otros motivos IBM haya decidido subirse al carro del Big Data presentando “Big Data University”, un sitio web educacional que ofrece cursos gratuitos sobre Big Data y bases de datos. Lo más interesante de estos cursos es que incluyen laboratorios prácticos que puede realizar en la nube y que cuenta con una pequeña prueba que si superas recibes un certificado.

Otra de las ventaja de BigDataUniversity.com es que se trata de un sitio manejado por la comunidad de IBMers, que contribuyen voluntariamente al desarrollo de los cursos y a la mejora del sitio web.

Crecen las demandas a Microsoft

Microsoft denunciado por forzar a los usuarios a actualizar su sistema operativo a la que se ha convertido su versión más polémica, Windows 10.

El pasado 31 de julio acabó el plazo para actualizar Windows 10 de manera gratuita, teniendo que pagar a partir de entonces un mínimo de 120€ para contar con la versión Home. A causa de ello, el durante todo el mes de julio, Microsoft se dedicó a recordar incesantemente a sus usuarios que podían actualizar de manera gratuita a Windows 10, llegando incluso a mostrar una imagen a pantalla completa para recordarlo.

Sin embargo este “aviso” le está saliendo bastante caro…Varios usuarios de Windows han demandado a Microsoft en Florida por mostrar este mensaje a pantalla completa, pues según ellos, este anuncio viola las leyes sobre anuncios electrónicos no solicitados, además de ser publicidad desleal.

Pero esto no es nuevo, hace unos meses ya vimos como Teri Goldstein, propietaria de una agencia de viajes en California, EE.UU., denunció a Microsoft alegando que un día su ordenador, sin aviso previo y sin pedir permiso, comenzó a actualizarse a Windows 10. Durante la actualización el ordenador que controlaba su negocio se convirtió en una tortuga, pero lo peor fue cuando la actualización falló y dejó el ordenador inservible. Un tribunal le dió la razón condenando a Microsoft a una multa de 10.000 euros.

Microsoft parece arrepentirse de la decisión de pagar a la mujer sin ir a juicio, ya que a esta denuncia se han sumando la de otros usuarios que afirman el mismo problema. Concretamente, en Haifa, Israel, un grupo de usuarios han interpuesto una demanda conjunta por haber forzado la actualización a Windows 10, lo cual viola la ley de ordenadores de Israel.

Ahora Microsoft afirma que irá a juicio en todos los futuros casos, para evitar así que los usuarios se animen en masa a demandarles. Alega además que no tiene ningún miedo y que están seguros de que van a ganar el juicio, ya que, según ellos, las demandas no tienen fundamento.

Nosotros nos preguntamos…si no tienen fundamento ¿por qué se dieron tanta prisa por pagar a la mujer que los denunció en un primer caso y decidió pagarle 10.000 para evitar tener que ir a juicio?

Artículo de referencia: http://www.adslzone.net/2016/07/28/microsoft-vuelve-denunciada-forzar-actualizaciones-windows-10/

Conviértete en un Data Scientist

Nace el Grado en Matemática Aplicada al análisis de datos por la Universidad Europea de Madrid.

En los últimos años han irrumpido en nuestra sociedad términos como el Internet de las Cosas, la industria 4.0, las Smart Cities, y el Big Data. Todos estos términos tienen en común la necesidad del almacenamiento masivo de grandes cantidades de datos en tiempo real y del análisis automático de los mismos con el objetivo de obtener información útil como base en la toma de decisiones a niveles estratégicos. Los ámbitos de aplicación son, además, muy extensos como Salud, Educación, Industria, Energía, y un largo etcétera. Los efectos que está teniendo en los resultados de las organizaciones son tales que en algunos casos se están tomando decisiones de gran nivel basándose únicamente en los resultados de estos procesos automáticos. Un ejemplo de ello son los nuevos seguros de automóviles que están basando el cálculo de las cuotas en los resultados de analizar los datos de la trazabilidad recopilados a través de todos los sensores que hoy en día disponen los automóviles. Es tal la influencia que el análisis de datos está generando en la sociedad y, en particular, en la industria, que ya se habla de la 3º revolución industrial.

El data scientist

Este reto requiere de profesionales que estén bien formados y perfectamente preparados para generar valor en torno a esta gran oportunidad. Un analista de datos tiene que ser capaz de abordar funciones de Explotación, Desarrollo, Diseño y Administración de sistemas de gran volumen de datos, y en un nivel superior, las funciones de Análisis, Arquitectura y Dirección de los mismos. Para ello tiene que dominar las técnicas y herramientas de las matemáticas y la estadística, así como, las técnicas y herramientas software que se utilizan para el almacenamiento de grandes cantidades de datos en tiempo real, para el análisis y procesamiento de los mismos (utilizando modelos predictivos e inteligencia de negocio), así como para la visualización de forma adecuada para mejor entendimiento del encargado de tomar la decisión final.

Una profesión con mucho presente y más futuro Sigue leyendo

Bulgaria solo aceptará software de código abierto

Mapa y bandera de BulgariaDesde el pasado 1 de julio toda empresa que quiera contratar con la administración pública de Bulgaria para el desarrollo, mejora o implementación de programas informáticos tendrá como requisitos:

  1. Que se cumplan los criterios de open source software o software de código abierto,
  2. Que no hay limitaciones de copyright para su uso, modificación y distribución
  3. Y que se desarrolle en un repositorio mantenido por la administración.

Tal y como el autor de esta entrada afirma:

“Esto significa que cualquier software que el gobierno obtenga será visible y accesible para todo el mundo. Después de todo, es pagado con el dinero de los contribuyentes y ellos deberían poder verlo y beneficiarse de él.” De esta manera, todos los programas informáticos que se contraten a partir de ahora estarán disponibles para el público y podrán ser reutilizados y modificados según las necesidades de cada uno, con el ahorro que eso supone para la administración pública.

De esta manera, todos los programas informáticos que se contraten a partir de ahora estarán disponibles para el público y podrán ser reutilizados y modificados según las necesidades de cada uno, con el ahorro que eso supone para la administración pública.

Vía La mirada del replicante y ThePolicy.us.