Paquetes para aprendizaje automático en R

El pasado 6 de junio se publicaba en R-bloggers una entrada titulada What are the Best Machine Learning Packages in R? En ella el autor hacía una lista con los paquetes que él considera más importantes para machine learning en R (y que puede hacer que algunos opten por iniciarse por este software).

La lista incluye los paquetes:

  • mice: Multivariate Imputation by Chained Equations. Para completar los valores perdidos o NA de nuestra base de datos.
  • rpart: Recursive Partitioning and Regression Trees. Para realizar árboles de clasificación y regresión.
  • party: A Laboratory for Recursive Partytioning. También sirve para realizar modelos basados en árboles de decisión.
  • caret: Classification And REgression Training. Con este paquete se pretende tener un marco común para utilizar las demás técnicas de Machine learning.
  • randomForest: Breiman and Cutler’s Random Forests for Classification and Regression. Para realizar bosques aleatorios.
  • nnet: Feed-Forward Neural Networks and Multinomial Log-Linear Models. Para realizar redes neuronales.
  • e1071: Misc Functions of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien. Entre otros nos permite realizar modelos de máquinas de soporte de vectores, transformaciones de Fourier, etc.
  • kernlab: Kernel-Based Machine Learning Lab. Implementa algoritmos basados en métodos de Kernel.

En la entrada se puede ver más información y ejemplos de cada paquete.

Matemáticas y Machine Learning

Algunas personas cuando oyen hablar de Machine Learning –o aprendizaje automático– comentan que les gustaría aprender pero que no saben si será muy difícil o si se necesitan muchas matemáticas.

Es cierto que para el desarrollo de las técnicas y los algoritmos se utilizan bastantes matemáticas –podemos hacernos una idea con la entrada de blog The Mathematics of Machine Learning— pero tampoco es que haya que tener un conocimiento tan profundo de las “entrañas” para aplicar algo de Machine Learning.

Nosotros, personalmente, estamos más de acuerdo con la entrada The real prerequisite for machine learning isn’t math, it’s data analysis del blog Sharp Sight Labs donde se afirma que

For beginning practitioners (i.e., hackers, coders, software engineers, and people working as data scientists in business and industry) you don’t need to know that much calculus, linear algebra, or other college-level math to get things done.

But you absolutely need to to know data analysis.

Entendiendo data analysis como: obtención y limpieza de los datos, análisis exploratorio o visualización de los datos.

Así que, para los que quieran empezar en esto del análisis de datos y del Machine Learning aquí os dejamos un par de entradas del blog anterior que sirven como introducción.

R supera a SAS en el uso escolar

Una buena forma de analizar el uso de los distintos paquetes de software estadístico es analizar su aparición en artículos escolares. Basándonos en ello, tenemos que durante los últimos 15 años SPSS ha sido el paquete más dominante, y sigue siendolo a finales de 2015, seguramente debido a su equilibrio entre potencia y facilidad de uso. La novedad está en que por primera vez, R se encuentra en el segundo puesto con más de la mitad de artículos, quedando SAS relegado a un tercer lugar.

Estos datos son útiles para analizar la cuota de mercado, pero si queremos ver cómo el uso de los paquetes está cambiando, lo ideal es analizar la tendencia de crecimiento en los dos últimos años para cada uno de los paquetes de análisis de datos. Podemos ver en rojo, aquellos paquetes “calientes” cuyo uso está creciendo, y en azul aquellos que se “están enfriando”.

Observamos que Python es aquel con mayor crecimiento. El segundo y tercer puesto es para los paquetes de código abierto KNIME y RapidMiner, respectivamente. R está en el cuarto lugar, y teniendo en cuenta su segundo lugar en cuota de mercado global, está en una posición envidiable. En el otro extremo de la escala están SPSS y SAS, ambos de los cuales redujeron su uso un 25% o más.

Si analizamos esta tendencia a largo plazo (de 1995 a 2015) observamos que SPSS tiene una clara ventaja, pero ahora se puede ver que su dominio alcanzó su punto máximo en 2008 y que su uso está en fuerte descenso. SAS nunca llegó a nivel de dominio de SPSS, y también alcanzó su punto máximo alrededor de 2008. Esto se equilibra ligeramente con el aumento en el uso del resto de software en general y de R en particular.

Quitando del gráfico las curvas de SAS y SPSS, podemos ver que el crecimiento en el uso de R es bastante rápido y se está alejando de la manada. Si las tendencias actuales continúan, R cruzará SPSS para convertirse en el software #1 para el uso de datos ciencia académica a finales de 2017.

Para dejar aún más claro este punto, repetimos el gráfico anterior aplicando escala logarítmica en el eje y. Esto reduce proporcionalmente los paquetes más populares, que nos permite ver más claro que el uso de R ha pasado al de SAS, y que el uso de Stata se está cerca de hacerlo.

Léase la noticia completa en https://www.r-bloggers.com/r-passes-sas-in-scholarly-use-finally/

Buenas noticias: IBM crea una plataforma de cursos online gratuitos sobre Big Data

En los tiempos que corren es innegable que el conocimiento de las técnicas estadísticas que engloban la disciplina conocida como Big Data, se ha convertido en una herramienta indispensable para la gran mayoría de analistas de datos de la actualidad. La hiper-conectividad del siglo XXI y los grandes avances en materia tecnológica de estos últimos veinte años hacen que la sociedad se esté involucrando, voluntaria o involuntariamente, en una generación continua de datos que están esperando para ser analizados.

Cada vez más, plataformas o empresas propensas a recabar grandes volúmenes de datos, ven necesario disponer de una sección dedicada a aplicar técnicas de Big Data a la información obtenida en pos de un próspero desarrollo. Ejemplos de esto pueden hallarse en ámbitos como el de la sanidad, el transporte, o las redes sociales.

Quizá por este u otros motivos IBM haya decidido subirse al carro del Big Data presentando “Big Data University”, un sitio web educacional que ofrece cursos gratuitos sobre Big Data y bases de datos. Lo más interesante de estos cursos es que incluyen laboratorios prácticos que puede realizar en la nube y que cuenta con una pequeña prueba que si superas recibes un certificado.

Otra de las ventaja de BigDataUniversity.com es que se trata de un sitio manejado por la comunidad de IBMers, que contribuyen voluntariamente al desarrollo de los cursos y a la mejora del sitio web.

Crecen las demandas a Microsoft

Microsoft denunciado por forzar a los usuarios a actualizar su sistema operativo a la que se ha convertido su versión más polémica, Windows 10.

El pasado 31 de julio acabó el plazo para actualizar Windows 10 de manera gratuita, teniendo que pagar a partir de entonces un mínimo de 120€ para contar con la versión Home. A causa de ello, el durante todo el mes de julio, Microsoft se dedicó a recordar incesantemente a sus usuarios que podían actualizar de manera gratuita a Windows 10, llegando incluso a mostrar una imagen a pantalla completa para recordarlo.

Sin embargo este “aviso” le está saliendo bastante caro…Varios usuarios de Windows han demandado a Microsoft en Florida por mostrar este mensaje a pantalla completa, pues según ellos, este anuncio viola las leyes sobre anuncios electrónicos no solicitados, además de ser publicidad desleal.

Pero esto no es nuevo, hace unos meses ya vimos como Teri Goldstein, propietaria de una agencia de viajes en California, EE.UU., denunció a Microsoft alegando que un día su ordenador, sin aviso previo y sin pedir permiso, comenzó a actualizarse a Windows 10. Durante la actualización el ordenador que controlaba su negocio se convirtió en una tortuga, pero lo peor fue cuando la actualización falló y dejó el ordenador inservible. Un tribunal le dió la razón condenando a Microsoft a una multa de 10.000 euros.

Microsoft parece arrepentirse de la decisión de pagar a la mujer sin ir a juicio, ya que a esta denuncia se han sumando la de otros usuarios que afirman el mismo problema. Concretamente, en Haifa, Israel, un grupo de usuarios han interpuesto una demanda conjunta por haber forzado la actualización a Windows 10, lo cual viola la ley de ordenadores de Israel.

Ahora Microsoft afirma que irá a juicio en todos los futuros casos, para evitar así que los usuarios se animen en masa a demandarles. Alega además que no tiene ningún miedo y que están seguros de que van a ganar el juicio, ya que, según ellos, las demandas no tienen fundamento.

Nosotros nos preguntamos…si no tienen fundamento ¿por qué se dieron tanta prisa por pagar a la mujer que los denunció en un primer caso y decidió pagarle 10.000 para evitar tener que ir a juicio?

Artículo de referencia: http://www.adslzone.net/2016/07/28/microsoft-vuelve-denunciada-forzar-actualizaciones-windows-10/

Conviértete en un Data Scientist

Nace el Grado en Matemática Aplicada al análisis de datos por la Universidad Europea de Madrid.

En los últimos años han irrumpido en nuestra sociedad términos como el Internet de las Cosas, la industria 4.0, las Smart Cities, y el Big Data. Todos estos términos tienen en común la necesidad del almacenamiento masivo de grandes cantidades de datos en tiempo real y del análisis automático de los mismos con el objetivo de obtener información útil como base en la toma de decisiones a niveles estratégicos. Los ámbitos de aplicación son, además, muy extensos como Salud, Educación, Industria, Energía, y un largo etcétera. Los efectos que está teniendo en los resultados de las organizaciones son tales que en algunos casos se están tomando decisiones de gran nivel basándose únicamente en los resultados de estos procesos automáticos. Un ejemplo de ello son los nuevos seguros de automóviles que están basando el cálculo de las cuotas en los resultados de analizar los datos de la trazabilidad recopilados a través de todos los sensores que hoy en día disponen los automóviles. Es tal la influencia que el análisis de datos está generando en la sociedad y, en particular, en la industria, que ya se habla de la 3º revolución industrial.

El data scientist

Este reto requiere de profesionales que estén bien formados y perfectamente preparados para generar valor en torno a esta gran oportunidad. Un analista de datos tiene que ser capaz de abordar funciones de Explotación, Desarrollo, Diseño y Administración de sistemas de gran volumen de datos, y en un nivel superior, las funciones de Análisis, Arquitectura y Dirección de los mismos. Para ello tiene que dominar las técnicas y herramientas de las matemáticas y la estadística, así como, las técnicas y herramientas software que se utilizan para el almacenamiento de grandes cantidades de datos en tiempo real, para el análisis y procesamiento de los mismos (utilizando modelos predictivos e inteligencia de negocio), así como para la visualización de forma adecuada para mejor entendimiento del encargado de tomar la decisión final.

Una profesión con mucho presente y más futuro Sigue leyendo

Bulgaria solo aceptará software de código abierto

Mapa y bandera de BulgariaDesde el pasado 1 de julio toda empresa que quiera contratar con la administración pública de Bulgaria para el desarrollo, mejora o implementación de programas informáticos tendrá como requisitos:

  1. Que se cumplan los criterios de open source software o software de código abierto,
  2. Que no hay limitaciones de copyright para su uso, modificación y distribución
  3. Y que se desarrolle en un repositorio mantenido por la administración.

Tal y como el autor de esta entrada afirma:

“Esto significa que cualquier software que el gobierno obtenga será visible y accesible para todo el mundo. Después de todo, es pagado con el dinero de los contribuyentes y ellos deberían poder verlo y beneficiarse de él.” De esta manera, todos los programas informáticos que se contraten a partir de ahora estarán disponibles para el público y podrán ser reutilizados y modificados según las necesidades de cada uno, con el ahorro que eso supone para la administración pública.

De esta manera, todos los programas informáticos que se contraten a partir de ahora estarán disponibles para el público y podrán ser reutilizados y modificados según las necesidades de cada uno, con el ahorro que eso supone para la administración pública.

Vía La mirada del replicante y ThePolicy.us.

R4U…. Introducción al uso de R en entornos universitarios

R44U

Comienza el curso “Introducción al uso de R en entornos universitarios” al que nosotros denominamos R4U

Este curso plantea un desafío aproximar el uso de R, un lenguaje, a un colectivo diverso como es el del “personal” de la universidad. Es un colectivo diverso en cualquiera de sus dimensiones, la marca es la heterogeneidad tanto en el PDI como en el PAS. Sin embargo, más allá del propio lenguaje está la metodología de trabajo, la gestión de la información, la automatización de procedimientos y tanto la optimización en la gestión del tiempo, como la de los resultados de la comunicación.

Veremos como R forma parte de un sistema de trabajo más amplio que exige ciertos cambios en los modus operandi y una formación continua, este esfuerzo proporciona resultado de distinta naturaleza y plantea preguntas personales relevantes, para conseguir las respuestas vamos a proporcionar elementos de juicio.

¿Qué esperamos del curso?

Estamos seguros de que muchas son las preguntas que los participantes en el taller se plantean y pueden ir desde lo más simple hasta cuestiones mucho más avanzadas ¿Qué es R? ¿R sólo lo usan los estadísticos? ¿Sabiendo ya manejar el programa estadístico X podre cambiarme a R fácilmente? ¿Cuánto cuesta aprender a utilizarlo? ¿Está orientado a un campo del conocimiento específico? ¿Tengo que aprender mucho e invertir mucho tiempo? ¿Hay diferentes niveles de “aprendizaje”? ¿Me compensa el esfuerzo de aprender para el rendimiento que obtendré en mi trabajo? ¿Cómo puedo hacer el análisis estadístico X y que significan sus resultados?

Realizaremos una serie de actividades que nos proporcionaran argumentos para responder a estas y otras preguntas, así, veremos:

  • como utilizar el lenguaje R para resolver problemas simples que nos afectan en el quehacer cotidiano.
  • Como se puede utilizar con fluidez la terminal y manejar la interfaz básica de R con muy poco esfuerzo.
  • Estudiaremos como aprovechar las características los principales elementos de R y su entrono, así como el fundamento de la sintaxis de R.
  • Abordaremos el desafío de elaborar procedimientos básicos de trabajo documentados y reproducibles con R.

Obviamente, el nivel del experiencia previa y las expectativas de uso para cada uno de los distintos participantes puede ser muy distinta, por ello, vamos a empezar desde cero, los más experimentados pueden saltar aquellas propuestas de lectura o actividades que sugerimos en los materiales de trabajo; pero nadie puede “saltarse” las tareas propuestas.

Estamos a vuestra disposición… 00RTeam

La estadística trabaja al servicio de todos los tipos de ciencia

Entrevista a Mathieu Kessler Catedrático de Matemática Aplicada y Estadística de la Universidad Politécnica de Cartagena, por M. J. MORENO (11/06/2016)

En la ciencia, todo lo que se observa son datos: pueden ser el resultado de experimentos, como por ejemplo la concentración de colesterol en un paciente sometido a un tratamiento experimental, o pueden ser lo que se registre en un fenómeno natural, como por ejemplo la temperatura en el contexto del calentamiento global. En base a estos datos los científicos, como Mathieu Kessler, idean teorías o diseñan productos que nos pueden cambiar la vida. Podríamos decir que los datos son las palabras que interpreta el científico para entender la realidad, de ahí la importancia de que se traten de manera adecuada.

¿Qué papel juega la estadística en el desarrollo de investigaciones científicas?

Por una parte, la estadística ayuda a transformar la información bruta de los datos en conocimiento. Permite distinguir lo que es ruido de lo que es significativo y que podría suponer un progreso. En la fase de prueba de un medicamento, por ejemplo, es la estadística la que permite comprobar si el efecto observado en los pacientes es significativo o solamente debido al azar o otras causas (efecto placebo, por ejemplo). Por otra parte, una contribución muy importante de la estadística a la ciencia es que explica cómo hay que diseñar un experimento para evitar que confundamos el efecto observado con otras causas colaterales: si queremos recabar la percepción de consumidores sobre distintos diseños de un producto comercial, tendremos que asegurarnos que los distintos grupos que consideremos para la comparativa tengan una composición parecida en edad, sexo, nivel socio económico etc… Es la estadística que llamó la atención de manera clara sobre estas precauciones básicas que nos pueden parecer muy naturales ‘a posteriori’.

Otras preguntas de la entrevista:

  • Se trata, por tanto, de una rama complementaria a cualquier tipo de ciencia.
  • ¿Hablar de datos o de estadística es hacerlo de métodos 100% objetivos, o cabe la interpretación?
  • En ocasiones es necesario trabajar con datos personales, ¿es posible una total protección del anonimato?
  • ¿Cuánto tiempo lleva desarrollar un análisis de datos de calidad?
  • ¿Cómo han influido los avances en computación a este respecto?
  • No se tratan igual los datos relacionados con política que con la medicina u otras disciplinas, ¿con qué dificultades se encuentran a la hora de trabajar para obtener resultados óptimos?
  • ¿Existe algún sector en el que les resulte más complicado investigar o en el que directamente sea imposible hacerlo?

Entrevista completa en http://ababol.laverdad.es

Código binario para zafarnos del sol

Hace unos días que las ventanas de la Sección de Apoyo Estadístico (SAE) del SAI de la Universidad de Murcia visten un aspecto distinto. Y es que, a causa del fuerte sol que entra cada mañana, sobretodo en época estival, se hace imposible ver bien las pantallas de los monitores.

Debido a esto, decidimos cubrir las ventanas del despacho para evitar así la entrada total de luz.

Al principio tuvimos bastantes ideas, pero finalmente, optamos por la que mataba dos pájaros de un tiro. Diseñaríamos unos carteles que, por un lado, evitarían la entrada de luz, lo que era el propósito principal, y por otro, decorarían el aspecto exterior de las ventanas del despacho, dándonos así un ligero signo de identidad sin alterar la apariencia del edificio.

El diseño de los carteles consiste en secuencias de ceros y unos que en realidad son frases de personajes célebres que nos despiertan una admiración particular.

fachada-sae-binario

Pasamos, pues, a detallar todo el proceso:

Partimos de un texto en claro: por ejemplo, un consejo que da nuestro queridísimo hidalgo Don Quijote de la Mancha a su fiel escudero Sancho Panza,

“Sábete Sancho, que no es un hombre más que otro, si no hace más que otro.”

Ciframos el texto: Para ello, usamos el estándar de cifrado simétrico AES, también conocido como Rijndael, diseñado a finales de la década de los años 90 por los criptólogos belgas Joan Daemen y Vincent Rijmen. Este algoritmo fue el elegido como ganador en un concurso emitido por el Instituto Nacional de Normas y Tecnología (NIST) con motivo de encontrar un método de cifrado capaz de proteger información sensible durante el siglo XXI y fue adoptado como un estándar de cifrado por el gobierno de los Estados Unidos. Entonces, cifrando el texto anterior usando como clave la expresión “gaudeamus igitur”, obtenemos la secuencia de números expresados en base hexadecimal siguiente:

ce b9 da cd 10 5c ec a0 e0 91 8e 2d 4d 13 64 94 0c bc 38 8c b9 3b de c6 1a 74 94 7c 6b d6 6d 08 45 57 e8 cb b1 cb 7e 50 c0 c4 ee 84 fd 4a 63 34 3e 0d d5 82 ef 46 9d 9f bd 21 ed b4 77 ba b9 7b 9a 8d 2e 37 aa 8a a8 25 22 de fe a8 5c 67 38 72

Pasamos a binario: Finalmente, tomamos la secuencia numérica anterior y mediante el software libre de álgebra computacional SAGE, representamos cada número hexadecimal mediante una cadena de 8 ceros o unos, lo que en informática se conoce como un byte obteniendo:

binario-sancho-blog

Maquetamos para impresión: Por último, utilizando el editor gráfico vectorial Inkscape, ajustamos el texto a las dimensiones adecuadas para imprimirlo modificando el tamaño de letra, el interlineado y la separación entre palabras y sílabas. En este caso, puesto que el objetivo ha sido ponerlo en unas ventanas, lo hemos generado con unas dimensiones de 90cm por 179cm, tamaño de letra 150 y tipo de letra Courier 10 Pitch obteniendo la imagen que vemos arriba.

Las citas que aparecen en los carteles son:

  • Santiago Ramón y Cajal, (1852): “Todo hombre puede ser, si se lo propone, escultor de su propio cerebro”.
  • Radiohead, OK Computer, (1997): “Karma Police, arrest this man, he talks in maths, he buzzes like a fridge, he’s like a detuned radio”.
  • Marie Curie, (1867): “En la vida no hay cosas que temer, solo hay cosas que comprender”
  • Miguel de Cervantes, (1547): “Sábete Sancho, que no es un hombre más que otro, si no hace más que otro”.
  • Euclides, (325 a.C.): “Lo que es afirmado sin prueba puede ser negado sin prueba.”
  • Antoine de Saint-Exupery, El principito, (1900): “He aquí mi secreto, que no puede ser más simple: solo con el corazón se puede ver bien; lo esencial es invisible a los ojos,…”

Agradecemos a la Sección de Análisis de Imagen del SAI de la Universidad de Murcia, María García y Antonio Hernández, su ayuda con la impresión de los pósteres.