Archivos de la categoría Data scientists

Diferencias entre R y Excel o Calc

Si empelas Calc o Excel (o cualquier otra hoja de cálculo), la adaptación para aprender y usar R puede ser difícil. Como explica este post de Gordon Shotwell, una de las razones es que las cosas simples pueden ser más difíciles de hacer en R que Excel. Pero vale la pena perseverar, porque las cosas complejas pueden ser más fáciles.

Dificultad vs. complejidad

Mientras que Excel o Calc es muy bueno cosas como la aritmética y las tabulaciones, el enfoque programático de R introduce conceptos como estructuras de datos, iteración y funciones. Una vez que se ha hecho la inversión en tiempo para aprender R, estas abstracciones hacen que la reducción de tareas complejas en pasos discretos posibles, y la automatización de tareas similares repetidas mucho más fácil.

El banco de Nueva Zelanda sustituye SAS por R

El banco Heartland Bank, de Nueva Zelanda, decidió utilizar técnicas de análisis de datos para evaluar las líneas de crédito, analizar riesgos y comprender los flujos de efectivo.

Comenzaron utilizando el sistema SAS, usual en estos ambientes, pero pronto se dieron cuenta de que este sistema era complicado y consumía mucho tiempo y recursos, sobretodo cuando trataban de actualizar los modelos financieros.

Así, el Heartland Bank reemplazó a SAS por servidores de R y SQL Server, y a adoptó R como su plataforma de análisis de datos. Heartland utiliza ahora R para diferentes procesos como el desarrollo de tarjetas de crédito, el análisis de atrasos y la previsión de inversiones, entre otros.

Además, su uso ha generado una nueva forma de trabajar los datos dentro de la empresa, ahora son los propios empresarios del banco quienes utilizan R para trabajar directamente con los nuevos modelos de datos, en lugar de depender de TI para producir informes. Así los empleados tienen acceso a información en tiempo real.

Pueden ver el artículo completo aquí.

Matemáticas y Machine Learning

Algunas personas cuando oyen hablar de Machine Learning –o aprendizaje automático– comentan que les gustaría aprender pero que no saben si será muy difícil o si se necesitan muchas matemáticas.

Es cierto que para el desarrollo de las técnicas y los algoritmos se utilizan bastantes matemáticas –podemos hacernos una idea con la entrada de blog The Mathematics of Machine Learning— pero tampoco es que haya que tener un conocimiento tan profundo de las “entrañas” para aplicar algo de Machine Learning.

Nosotros, personalmente, estamos más de acuerdo con la entrada The real prerequisite for machine learning isn’t math, it’s data analysis del blog Sharp Sight Labs donde se afirma que

For beginning practitioners (i.e., hackers, coders, software engineers, and people working as data scientists in business and industry) you don’t need to know that much calculus, linear algebra, or other college-level math to get things done.

But you absolutely need to to know data analysis.

Entendiendo data analysis como: obtención y limpieza de los datos, análisis exploratorio o visualización de los datos.

Así que, para los que quieran empezar en esto del análisis de datos y del Machine Learning aquí os dejamos un par de entradas del blog anterior que sirven como introducción.

R supera a SAS en el uso escolar

Una buena forma de analizar el uso de los distintos paquetes de software estadístico es analizar su aparición en artículos escolares. Basándonos en ello, tenemos que durante los últimos 15 años SPSS ha sido el paquete más dominante, y sigue siendolo a finales de 2015, seguramente debido a su equilibrio entre potencia y facilidad de uso. La novedad está en que por primera vez, R se encuentra en el segundo puesto con más de la mitad de artículos, quedando SAS relegado a un tercer lugar.

Estos datos son útiles para analizar la cuota de mercado, pero si queremos ver cómo el uso de los paquetes está cambiando, lo ideal es analizar la tendencia de crecimiento en los dos últimos años para cada uno de los paquetes de análisis de datos. Podemos ver en rojo, aquellos paquetes “calientes” cuyo uso está creciendo, y en azul aquellos que se “están enfriando”.

Observamos que Python es aquel con mayor crecimiento. El segundo y tercer puesto es para los paquetes de código abierto KNIME y RapidMiner, respectivamente. R está en el cuarto lugar, y teniendo en cuenta su segundo lugar en cuota de mercado global, está en una posición envidiable. En el otro extremo de la escala están SPSS y SAS, ambos de los cuales redujeron su uso un 25% o más.

Si analizamos esta tendencia a largo plazo (de 1995 a 2015) observamos que SPSS tiene una clara ventaja, pero ahora se puede ver que su dominio alcanzó su punto máximo en 2008 y que su uso está en fuerte descenso. SAS nunca llegó a nivel de dominio de SPSS, y también alcanzó su punto máximo alrededor de 2008. Esto se equilibra ligeramente con el aumento en el uso del resto de software en general y de R en particular.

Quitando del gráfico las curvas de SAS y SPSS, podemos ver que el crecimiento en el uso de R es bastante rápido y se está alejando de la manada. Si las tendencias actuales continúan, R cruzará SPSS para convertirse en el software #1 para el uso de datos ciencia académica a finales de 2017.

Para dejar aún más claro este punto, repetimos el gráfico anterior aplicando escala logarítmica en el eje y. Esto reduce proporcionalmente los paquetes más populares, que nos permite ver más claro que el uso de R ha pasado al de SAS, y que el uso de Stata se está cerca de hacerlo.

Léase la noticia completa en https://www.r-bloggers.com/r-passes-sas-in-scholarly-use-finally/

Buenas noticias: IBM crea una plataforma de cursos online gratuitos sobre Big Data

En los tiempos que corren es innegable que el conocimiento de las técnicas estadísticas que engloban la disciplina conocida como Big Data, se ha convertido en una herramienta indispensable para la gran mayoría de analistas de datos de la actualidad. La hiper-conectividad del siglo XXI y los grandes avances en materia tecnológica de estos últimos veinte años hacen que la sociedad se esté involucrando, voluntaria o involuntariamente, en una generación continua de datos que están esperando para ser analizados.

Cada vez más, plataformas o empresas propensas a recabar grandes volúmenes de datos, ven necesario disponer de una sección dedicada a aplicar técnicas de Big Data a la información obtenida en pos de un próspero desarrollo. Ejemplos de esto pueden hallarse en ámbitos como el de la sanidad, el transporte, o las redes sociales.

Quizá por este u otros motivos IBM haya decidido subirse al carro del Big Data presentando “Big Data University”, un sitio web educacional que ofrece cursos gratuitos sobre Big Data y bases de datos. Lo más interesante de estos cursos es que incluyen laboratorios prácticos que puede realizar en la nube y que cuenta con una pequeña prueba que si superas recibes un certificado.

Otra de las ventaja de BigDataUniversity.com es que se trata de un sitio manejado por la comunidad de IBMers, que contribuyen voluntariamente al desarrollo de los cursos y a la mejora del sitio web.

Conviértete en un Data Scientist

Nace el Grado en Matemática Aplicada al análisis de datos por la Universidad Europea de Madrid.

En los últimos años han irrumpido en nuestra sociedad términos como el Internet de las Cosas, la industria 4.0, las Smart Cities, y el Big Data. Todos estos términos tienen en común la necesidad del almacenamiento masivo de grandes cantidades de datos en tiempo real y del análisis automático de los mismos con el objetivo de obtener información útil como base en la toma de decisiones a niveles estratégicos. Los ámbitos de aplicación son, además, muy extensos como Salud, Educación, Industria, Energía, y un largo etcétera. Los efectos que está teniendo en los resultados de las organizaciones son tales que en algunos casos se están tomando decisiones de gran nivel basándose únicamente en los resultados de estos procesos automáticos. Un ejemplo de ello son los nuevos seguros de automóviles que están basando el cálculo de las cuotas en los resultados de analizar los datos de la trazabilidad recopilados a través de todos los sensores que hoy en día disponen los automóviles. Es tal la influencia que el análisis de datos está generando en la sociedad y, en particular, en la industria, que ya se habla de la 3º revolución industrial.

El data scientist

Este reto requiere de profesionales que estén bien formados y perfectamente preparados para generar valor en torno a esta gran oportunidad. Un analista de datos tiene que ser capaz de abordar funciones de Explotación, Desarrollo, Diseño y Administración de sistemas de gran volumen de datos, y en un nivel superior, las funciones de Análisis, Arquitectura y Dirección de los mismos. Para ello tiene que dominar las técnicas y herramientas de las matemáticas y la estadística, así como, las técnicas y herramientas software que se utilizan para el almacenamiento de grandes cantidades de datos en tiempo real, para el análisis y procesamiento de los mismos (utilizando modelos predictivos e inteligencia de negocio), así como para la visualización de forma adecuada para mejor entendimiento del encargado de tomar la decisión final.

Una profesión con mucho presente y más futuro Sigue leyendo

Taller: Documentos científicos y técnicos de alta calidad: más allá de WYSIWYG

El día viernes, 13 de Mayo, se celebrará a las 12:00 en el ADLA BUITRE, el taller “Documentos científicos y técnicos de alta calidad: más allá de WYSIWYG”.

Zpala

¿Qué es el “WYSIWYG”?

Las siglas “WYSIWYG” significan “What you see is what you get”, y hacen referencia a todos los editores/procesadores de texto con un tipo de formato que permite escribir un documento viendo directamente el resultado final, frecuentemente el resultado impreso.
Esto, aunque aparentemente parece una ventaja, tiene sus inconvenientes, pues en pos de poder ver lo que será el resultado, el software sacrifica prestaciones, al no poder obtener un manejo absoluto de lo que se está editando.
Un ejemplo de editores/procesadores de texto que no se encuadran dentro de la familia “WYSIWYG” es LaTeX; un sistema de composición de textos, orientado a la creación de documentos escritos que presenten una alta calidad tipográfica. Por sus características y posibilidades, es usado de forma especialmente intensa en la generación de artículos y libros científicos que incluyen, entre otros elementos, expresiones matemáticas.

Los mejores lenguajes de programación 2015

New languages enter the scene, and big data makes its mark

This app ranks top10proglang2015the popularity of dozens of programming languages. You can filter them by listing only those most relevant to particular sectors, such as “Web” or “embedded programming.” Rankings are created by weighting and combining 12 metrics from 10 sources. We offer preset weightings—the default is our IEEE Spectrum ranking—but there are presets for those interested in what’s trending or most looked for by employers. Don’t like the defaults? Take complete control and create your own ranking by adjusting each metric’s weighting yourself. To compare with last year’s data, add a comparison and then choose “edit ranking,” which will give you the option to take data from 2014.

We take a similarly pragmatic approach to how we classify languages into types like “embedded” or “Web.” Placement is based on typical use: For example, we are very impressed by those brave souls who have written Web servers completely in assembly code, but we’re not going to categorize Assembly as a Web development language. (Read more about our method and sources)

Once you’ve had a chance to use the app, let us know your feedback using this quick survey, or leave a comment below.

Leer el post original completoy comentarios en :  spectrum.ieee.org

¿Para qué sirve un matemático?

¿Qué salidas profesionales tiene un matemático? Seguro que si preguntamos en nuestro entorno, nos contestarán: La enseñanza y la investigación.

Es evidente que la enseñanza y la investigación son salidas profesionales para una persona que estudia matemáticas, pero ¿acaso no hay más salidas?

Según el INE en un estudio realizado en el año 2014, la carrera de Matemáticas y Estadística es la que menos paro tiene con un 5,7%.   Pensemos en un país cuya tasa de desempleo fuera del 5,5% ¿Qué pensaríais? Seguramente un economista diría que se acerca al pleno empleo, pues se considera por convenio pleno empleo cuando la tasa de paro baja del 5,5%.

Sigue leyendo

What (Really) is a Data Scientist?

What is a data scientist? What makes for a good (or great!) data scientist? It’s been challenging enough to determine what a data scientist really is (several people have proposed ways to look at this). The Guardian (a UK publication) said, however, that a true data scientist is as “rare as a unicorn”.

I believe that the data scientist “unicorn” is hidden right in front of our faces; the purpose of this post is to help you find it. First, we’ll take a look at some models, and then I’ll present my version of what a data scientist is (and how this person can become “great”).

#1 Drew Conway’s popularData Science Venn Diagram” — created in 2010 — characterizes the data scientist as a person with some combination of skills and expertise in three categories (and preferably, depth in all of them): 1) Hacking, 2) Math and Statistics, and 3) Substantive Expertise (also called “domain knowledge”).  Sigue leyendo