Cambios…para bien: libeRtad

SÍ, de eso va esta entrada, de anunciar cambios…cambios en el blog, cambios que van de la mano de la libeRtad.

Supongo que, como los pintores, los autores de blogs también tenemos licencia para proyectar en nuestros escritos las etapas que vamos viviendo, y cuando los cambios son para bien, como es el caso, pues mucho mejor todavía.

La palabra que mejor describe esta etapa es “libeRtad”. Vengo cocinando cambios importantes en mi forma de trabajar: desde hace algún tiempo estoy desempolvando técnicas cuantitativas, “revisitando” parte de lo aprendido a principios de los 90; este año 2015 me he propuesto consolidar ese cambio (esto último parece una proclama de Podemos).

Trillando esa libeRtad, el colega Rafael Cámara me habló de R, y tal como se define en su página oficial es “un lenguaje de programación y, a la vez, un ambiente de análisis estadístico y apoyo gráfico” (para mí es más que eso, porque es una solución robusta en análisis espacial). Este programa literalmente, me sedujo, hasta el punto que hoy “evangelizo” con él. Mi alumnado ha tenido que “sufrirlo”, pero creo que, en el fondo (quizá muy en el fondo), me lo agradecen. También ha irrumpido con mucha fuerza en la vida de mis colegas más cercanos; ahora saben que todo estudio que nos planteemos pasará, tarde o temprano, por las entrañas de R.

Logo de R

Logo de R

¿Por qué usar R? Razones sobran, pero 2 son las más importantes (parafraseando a Revolution Analytics):

  1. Está diseñado para análisis estadístico, usando pocas líneas de código.
  2. Es de código abierto, gratuito y multiplataforma, por lo que es mejorado y expandido por una activa comunidad de usuarios y se ejecuta en los sistemas operativos más comunes.
Muestra de la página de bienvenida de r-project.org

Muestra de la página de bienvenida de r-project.org

La instalación es sencilla y breve, y se hace desde la página oficial r-project.org; se desaconsejan fuentes comerciales como Softonic, que terminan llenando nuestras PC de software indeseado. El resultado, tras finalizar la instalación y ejecutarlo, no es “sexy”, pero sí potente: una consola de comandos capaz de hacer lo que le programemos. Aquí una muestra:

Muestra de la consola de R

Muestra de la consola de R

Pero si esto no parece suficiente, invito a leer estas “apologías” en las que hay cierto consenso:

La pregunta que sigue es: ¿qué tanto puede ayudarnos en geografía física una “simple consola”? Aunque no lo parezca, contribuye a responder preguntas de investigación, sobre todo en estudios de procesos:

  • ¿Se detectan cambios en un deslizamiento con datos tomados desde fotografías aéreas de distintas fechas?
  • ¿Cómo resumo, gráficamente, miles de mediciones de gravas? ¿Hay diferencias significativas entre los muestreos del tramo medio y el bajo en cuanto a tamaño?
  • Tengo datos de 5,000 individuos de más de 200 especies de plantas, ¿cómo mido la biodiversidad? ¿cómo ordeno las comunidades representadas?
  • ¿Está aumentando la temperatura promedio? ¿Están disminuyendo las precipitaciones?
  • ¿Puedo generar, por geoestadística, una superficie continua de la temperatura y la precipitación a partir de datos discretos?
  • ¿Hay evidencia de una captura fluvial analizando mediciones y tipologías de clastos?
  • ¿Son muy diferentes entre sí dos aluvionamientos?
  • Hice un análisis para una muestra pequeña, pero ahora es 10 veces más grande. ¿Puedo repetirlo con el mismo código?
  • ¿Que litologías se correlacionan con la mayor biodiversidad florística? ¿Hay correspondencia entre sustratos o relieves y especies de flora?
  • ¿Estamos identificando adecuadamente la tipología litológica de las gravas de río? ¿Salta la alarma cuando lo hacemos mal?
  • ¿Hay tendencia significativa a pérdida de bosque? ¿Cuánto se está perdiendo?
  • ¿Responde la abundancia de este bosque a un modelo logarítmico o geométrico? ¿A qué lo vinculamos? ¿Puedo generar un modelo de abundancia para 50 muestreos simultáneamente? ¿Puedo calcularle 24 índices de diversidad beta a esos mismos muestreos sin hacer mucho esfuerzo?
  • …y mucho más.

Aclarar que no es un oráculo, no trabaja solo, y de ahí que se necesiten preguntas de investigación bien planteadas, diseños metodológicos adecuados, muchos datos y una elección efectiva de las técnicas a emplear. En definitiva, nuestra intervención debe ser permanente y hay que tomar las debidas precauciones. R exige mayor reflexión antes de ejecutar un análisis; rompe con la cultura de “apretar botones”, que a veces aporta resultados banales.

Relevante también es el hecho de que este aliado favorece la replicabilidad de los análisis, de manera que, para estudios pequeños, cualquier persona con una PC común puede reproducir resultados. Últimamente, en varias revistas científicas, se ha generado un intenso debate sobre este tema y, sin duda, R tiene mucho que aportar.

En este proceso he contado con el personal del área de investigación del Instituto Geográfico Universitario (IGU) de la UASD, quienes han producido un gran volumen de datos y están generando conocimiento con ellos (hemos contado también con el apoyo de otras personas en el IGU y, en general, en la UASD). A la fecha llevamos más de 10 presentaciones en congresos nacionales de resultados preliminares de uno de los proyectos de investigación que nos financia el FONDOCyT, que tratan todas sobre la geografía física de la cuenca del río Ocoa; este año nos abocamos a presentar varias publicaciones científicas. Con los datos y técnicas disponibles, podríamos escribir 30 estudios, pero no tenemos el tiempo suficiente; una cifra más realista es 12 durante el primer semestre (que todavía es mucho), y más adelante completaríamos el resto. Los análisis estadísticos, y la mayoría de los espaciales, se han hecho y se harán con R.

Añado que la UASD y el Ministerio de Educación Superior, Ciencia y Tecnología (MESCyT), están invirtiendo lo que pagamos en impuestos para que se haga ciencia. Se podría dar más apoyo, sin duda, pero al menos hay algo que antes no teníamos: profesorado investigador y subvenciones para proyectos. Ahora bien, el trabajo no ha estado exento de dificultades, sobre todo en términos logísticos y de gestión; no voy a escribir sobre ello ahora, porque da para mucho y desviaría la atención del tema central de esta entrada, por lo que prefiero dejarlo para una publicación futura.

Los datos siguen siendo la fuente primordial para la producción del conocimiento científico. Las técnicas estadísticas están evolucionando con gran rapidez; hoy conviven las clásicas con las modernas, pero la mayoría se pueden implementar en R. Si queremos aplicar múltiples análisis estadísticos de manera simultánea a un gran volumen de datos, el medio indicado es R. Su pronunciada curva de aprendizaje se compensa rápidamente con la precisión de sus resultados.

No se trata de una guerra contra el software comercial; la producción de determinados datos actualmente se realiza de manera cómoda y efectiva con paquetes de pago. Sin embargo, en la medida en que exista software libre con una comunidad activa, como es el caso de R, es recomendable incentivar su uso entre el alumnado e igualmente en la producción de conocimiento.

R además ofrece la ventaja de que no penaliza la libeRtad; si nos resulta mejor preparar una matriz en Excel o en otros populares paquetes comerciales, allí habrá una solución para R capaz de leer desde dichas fuentes. Además, tiene la capacidad de conectar con múltiples formatos de bases de datos.

Igualmente, tiene un gran potencial para la producción de información geográfica, sobre todo para el análisis espacial. No produce impresiones tan vistosas como las de los paquetes comerciales (ArcGIS y otros), pero genera con mucha robustez la información que se publica, que es a fin de cuentas lo más importante. En esta página (en inglés) se ofrece una lista de paquetes de R para el análisis espacial (aparecen muchas más googleando “analysis of spatial data R“). Dejo aquí una simple muestra hecha con fines didáticos: una superficie continua de temperatura promedio de la isla La Española generada mediante kriging por regresión en R, desplegada en GoogleEarth:

Superficie continua de la temperatura promedio anual de la isla Española generada mediante kriging por regresión en R (sólo tiene fines didáticos)

Superficie continua de la temperatura promedio anual de la isla Española generada mediante kriging por regresión en R (sólo tiene fines didáticos)

Además de los contenidos habituales (conservación, riesgo de desastres, geomorfología, biogeografía, etc.), este blog alojará nuevos recursos sobre la aplicación del análisis espacial, la estadística y los SIG para la producción de conocimiento en geografía física, con el ánimo de servir a otras personas interesadas en esta temática; daremos preferencia a paquetes de código abierto y gratuitos, pero incluiremos ejemplos usando también los comerciales. Serán más comunes las entradas sobre cómo hacer tal o cuál procedimiento, usando especialmente R.

En mi canal de Youtube, he alojado algunos “tutoriales” de análisis básicos usando R, QGIS, ArcGIS. Algunos son vídeos producidos de manera espontánea, incluso en sesiones de clase, pero los comparto porque creo que podrían ser de utilidad. En todo caso, el objetivo ahora es compartir en el blog los scripts de R que se vayan generando y alimentar, dentro de lo posible, los vídeos tutoriales. Hay también en Youtube, y en foros que comentaremos oportunamente, mucho material disponible sobre análisis espacial y estadística usando R, la mayoría en inglés.

Animaremos también a evitar el “bizcochamiento mental” que producen los softwares comerciales. La comodidad de la interfaz gráfica a veces nos lleva a analizar “lo que se nos permite”, y así vamos dejando de lado “lo que quisiéramos”; el programa termina poniéndonos límites, condicionándonos, y esto hay que evitarlo a toda costa. A fin de cuentas, la informática y la ciencia hoy en día van unidas, pero una no debería ser limitante para la otra.

La belleza exterior de los paquetes comerciales no es despreciable, pero cuando ésta nos limita, es recomendable avanzar con dignidad y esfuerzo hacia soluciones que garanticen nuestra libeRtad. Vamos, como la vida misma.

 

Dr. José Ramón Martínez Batlle (Ph.D)

2 pensamientos en “Cambios…para bien: libeRtad

  1. Saludos. Me alegra que alguien dentro de nuestra Universidad (UASD) esté dando y repartiendo este tipo de conocimiento.
    Con respecto a R, existe una interfaz un poco más pulida, y que permite ciertas funcionalidades extra. Esta es RStudio: http://www.rstudio.com/. Dele un vistazo a ver que tal.
    Soy estudiante de la carrera de Economía en la UASD, y ahora estoy aprendiendo un poco de R, pero tengo experiencia en el mundo de la programación (especialmente con Python), y R me ha parecido una excelente herramienta!

    Saludos, y Felicidades!

    • Muchas gracias Jearel por tu comentario.

      Conozco el IDE RStudio y lo he probado, pero sigo anclado en la consola porque no me gusta la vista con paneles; trabajo generalmente en una portátil con monitor relativamente pequeño. Tampoco es una prioridad para mí la verificación de sintaxis, ni las otras facilidades que ofrece. En fin, que creo que es más una cuestión de gustos en mi caso.

      Para fines didácticos, es mejor RStudio, sin duda, y de hecho lo recomiendo en clase.

      Saludos.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *