Reposted from Uncode Cafe: http://www.uncode.cafe/inteligencias/datos-masivos-ambiente-y-justicia
Vivimos en la época y el furor de los datos masivos y la inteligencia artificial. Los datos crecen exponencialmente, y la nube – y su capacidad de análisis – se incrementa cada vez más, expandiendo sus capacidades hasta áreas que anteriormente permanecían ignoradas. Aunque tenemos hoy una muy clara noción de cómo utilizar eficazmente los datos masivos para influenciar elecciones o modificar nuestras decisiones como consumidores, todavía falta por demostrarse como los datos masivos y la inteligencia artificial se pueden utilizar efectivamente para mejorar nuestra sociedad.
El término ‘datos masivos’ es relativamente nuevo, y los datos pueden ser considerados masivos dependiendo de su volumen (e.j., millones), de su velocidad de generación, recolección, y difusión (e.j., cada segundo), de su diversidad (e.j., imágenes, números, videos), y complejidad (e.j., múltiples fuentes, calidad de datos). Ejemplos de datos masivos son, por ejemplo, los más de 500 millones de Tweets que se envían cada día, los 600 productos que Amazon vende cada segundo, o los 200 billones de e-mails que se mandan cada día (Fuente: SyncSort). El mayor reto es saber aplicar esta información al beneficio de la sociedad. Para eso, se tienen que utilizar herramientas que han sido desarrollados para almacenar, limpiar, buscar y extraer información de estos datos. Muchas de estas herramientas están almacenadas en la nube (millones de servidores alrededor del mundo que almacenan y procesan datos) y tecnologías como Tensor Flow (aprendizaje automático desarrollado por Google) que han sido puestas al beneficio de la sociedad para extraerle sentido a los datos.
¿Pero, como se le puede extraer sentido a los datos masivos dentro de la intersección ambiente y justicia? Ya existen buenos ejemplos con respecto a la conservación ambiental, aunque todavía falta mucho por hacer dentro del ámbito de justicia ambiental. Por ejemplo, investigadores de la Universidad de Idaho en 2017 utilizaron datos MODIS (Moderate Resolution Imaging Spectroradiometer, un satélite lanzado a orbita en 1999) para identificar patrones de deforestación ligados a cárteles de droga en Centro América, la organización Global Forest Watch ha desarrollado un mapa en tiempo real de la deforestación alrededor del mundo, e investigadores en EUA y Australia han desarrollado modelos que permiten predecir y rápidamente caracterizar regiones de alto endemismo digitalizando y procesando miles de datos a través de regiones y países enteros . Es decir, los datos masivos de imágenes satelitales, sensores distribuidos, y su combinación, ya se están utilizando con metas de conservación, y para crear transparencia dentro de espacios obscuros, donde la ilegalidad y la corrupción son componentes de la problemática.

Los datos masivos ya se utilizan para crear más transparencia en problemas relacionados a la deforestación y sus causas, o para darle seguimiento a inventarios de emisiones. Imágenes de [A] Deforestación ligada al trafico de cocaína en Centroamérica , [B] Global Forest Watch utiliza satélites y teléfonos celulares para rastrear la deforestación en tiempo real y para empoderar a comunidades locales, y [C] Datos masivos y digitalizados de la cantidad y variedad de especies en una región para identificar y caracterizar áreas de endemismo, y con alta necesidad de conservar.
En Latino América, el medio ambiente y la desigualdad son temas cruciales para el desarrollo sostenible de nuestra región, y van de la mano. Si ya existen tecnologías (datos y algoritmos) que pueden predecir por quien vas a votar, o que pueden predecir el movimiento de diferentes fondos de inversión, ¿por qué no nos pueden ayudar a combatir temas cruciales para el desarrollo sostenible en LatAm? ¿Que tecnologías existen? ¿Cómo se pueden utilizar en la práctica?
En México, ¿Cómo podríamos utilizar los datos masivos para darle seguimiento a estos temas? ¿Qué datos se pueden recolectar cuando la sustentabilidad y la justicia están tan fuertemente vinculados? ¿Cómo se pueden utilizar estos datos para tener un impacto real y tangible? Para investigar el tema de justicia ambiental (impacto desproporcionado de la contaminación e impactos ambientales sobre comunidades marginadas) en México (y otros países de Latinoamérica) es importante recolectar datos de múltiples fuentes. En temas tan conflictivos y tan necesitados de evidencia como lo son la justicia, y la degradación ambiental, es importante tener múltiples fuentes de un mismo dato para corroborarlo contundentemente. Por ejemplo, en nuestro proyecto JAMXIO (justicia ambiental México) estamos recolectando datos de tres fuentes distintas para crear un índice de justicia ambiental en el país, y para predecir donde podrían existir brotes de impactos socio-ambientales en todo el país. Los datos que se recolectan vienen de (1) fuentes oficiales (datos gubernamentales y datos de la literatura académica), (2) miles de datos relacionados a la justicia ambiental que son recolectados automáticamente utilizando algoritmos de procesamiento natural del lenguaje (natural language processing, o NLP por sus siglas en ingles) a través de todos los noticieros en línea del país, y redes sociales (e.j., Twitter y Facebook), y (3) datos de ciencia comunitaria que son recolectados por ONGs y movimientos de resistencia local descentralizados
¿Que hace a JAMXIO un proyecto de aprendizaje automático? Su complejidad, la variedad de datos que recolectamos, la velocidad en que recolectamos los datos, sus algoritmos, y su alcance. Los datos oficiales y académicos generalmente se encuentran en un estado que es muy difícil de utilizar, imágenes, PDFs, o páginas de internet que no permiten al usuario, investigador, periodista o comunidad utilizar los datos para lograr un alcance o análisis más profundo. En muchas ocasiones los datos espaciales no son de libre acceso (aunque estos deberían de ser para el uso del bien común) o son difíciles de encontrar. Nosotros digitalizamos miles de datos, los limpiamos, procesamos y organizamos para que se puedan publicar y utilizar como un bien común. Los datos acumulados por el algoritmo (NLP) busca historias por todo el país, las agrupa, organiza, calcula estadísticas, y visualiza automáticamente. Finalmente, se está planeando una implementación de tecnología para fomentar la ciencia comunitaria en el cual docenas de comunidades en Guerrero, Yucatán, y Tabasco empezaran a contribuir datos relacionados a justicia ambiental a la plataforma. Por ejemplo, derrames de minas, oleoductos, o impactos de los pesticidas. Con todos estos datos podemos crear un índice de justicia ambiental en tiempo real, y predecir donde podrían ocurrir eventos negativos
Ahora, hablemos acerca del aprendizaje automático (machine learning, un sub-tema dentro de la inteligencia artificial). Para poder predecir donde ocurrirán los siguientes eventos de justicia ambiental en el país se está desarrollando un algoritmo de aprendizaje automático utilizando un ‘random forest ensemble’ que incrementa su poder predictivo a medida que añadimos más datos de múltiples fuentes a nuestra base de datos. El algoritmo utiliza un método de k-validación cruzada para entrenarse con eventos existentes de justicia ambiental, y después empieza a predecir donde podrían suceder otros eventos en el país utilizando los datos que se colectan automáticamente. El resultado es una predicción espacial de lugares que tienen que investigarse, protegerse, o denunciarse antes de que ocurran daños irreversibles. Este es el primer proyecto de su estilo en Latinoamérica.

En México, y muchos otros lugares de Latinoamérica, los impactos negativos al medio ambiente y la desigualdad van de la mano. La justicia ambiental investiga el impacto desproporcionado de la contaminación sombre comunidades marginadas por ingresos, raza o género. Comunidades de bajos ingresos costeras, de bajos ingresos urbanas, y rurales son impactadas desproporcionadamente por la contaminación.
Y finalmente, para que estas herramientas y análisis no solamente se queden en la nube, se busca tener un impacto real en el país y las comunidades. Esto solamente se puede lograr no solo con datos sino con sinergias institucionales, incluyendo gobierno, entidades legales y esfuerzos de resistencia local. Aunque todavía no podemos mencionar el nombre de las instituciones con las que estaremos colaborando, estas trabajan nacionalmente en el desarrollo de programas y políticas públicas para solucionar temas relacionados a la justicia ambiental. Las soluciones abarcan desde cerrar proyectos, hasta crear eco-tecnias y soluciones sustentables a las comunidades más marginadas y afectadas. Los datos y herramientas de la inteligencia artificial por sí mismo no cambian mucho. Para que estos tengan impacto se tiene que trabajar en el campo, con las comunidades y esfuerzos de resistencia local para dar longevidad, transparencia y seguimiento a estos temas. Para lograr aún más alcance, se están buscando colaboraciones con organizaciones internacionales para llevar este esfuerzo a todo el país y Latinoamérica pues la herramienta es escalable y fácil de usar. Las herramientas de datos masivos e inteligencia artificial (y lo que utilizamos nosotros que es aprendizaje automatizado) son útiles para crear tecnologías descentralizadas para el bien común pero su impacto positivo y duradero en la sociedad solo se lograra con alianzas duraderas, profundas y que busquen empoderar a las comunidades más afectadas. Es aquí donde el nicho datos masivos, ambiente, y justicia debe de explotarse.