sábado, 31 de diciembre de 2011

Aleatoriedad, errores e inteligencia artificial


Aleatoriedad
Se dice que un sistema presenta aleatoriedad cuando sus estados no pueden predecirse de forma exacta, sino como mucho usando probabilidades. En la Física clásica se suponía que los sistemas aleatorios lo eran por desconocimiento de su funcionamiento exacto, debido a imposibilidades prácticas o a que el sistema era demasiado complejo. 

Así, el típico experimento aleatorio de lanzar una moneda realmente es determinista, pues dados sus posición y velocidad inicial exactas, así como sus propiedades físicas (masa, geometría, momento de inercia, ...) y aplicando las leyes de la mecánica ha de ser posible determinar su estado final. 
Llama con forma caótica
Esta visión determinista se derrumbó con la Mecánica Cuántica la cual introduce un factor de aleatoriedad insalvable propio de la Naturaleza, aunque sólo en el dominio de lo extremadamente pequeño.

Por otra parte en los denominados sistemas caóticos encontramos que a pesar de ser deterministas, son tan sensibles a cualquier variación de su estado inicial que en la práctica se comportan como si fueran aleatorios. Tal es el caso del lanzamiento de la moneda, pero también de ejemplos más interesantes  como el clima,  la formación de cristales, o la forma de las llamas de un fuego.


El problema de la generación de números aleatorios
La generación de números aleatorios por ordenador es de gran importancia práctica, pues nos permite simular sucesos aleatorios. Pero resulta que no es fácil generarlos, ya que por definición un programa de ordenador es una secuencia determinada de operaciones, que se ejecutan una detrás de otra, sin posibilidad de introducir aleatoriedad, en principio. De hecho, la mayoría de programas de generación de números aleatorios son de hecho "pseudoaleatorios": usan algoritmos matemáticos que, dado un valor inicial (conocido por "semilla")  generan una secuencia definida de números x1, x2, x3, ..., de forma que para cada valor de la semilla se genera una lista distinta.

Una forma de que un algoritmo genere aleatoriedad es proporcionándole datos aleatorios desde el exterior; el propio hardware del ordenador puede proporcionarla a través de procesos impredecibles, como los movimientos de la cabeza lectora del disco duro o la tasa de actividad de la CPU.  La generación de aleatoriedad por hardware suele aprovechar fenómenos físicos altamente impredecibles, como el ruido eléctrico.

Movimiento browniano: trayectoria caótica seguida por una partícula
muy pequeña en un fluido; la dirección y la velocidad cambian repentinamente
conforme van rebotando en ella las moléculas del fluido, sin ningún patrón predecible.
En el caso de algunos algoritmos de generación de claves para criptografía como el GPG, se pide la colaboración del usuario para generar aleatoriedad:  mientras se genera la clave ha de realizar cuantas más acciones mejor, como mover el ratón rápidamente o re-dimensionar ventanas de aplicaciones; a este proceso se le llama generación de entropía.
Observemos que estos métodos utilizan de hecho sistemas físicos caóticos para generar aleatoriedad que no tienen porque ser realmente aleatorios, sólo demasiado complejos para ser predecibles. Actualmente empiezan a aparecer sistemas que recurren a los procesos cuánticos para generar auténtica aleatoriedad, como es el caso de la empresa suiza ID Quantique que vende sistemas de generación de claves aleatorias basadas en las propiedades cuánticas del fotón.

Errores aleatorios en las mediciones
Cuando medimos una magnitud física, es inevitable que el instrumento de medida afecte a la cantidad que deseamos medir; además, la medida estará afectada en algún grado por el denominado error experimental. Si el instrumento está bien calibrado y somos cuidadosos en el procedimiento de medida, entonces los errores serán totalmente aleatorios, y además sus probabilidades estarán determinadas por la distribución normal de probabilidad


Aleatoriedad y errores en la mente
Nuestra mente es una maravilla capaz de enviar un robot explorador a Marte o de enunciar la teoría de las cuerdas en un espacio de 10 dimensiones. Sin embargo, también destaca su elevada irracionalidad en ciertas ocasiones, así como su capacidad de cometer errores de todo tipo, disfunciones y aberraciones del comportamiento. A veces, la mente parece funcionar distorsionada como si algún "demonio" se hubiera infiltrado  en su interior. Esta es una característica distintiva de la mente humana en relación con la inteligencia artificial (IA), que no es tan dada a comportamientos erráticos.
Podemos preguntarnos, ¿estas disfunciones son errores aleatorios del cerebro? En esta pregunta hay dos tesis: (1) ¿el cerebro tiene errores de funcionamiento que se traducen en disfunciones mentales?, y (2) ¿estos errores no siguen ningún patrón predecible, se producen sin posibilidad de predicción?

Test de Turing
Test de Turing: ¿quien responde es
humano o máquina?
Sea como sea, los programas no tienen este tipo de errores pues son deterministas. Alan Turing, precursor de la informática y la IA, propuso en 1950 un test, el test de Turing, para discernir entre una mente humana y una artificial. Consiste en realizar el mismo conjunto de preguntas a un humano y a una máquina; de las respuestas que obtenemos se nos oculta quien las ha hecho, si hombre o máquina. Entonces si somos incapaces de deducir simplemente  analizando las respuestas si provienen de uno o del otro, diremos que la máquina ha superado el test, y muestra una inteligencia similar la la humana. El test es tan potente que hoy en día ni siquiera se utiliza debido a que se considera que ningún programa podría superarla. 

Lo que más se le acerca actualmente son los denominados chatterbots, que simulan una conversación humana pero limitada a un contexto determinado, como por ejemplo los asistentes virtuales de compras. A continuación tenemos un dialogo entre un humano (H) y el asistente virtual de RENFE Irene (I)

H: buenas tardes
I: Aquí me tienes, ¡buenas tardes!
   ¿Me dices cómo te gustaría que te llamara?
H: Pepe   
I: Fenomenal. A partir de ahora te llamaré Pepe.
H: ¿sales esta noche?
I: Me paso en esta ventana todas las horas del año... ¡Ojalá pudiera salir de aquí! Por cierto, Pepe, ¿en qué ciudad estás tú?
H: En Bombay
I: Preguntaba por una ciudad, da igual.
H: Quiero saber los horarios de cercanías
I: Tienes los horarios y recorridos de Cercanías. Los tienes en este enlace.

Un bot de tipo general que funciona aceptablemente es Cleverbot.
La habilidad de conversación del chatterbot suele limitarse a su área de conocimiento. En el caso de un programa que simulase ser un matemático, el propio Turing advirtió que el programa para superar el test debía ralentizar su respuesta e introducir algún error de vez en cuando para parecer un ser humano.  La introducción de errores en la respuesta podría ser aleatoria o bien producirse después de una larga serie de preguntas, para simular cansancio. Como ya hemos visto, este error intencionado aleatorio puede vincularse a una fuente de aleatoriedad generada por el mismo hardware de la máquina.

Aprender de los errores
Es sabido que los errores son una fuente de aprendizaje, tanto es así que una de las formas de aprender algo nuevo es por la técnica del ensayo-error, en la cual probamos algo nuevo, evaluamos el resultado, y corregimos los errores, para volver a ensayar de nuevo. Así pues, es importante que los ordenadores se equivoquen y sepan aprender de sus errores para simular el comportamiento de la mente. Los programas basados en redes neuronales simulan una red  reducida de neuronas; principalmente se utilizan para aprender a reconocer patrones: se les proporcionan unos datos de entrada con los cuales "aprenden", para después ser capaces de reconocer patrones similares. Este aprendizaje se basa en el ajuste de parámetros internos de la red usando el método ensayo-error. Por ejemplo las redes neuronales se pueden usar para leer los códigos de barra a pesar de haber manchas, arrugas o de una impresión de baja calidad.




jueves, 29 de diciembre de 2011

Computabilidad, hipercomputadores y conciencia

Tortuga: ¿Cree usted que TODO número par puede ser representado como la diferencia de dos primos impares?
Aquiles: Qué curioso lo similar de esta pregunta a la conjetura de Goldbach (que sustituye "diferencia" por "suma")
Tortuga: Ciertamente. Pero existe una diferencia impresionante. (...) su búsqueda de una representación de un billón como la suma de dos primos tiene la garantía de finalizar.
Aquiles: ¡Ahhh! Ya veo, si elijo representar un billón como la diferencia de dos primos no tendré ningún límite para el tamaño de los primos involucrados, podrían ser tan grandes que me tomaría un billón de años encontrarlos.
D.R. Hofstadter: Gödel, Escher, Bach, un eterno y grácil bucle.


En este artículo daremos una breve introducción a la teoría de la computabilidad, con implicaciones para el conocimiento, la mente, la inteligencia artificial y el Universo (casi nada ;-) .

Comprobación de afirmaciones sobre números
Tal como expone la conversación entre Aquiles y la Tortuga, hay afirmaciones de la teoría de números que pueden comprobarse en un número máximo de pasos previamente conocido, mientras que en otras afirmaciones no podemos asegurar cuantos pasos son necesarios. Para saber si un número natural N es igual a la suma de dos primos, basta con ir probando todas la combinaciones de dos primos menores que el propio número N. Por ejemplo, para N = 24 efectuaremos las sumas crecientes 1+1=2, 1+3=4, 2+3=5, 1+5=6, ..., 11+11=22, 11+13=24. Este proceso tenía que acabar como mucho sumando N-1=23 con 1.
En cambio si buscamos diferencias de números primos no hay un número límite, ya que  siempre podemos escoger primos arbitrariamente grandes, como por ejemplo 991-967=24. Este hecho aparentemente inocente tiene profundas implicaciones, como veremos. Para ello, introducimos los conceptos de sistemas formales y recursión.

Sistemas formales y proposiciones recursivas
Un sistema formal  es un conjunto de símbolos (el alfabeto del sistema, también llamados axiomas),  reglas para combinar los símbolos para formar secuencias de símbolos (también llamadas cadenas o teoremas) y las reglas de la lógica de proposiciones, para poder afirmar o negar proposiciones.

Por ejemplo, sea el siguiente sistema formal:
  • Alfabeto: "M","U"
  • Cadenas válidas: secuencias de las letras del alfabeto que siguen las reglas.
  • Regla I: a una cadena terminada en U se le puede agregar otra U
  • Regla II: a una cadena que contenga la secuencia UUU se le puede sustituir la secuencia por M
  • Variables: x, y, z  que representan cadenas cualesquiera
  • Operaciones lógicas: AND, OR, NOT , \rightarrow (implicación), ∀ (para todo)
Aplicando las reglas, a partir del alfabeto se pueden formar cadenas válidas (denominadas teoremas): M, U, UU, UUU, UUUU, UM, ... Aplicando operaciones lógicas, podemos formar proposiciones lógicas: UU \rightarrow UUU (por la regla I), ∀xUUUy  \rightarrow xMy (la regla II).

En todo sistema formal hay verdades (teoremas y axiomas) y falsedades (ninguna de las anteriores):
  • UU es un teorema: es cierto
  • M es un axioma: es cierto
  • MU \rightarrow M es falso: no hay ninguna regla que lo permita

Una proposición es recursiva si podemos diseñar un algoritmo que sea capaz de comprobar si la proposición es cierta. Si además el algoritmo necesita una secuencia de pasos de finalización predecible, entonces la proposición es recursiva primitiva. Así, en el sistema de la aritmética, la afirmación "el número N cumple la conjetura de Goldbach", equivalente a decir "es igual a la suma de dos primos", es una verdad recursiva primitiva, ya que podemos comprobarlo realizando operaciones aritméticas en un número finito que será menor o igual que un límite dado. En cambio la proposición "N es una diferencia de dos primos" no es recursiva primitiva, pues no sabemos el número máximo de pasos a seguir. Cuando todas las proposiciones que podamos hacer sobre un sistema son recursivas, el propio sistema formal será recursivo.

Expresabilidad  y representabilidad
En un sistema formal la expresabilidad significa que cualquier predicado que enunciemos sobre el sistema podrá expresarse en el lenguaje propio del sistema.
Resulta ser que todo sistema recursivo es expresable.
Entonces cualquier afirmación cierta o falsa respecto al sistema, como por ejemplo "no existe ningún teorema (cadena bien formada) que termine en  MU", la podremos expresar con los símbolos del sistema: "NOT xMU". Tenemos que este sistema posee la propiedad de la expresabilidad.

La representabilidad de una proposición significa que siempre que la proposición es cierta entonces tenemos un teorema del sistema, y cuando es falsa tenemos  un no teorema. Por ejemplo "existen cadenas que terminan en  MU" produce las cadenas MU, UMU, MUMU, ... ¿Son todas teoremas? Sí lo son. (compruébelo el lector). En el caso de que cualquier cadena terminada en MU sea un teorema, diremos que la proposición es representable. Si todas las proposiciones posibles son representables, el sistema formal será representable.

La propiedad de la representabilidad es más difícil de poseer que la expresabilidad. No insistiremos en ello, ya que nos apartaría de la línia que nos hemos trazado.

Verdades y falsedades no computables
Se cree que la propiedad de un sistema de ser recursivo implica que es computable (tesis Church-Turing), o sea que para saber si una proposición es cierta o falsa podemos programar un computador que nos responda la pregunta; el tiempo que empleará dependerá de si la proposición es recursiva primitiva o no.

¿Qué afirmaciones no serán recursivas y por tanto no computables? En general cualquier sistema suficientemente complejo para poder referenciarse a sí mismo será no recursivo. Por ejemplo, decidir si un algoritmo que busca dos números primos cuya diferencia sea igual a un billón se detendrá en un número finito de pasos no es un problema computable; o sea, no existe ningún algoritmo que decida si el algoritmo de las diferencias de primos se detendrá. Entonces la verdad o falsedad de la afirmación "el algoritmo que busca dos números primos cuya diferencia sea igual a un billón se detendrá" no es computable. Observemos que "no computable" significa que no sabemos si el programa de ordenador encontrará la solución en tiempo determinado, que es indecidible computacionalmente.

Ahora bien, parece evidente que toda afirmación ha de ser falsa o verdadera, aunque ello sea indecidible computacionalmente. ¿O quizá no está tan claro?. Veamos algunas opiniones al respecto.

Computabilidad de la mente. Tesis de la inteligencia artificial (IA)
Viene a decir: "Lo que es computable por los seres humanos es computable a través de máquinas". O sea que todo proceso mental de decisión ha de poder representarse por un algoritmo que se pueda ejecutar en un ordenador. Si es el caso, entonces como hay afirmaciones indecidibles computacionalmente, tales afirmaciones también seran indecidibles para la mente humana. Siguiendo esta línea de razonamiento, si una afirmación es indecidible, ¿podemos sostener que ha de ser cierta o falsa? ¿O bien su certeza es simplemente indefinida, ni cierta ni falsa?

Nuestra intuición nos indica lo contrario, que toda afirmación ha de estar definida, otra cosa es el conocimiento que tengamos sobre ella. Siguiendo nuestra intuición diríamos que hay un conocimiento computable y también un conocimiento no computable. La cuestión ahora es: ¿la mente tiene acceso al conocimiento no computable?. Según los defensores de la IA la respuesta es negativa.

Por otro lado existe la teoría de la hipercomputación que afirma la posibilidad de programar máquinas para resolver problemas no recursivos; si fuera cierto todos los enunciados serían decidibles computacionalmente, e incluso podríamos tener IA superior a la inteligencia humana.

Autoconciencia y computabilidad
La autoconciencia es una forma de auto-referencia, y en principio, aplicando lo visto hasta ahora, podemos pensar que es poseída por sistemas no computables. No obstante, los seguidores de la tesis de la IA en su versión fuerte enuncian que también la conciencia ha de ser computable. Claro, siempre podemos separar la conciencia de la autoconciencia, y decir que la primera es computable y la segunda no; por ejemplo, un gato es consciente pero no es autoconsciente, así que debería ser posible emular con un ordenador la mente de un gato, algo que todavía está fuera de nuestras posibilidades. (Nota: IBM anunció que había construido un superordenador con 147.000 CPU's que tenía la potencia de cálculo del cerebro de un gato, pero hay cierta controversia con ello, y además sólo han construido el "hardware", falta el "software", esto es, la mente).

Computabilidad del Universo
Hay  teorías que afirman que el Universo en su conjunto se comporta como un inmenso ordenador, que procesa información y la transforma. 
En esta línea una de las variantes afirma que el Universo sólo procesa información recursiva (computable), y precisamente por ello la información no recursiva es no computable, ya que el Universo no puede contener un ordenador más potente que él mismo (!). Equivalentemente, se afirma que el Universo se comporta como una máquina de Turing. Si están en lo cierto, todo proceso físico podrá simularse en un computador, y la Física computacional eventualmente podrá simular todo el Universo.

Otra corriente de opinión sostiene que existen procesos no computables, y que no podemos ignorarlos, y por tanto el Universo se comporta como un hipercomputador cuántico. Entonces, en un futuro podría ser posible construir hipercomputadores que resolvieran todos los problemas, tanto computables como no computables.

Por último hay quienes opinan que el Universo no es computable ni lo será nunca, y que la hipercomputación es irrealizable en la práctica.

Conclusiones
De un asunto aparentemente muy específico, como es la computabilidad de afirmaciones numéricas sencillas, vemos que se extienden ramificaciones que llegan a la teoría del conocimiento (cómo saber que es cierto y que es falso), la mente y la conciencia e incluso a todo el Universo, planteándonos cuestiones muy importantes que quedan abiertas.

Bibliografía
  • D.R. Hofstadter: Gödel, Escher, Bach, un eterno y grácil bucle.

viernes, 23 de diciembre de 2011

La probabilidad en la Física

La probabilidad es un tema muy extenso y tiene diversos enfoques; aquí no trataremos los aspectos técnicos, sino que nuestro objetivo será comprender sus fundamentos y su significado en todo aquello que sea aplicable a las ciencias físicas.

El científico hace un uso muy bien definido de las probabilidades; cuando un físico dice que la probabilidad de desintegración  por unidad de tiempo de un núcleo de carbono-14 es de 3,6113594·10⁻⁴ por segundo, su afirmación tiene un carácter muy específico, mientras que en cambio si le preguntamos por la probabilidad de que la teoría de cuerdas sea correcta quizá se encogerá de hombros, ¡y esa actitud también tiene un significado bien definido!

Razonamiento inductivo y razonamiento deductivo
El denominado razonamiento inductivo se caracteriza por establecer conclusiones que no son totalmente seguras a partir de unos datos. Por ejemplo, en la inferencia estadística, un tipo de razonamiento inductivo, se formulan conclusiones sobre toda una población basándose en una muestra; sería el caso de afirmar que la intención de voto al partido "XYZ" es del 30% de la población cuando sólo se ha encuestado a una cienmilésima parte de la población. Trabaja pues con elementos de juicio incompletos en los cuales no es aplicable la exactitud. Es un modo de trabajo habitual en las ciencias correlacionales, como la Psicología o la Economía. Por otro lado el razonamiento deductivo establece conclusiones que se siguen necesariamente de los datos. Es el método habitual en las ciencias exactas.

Evidentemente no podemos ser rígidos en esta clasificación, y debemos aceptar que las ciencias no exactas pueden usar razonamientos deductivos, y que también las ciencias exactas son usuarias del razonamiento deductivo; un ejemplo paradigmático de éste último caso es la investigación experimental de las partículas fundamentales en aceleradores de partículas, para ser más concretos citaremos el posible descubrimiento del bosón de Higgs en el 2012, que de producirse no será anunciado con total certeza, sino con una probabilidad muy elevada, cercana pero no igual al 100%. Para más detalles sobre probabilidades en Física experimental podéis visitar este artículo del blog de la mula Francis. Dicho esto, podemos afirmar que las ciencias exactas son predominantemente deductivas, y que las ciencias correlacionales son inductivas; además, estas últimas se esfuerzan por convertirse en exactas en la medida de sus posibilidades.


Ciencia deductiva y probabilidad
Así, cuando las ciencias deductivas utilizan probabilidades, no las considera como una forma de expresar el grado de seguridad de una afirmación, sino como una magnitud mensurable, en igualdad con otras magnitudes como las longitudes, velocidades, aceleraciones, etc.
Como ejemplo, consideremos de nuevo la probabilidad de desintegración de un núcleo radiactivo de carbono-14. Dada una cantidad inicial N(0) de material radiactivo, al cabo de cierto tiempo t la cantidad que quedará viene dada por la ley de la desintegración radiactiva

N(t) = N(0)·e-Pt 

donde P es la probabilidad de desintegración por unidad de tiempo; entonces vemos que P = (1/t)·Ln (N(0) / N(t)) es un valor constante, determinado, que  de hecho es una propiedad del material: podemos establecer su valor en el laboratorio midiendo la cantidad de material residual con diferentes valores del tiempo t. Por tanto la probabilidad P se determina midiendo, es una magnitud mensurable.


La probabilidad mensurable y los errores experimentales
Podemos objetar que la medición de cualquier magnitud física conlleva la probabilidad de cometer errores, de modo que al definir la probabilidad deductiva como mensurable caemos en un círculo vicioso. Aclaremos este punto.

Es cierto que en el laboratorio siempre se toman diversas medidas de una magnitud y después se promedian, con el propósito de minimizar el error cometido. En este procedimiento no hay necesidad de probabilidades, excepto para estudiar la distribución de los errores experimentales. Si consideramos ahora la determinación de la probabilidad como magnitud veremos que hay que proceder del mismo modo que para cualquier otra magnitud: tomaremos medidas repetidas de la probabilidad (pensemos por ejemplo en el carbono-14) y las promediaremos para obtener el valor físico aproximado, dentro de la precisión requerida. Admitido esto, no hay nada incoherente en la definición dada de la probabilidad como magnitud física.


Definiciones clásicas de la probabilidad
La conocida regla de Laplace considera que la probabilidad de un suceso es el cociente entre el número de casos favorables al suceso y el número total de casos posibles, siempre que estos sean igualmente probables. Un ejemplo típico es determinar la probabilidad de obtener un número par en el lanzamiento de un dado:

P(número par) = card({2,4,6} / card({1,2,3,4,5,6}) = 3/6 = 1/2,

Un dado físicamente es un cubo simétrico, y por tanto podemos considerar que al lanzarlo la probabilidad de que cualquier cara quede en la parte superior es igual para todas ellas.



donde "card" indica el operador que nos da el número de elementos de un conjunto. Esta definición nos permite calcular probabilidades antes de realizar cualquier medición, siempre que conozcamos el número de casos. Es una fórmula exacta, sin errores.

Otra definición es la frecuencial: afirma que la probabilidad de un suceso es el cociente entre la frecuencia con la que se presenta el suceso y el número total de repeticiones del experimento, suponiendo que este último es muy grande;  a este cociente se le denomina frecuencia relativa, de forma que la probabilidad es la frecuencia relativa cuando el número  de repeticiones es grande.   Es una definición empírica, pues el valor obtenido depende del experimento.

Experimentalmente se ha comprobado que las dos definiciones, la de Laplace y la frecuencia, coinciden cuando el número de repeticiones n del experimento se hace arbitrariamente grande (ley de regularidad estadística).  La definición frecuencial de la probabilidad usa el concepto de límite: la probabilidad de obtener un cierto resultado de un experimento aleatorio es la frecuencia  relativa obtenida al repetir el experimento infinitas veces.

En la siguiente figura, en la parte superior, se muestran en el eje vertical las frecuencias relativas obtenidas en la simulación del lanzamiento de una moneda 400 veces, anotando las caras obtenidas, y en eje horizontal el número de lanzamientos (la escala es logarítmica). Vemos que las frecuencias oscilan con amplitud decreciente, estabilizándose progresivamente cerca del valor 0.5, que  tomaríamos como probabilidad en el sentido frecuencial. Este valor coincide con el obtenido mediante la regla de Laplace: P(salga cara) = card {"cara"} / {"cara", "cruz"} = 1/2.

Comparación de los límites de la frecuencia relativa con el de una suma infinita; el primero se acerca al límite de forma lenta e irregular, el segundo rápida y regularmente.
En la gráfica inferior se muestra la evolución de la suma infinita (1/2)·[(1/2) + (1/2)²+(1/2)³ + ... ] que tiene como valor límite 1/2. Vemos que esta suma se acerca a su límite mucho más rápido y de forma menos errática que la  probabilidad. Ademas, en el caso de la probabilidad siempre podemos encontrar una desviación amplia del valor 1/2 para cualesquiera valores de n; cuando n es grande sucede raramente, pero no es imposible, mientras que en el caso del límite matemático "habitual" las desviaciones arbitrarias no se producen. Así pues, el concepto de límite de la probabilidad frecuencial presenta diferencias respecto a los límites de funciones tal como se definen en los textos de cálculo.



Probabilidad de conjuntos infinitos
La definición frecuencial nos proporciona un concepto útil para interpretar la probabilidad (la frecuencia relativa teórica que esperamos encontrar en un experimento ideal con infinitas repeticiones, pero no es nada práctica. La fórmula de Laplace en cambio nos proporciona un método de cálculo. Es un hecho notable que los valores numéricos proporcionados por ambas definiciones coincidan. Utilizadas conjuntamente nos permiten resolver un gran número de problemas. 

Una limitación importante aparece cuando el conjunto de posibles resultados es infinito; por ejemplo, estamos interesados en saber cuál es la probabilidad de encontrar una molécula en una región del espacio. Siendo la posición una variable continua, el número de posiciones posibles dentro de cualquier intervalo será infinito, por lo que la regla de Laplace no está bien definida.

Se han propuesto definiciones más generales de la probabilidad que permiten enfrentarse a estos casos con infinitas posibilidades: los conjuntos denominados conjuntos de Borel (o borelianos) y  la medida de Lebesgue. Con estas herramientas podemos incluso calcular probabilidades asociadas a conjuntos "rebuscados".

Por ejemplo, ¿cual es la probabilidad de que, al escoger al azar un punto x cualquiera del  intervalo [0, 1], el punto escogido sea un número racional? Hay infinitos racionales en cualquier intervalo, e infinitos números en el intervalo [0, 1], con lo que la regla de Laplace resultaría en un infinito / infinito que es un valor indeterminado.

La definición frecuencial también se pone en apuros con problemas de este tipo, pues los generadores de números aleatorios realmente no son del todo aleatorios, ya que usan algoritmos deterministas, y además que yo sepa no suelen generar números irracionales. Los nuevos ordenadores cuánticos podrían quizá resolver este problema, ver por ejemplo el artículo Evidencias de que los procesos cuánticos generan números aleatorios verdaderos.

Hay conjuntos más complicados,  como por ejemplo el conjunto de Cantor, que se construye de modo recursivo.

Construcción del conjunto de Cantor. Seguimos los siguientes pasos:
  • Tomamos el intervalo [0, 1].
  • Le quitamos un tercio de intervalo, concretamente el intervalo abierto (1/3; 2/3). Nos quedan los intervalos [0, 1/3] y [2/3, 1]
  • Quitamos a los dos segmentos restantes sus respectivos tercios interiores, es decir los intervalos abiertos (1/3²; 2/3²) y (7/3²; 8/3²).
  • Los pasos siguientes son idénticos: quitar el tercio de todos los intervalos que quedan. El proceso no tiene fin.

El conjunto de Cantor C tiene infinitos puntos; de hecho se da la paradoja de que contiene tantos puntos como todo el intervalo [0, 1]. que contiene a C. Por la regla de Laplace la probabilidad de escoger un punto de C sería card(C) / card([0,1]) = 1, que es absurdo, ya que  una probabilidad de un suceso igual a 1  significa que el suceso se presenta siempre, es decir que x siempre pertenecerá a C. En cambio usando la teoría de Lebesgue, la medida de C resulta ser cero, y  por consiguiente la probabilidad de que al escoger un punto al azar del intervalo [0, 1] el punto pertenezca a C es cero. Una excelente descripción de los conjuntos de Cantor y sus curiosas propiedades, así como su teoría de los números trans-infinitos la ofrece este blog.

Mecánica estadística
Volvamos a la Física, concretamente a la Física a escala molecular. A estas escalas debemos aplicar los principios de la mecánica cuántica, que establece que la energía de cada molécula sólo puede tomar unos valores discretos., está cuantizada. Para simplificar, pensemos en un gas; una molécula libre de gas moviéndose en un recipiente tendrá un estado, variable, definido por tres  números cuánticos, uno para cada dimensión del espacio, y cada estado permitido define un nivel de energía. Conociendo la distribución de las partículas entre los estados permitidos de energía del gas, se pueden predecir sus propiedades macroscópicas de interés (denominadas observables), como la temperatura, la presión, la densidad, etc.

Moléculas de un gas en un recipiente, cada molécula rebota con las paredes y con otras moléculas, cambiando su velocidad continuamente. La velocidad media a temperatura ambiente es del orden de cientos de metros por segundo.

Dado el enorme número de moléculas existentes, del orden de 1018 por cada cm³, la determinación de sus energías se ha de realizar usando técnicas estadísticas. Así, no determinamos energías, sino probabilidades de tener ciertas energías.
Distribución de probabilidades de velocidades de Maxwell-Boltzmann para los gases nobles, en el eje horizontal se muestran las velocidades de las moléculas, en el vertical las probabilidades.

Se han formulado diversas técnicas de cálculo de probabilidades ajustadas a cada tipo de moléculas; por ejemplo, si todas las partículas son iguales (más precisamente: indistinguibles), y cada estado de energía puede ser ocupado por todas las moléculas sin restricciones, las probabilidades viene dadas por la denominada distribución de probabilidad de Bose-Einstein. Si las partículas son distinguibles, entonces se aplica la distribución de Maxwell-Boltzmann. Estas probabilidades pueden aplicarse a sistemas generales de muchas partículas cuánticas, como por ejemplo los fotones.
Tal como decíamos al principio, las probabilidades calculadas en Física Estadística son magnitudes medibles, y su concepto es distinto del de las probabilidades más comunes, como la de sacar un número par cuando lanzamos un dado. Por ejemplo, la temperatura de un cuerpo, un observable, está directamente relacionada con el valor medio de las velocidades de sus moléculas, que a su vez está determinada por su distribución de probabilidades.

Bibliografía
  • Sobre mecánica Estadística: F.W. Sears: Termodinámica, teoría cinética y termodinámica estadística. Ed. Reverté.
  • Sobre la probabilidad en las ciencias exactas: H. Margenau: La naturaleza de la realidad física. Ed. Tecnos.
  • Sobre conjuntos de Borel y medida Lebesgue: T. Apostol: Análisis Matemático. Ed. Reverté.
  • Sobre aplicación de las medidas Lebesgeu en la probabilidad: E. Elizalde: Métodos matemáticos algebraicos, tomo III. Universidad de Barcelona.


jueves, 22 de diciembre de 2011

La ciencia, ¿describe o explica?

Hay teorías científicas que usan modelos cercanos a  nuestra percepción inmediata, son más sencillas de entender, y se conocen por teorías descriptivas; las teorías que penetran más profundamente en las construcciones mentales, son más abstractas y suelen incluir a las anteriores como casos particulares o como aproximaciones, se llaman teorías explicativas o causales. Pero la diferencia entre los dos tipos es relativa, y además cambia de acuerdo con los progresos de la ciencia.

Explicación y descripción
En el razonamiento científico es importante distinguir entre explicación y descripción: hay teorías que que describen fenómenos, denominadas fenomenológicas o descriptivas, y otras que los explican usando la relación causa-efecto, llamadas causales. Esta división es parecida a la que separa las ciencias exactas y las correlacionales (ver por ejemplo el artículo al respecto en este blog).
Modelo de orbitalesModelo de enlaces
de valencia

Por ejemplo la teoría de los enlaces químicos de valencia la podemos considerar descriptiva, pues intentar verla como explicativa significaría que estamos dispuestos a creer que realmente hay una especie de puentes rígidos entre átomos que los unen. Los enlaces de valencia son una simplificación útil de  la teoría de los orbitales atómicos, que sería la teoría explicativa.

Esta distinción no puede ser absoluta sino meramente de conveniencia: en el ejemplo del enlace químico, inicialmente la teoría del enlace de valencia sirvió para explicar cómo los átomos se combinaban entre sí  para formar moléculas, era explicativa porque no teníamos nada más. Con la aparición del modelo de orbitales cambiamos las categorías: los enlaces de valencia son aproximaciones descriptivas del modelo explicativo de los orbitales.

Siendo la explicación una explicación más detallada que la descripción, se deduce que la explicación nunca puede ser definitiva, que siempre podremos ser más precisos.

La explicación pasa a ser descripción
Consideremos la gravitación: según Aristóteles los cuerpos caen porque "buscan" su lugar natural; Galileo postuló y demostró que los objetos caen con aceleración constante, Newton generalizó la teoría de Galileo enunciando la ley de la gravitación universal (todo par de partículas se atraen con una fuerza inversamente proporcional al cuadrado de su distancia) , que posteriormente volvió a ampliarse por Einstein que vinculó la gravedad a la métrica del espacio, y de momento aquí hemos llegado. De estas teorías, ¿cuáles explican y cuáles describen?

Podemos decir que la teoría más moderna, de la cual podemos deducir todas las demás, es la explicativa, y las demás actualmente son descriptivas. O bien podemos decir que ninguna explica, sino que todas son descripciones cada vez mejores, ya que todavía no tenemos una teoría de la gravitación cuántica.

También lo podemos plantear en términos de verdad: ¿cual de las teorías es cierta? Todas no pueden serlo, ya que no coinciden en los detalles. Tenemos diversos grados de validez, siendo actualmente la Relatividad General la más cierta, de momento. La verdad científica no es un concepto estático, sino dinámico.


Sistemas, propiedades y estados
La ciencia usa en sus descripciones y explicaciones sistemas físicos, que tienen propiedades y estados. Un objeto posee propiedades como forma, color, velocidad, etc. A todo concepto que posea propiedades observables le llamaremos sistema físico. Así, los objetos externos, una mesa, un edificio, una nube, ... son ejemplos de sistemas. También lo son los campos electromagnéticos y las partículas fundamentales.

Las propiedades son conceptos relacionados con nuestras percepciones; ¿cuantas propiedades tiene un objeto ordinario? Por ejemplo un árbol: cuando lo exploramos analíticamente vamos descubriendo sus propiedades, hay muchas, de hecho su número total no está bien definido: tendremos las categorías de aspecto exterior, estructura interior, ubicación, família a la que pertenece, ...
¿Son todas necesarias para definir el objeto? Depende de nuestras necesidades de información, que no serán las mismas si somos un turista o un biólogo. Pero fijémonos en el conjunto de propiedades mínimas necesarias para identificar al objeto como un árbol; algunas de ellas cambiaran con el tiempo (como el tamaño), son las que definen el estado del sistema.

Las propiedades interesantes para la ciencia son las mensurables, a las que se les pueden asignar números. Sólo las propiedades tienen medidas, el árbol en sí no las tiene, sino que es poseedor de propiedades mensurables: altura, diámetro, peso, etc.  Así, la ciencia atribuye propiedades mensurables a sistemas intrínsecamente inmensurables. Por ejemplo un átomo posee propiedades mensurables, a pesar de que en sí mismo no lo sea.

Observables
Visto desde otro punto de vista, el árbol queda investido de un observable llamado altura, diámetro, etc. No tiene una altura definida en todo instante, sino solo cuando lo miramos. En la Física clásica no es necesario distinguir entre observables y propiedades, pero en Física cuántica tal distinción es obligatoria. Un electrón puede comportarse como una partícula, con una posición y velocidad, o como una onda des-localizada, dependiendo del tipo de experimento que ideemos. Entonces no siempre podemos conocer algunas de las propiedades de una partícula cuántica; por ejemplo en el caso de la posición se ha convertido en un observable latente, que tomará un valor sólo cuando la observemos, ya no es una propiedad de la partícula.


Descripciones científicas
Resumiendo, la ciencia define sus sistemas, elige observables para los sistemas, y define sus estados como conjuntos significativos de tales observables. Así, la economía definirá sus sistemas macro y micro-económicos, la medicina definirá los sistemas circulatorios, nerviosos, linfáticos, etc.  Este proceso está bien definido, pues los observables son conceptos comunes, como la masa o la posición, y tienen valores definidos en cada instante de tiempo. En la Física clásica esto es así, pero la Física cuántica ha de tratar con observables latentes, sin valores definidos en cada instante. De hecho, los observables sólo poseen probabilidades de tener valores determinados, de forma que a cada observable se le asigna una función de probabilidad.  El cómo procede la mecánica cuántica para dar descripciones y explicaciones basadas en observables latentes es uno de los grandes logros de la ciencia del siglo XX, que dejaremos para otro artículo.

Bibliografía
Henry Margenau: La naturaleza de la realidad física. Ed. Tecnos.


sábado, 17 de diciembre de 2011

La "partícula de Dios" al descubierto

1:3 Y dijo Dios: Sea la luz; y fue la luz.
Génesis

Túnel del acelerador del CERN
El martes 13/12/2011 científicos del CERN (Centro Europeo de Investigación Nuclear) anunciaron que, con una probabilidad del 99%, habían descubierto la partícula de Higgs, que viene a ser la pieza que faltaba en el rompecabezas del modelo de partículas  de la Física atómica: es la partícula más buscada de la historia, y en su búsqueda se han utilizado ingentes recursos económicos y humanos. Incluso en ciertos artículos y libros de divulgación se la ha denominado la "partícula de Dios". ¿Pero por qué es tan importante? Intentaremos explicarlo para el público no especializado; para ello tendremos que hacer una excursión por el campo... de la Física de partículas.

Materia y Energía
El Universo se compone en última instancia de materia y de energía, y además una se puede convertir en la otra, hecho que expresa elegantemente la más famosa ecuación de Einstein, E = mc² . Durante el siglo XX los modelos físicos y los experimentos, complementándose entre sí, fueron revelando la estructura de la materia a muy pequeña escala, buscando sus elementos constituyentes primordiales: las partículas fundamentales; así, pasamos del átomo al núcleo del átomo, del núcleo a las partículas nucleares, las cuales mediante aceleradores de partículas se "rompieron" (más técnicamente diremos que se desintegraron) en otras partículas... 

A mediados del siglo XX este proceso de romper las partículas sub-atómicas con aceleradores cada vez más potentes llevó durante un tiempo a un cierto caos, pues parecía que el descubrimiento de nuevas partículas no tenía ningún final, y cada vez teníamos más preguntas sin respuesta. Las leyes físicas conocidas no bastaban para explicar las observaciones, y los físicos tuvieron que idear nuevas propiedades y leyes: conservación del número bariónico, de número leptónico y muónico, de la "extrañeza" (sí, es correcto, inventaron una propiedad llamada extrañeza), etc. De todas estas novedades se consiguió definir un esquema de clasificación de las partículas y de sus interacciones que se ha denominado el modelo estándar,  que veremos dentro de un momento. Antes, necesitamos ver el concepto de campo cuántico.

Campos de fuerzas cuánticos y partículas fundamentales
Campo de fuerzas entre dos  cargas
En Física un campo  representa una magnitud física (una temperatura, una velocidad, etc.) distribuida en el espacio y en el tiempo. Por ejemplo la distribución de velocidades en un fluido en movimiento circulando por una tubería se describe como un campo de velocidades: a cada punto del fluido se le asigna un vector velocidad en ese punto, indicando su dirección y magnitud en cada instante; el conjunto de tales vectores en el espacio es un campo. En el caso de campos de fuerzas, en cada punto del espacio tendremos un vector que nos informa de la fuerza (en dirección y magnitud). De esta forma se describe por ejemplo el campo electromagnético (con las ecuaciones de Maxwell): dada una carga eléctrica situada en un punto del  campo, la magnitud de ese campo nos permite calcular la fuerza eléctrica que ejercerá sobre la carga. Este concepto de campo estaba bien establecido en la Física del siglo XIX. 

Los campos clásicos son continuos: las magnitudes pueden tomar cualquier valor numérico compatible con las leyes del campo. Así, en el campo eléctrico clásico, podemos considerar valores de fuerzas entre cero y infinito, sin restricciones. A principios del siglo XX se inicia la revolución cuántica: la teoría cuántica establece que las magnitudes físicas están "discretizadas", en el sentido de que sólo pueden tomar valores no continuos. Un ejemplo sencillo de esta cuantización es la de la carga eléctrica: siendo la carga del electrón e la carga fundamental, se sigue que cualquier carga macroscópica  Q deberá ser una acumulación de un número entero de cargas elementales e, y su valor total será un múltiplo entero de esa carga fundamental: Q = n·e . Por tanto no todos los valores numéricos de Q serán factibles. 

Esta cuantización afecta al concepto de campo de forma profunda; una consecuencia de ello es que a cada campo físico se le puede hacer corresponder una partícula específica para ese campo. Por ejemplo, en el campo electromagnético tal partícula es el fotón. Intuitivamente esto puede verse haciendo el siguiente experimento mental: si tenemos un foco de luz (que es un tipo de campo electromagnético) que incide sobre una pantalla, de forma que vamos disminuyendo paulatinamente su intensidad, la teoría clásica permite que esa aproximación al valor cero sea tan lenta como queramos, pero la teoría cuántica predice que llegaremos a un punto en el cual sólo se emitirán fotones separados entre sí por ciertos intervalos de tiempo, de forma que veremos en la pantalla los destellos conforme van llegando, y a partir de ahí disminuir la intensidad del foco es simplemente ampliar el tiempo de llegada de cada fotón. Tenemos pues que los campos cuánticos tienen partículas asociadas, que se corresponden con sus magnitudes fundamentales.

El Modelo Estándar
Electrones intercambiando un fotón
Veamos: por un lado tenemos las partículas que componen la materia, electrones, protones, etc., y por otro las partículas asociadas a los campos cuánticos. Estas últimas se conocen con el nombre de partículas portadoras de fuerzas, o mediadoras de fuerzas o de intercambio, debido a que son los agentes que permiten, a nivel cuántico (es decir, a niveles extremadamente minúsculos como los que se encuentran en los niveles atómicos), que las partículas que componen la materia interaccionen con los campos. Así, cuando una partícula cargada interacciona con un campo electromagnético, según el modelo estándar lo que realmente hace es emitir y absorber fotones del campo, como muestra el diagrama de Feynmann de la figura. Podemos imaginarlo como cuando dos jugadores de básquet se pasan la pelota: hay unas fuerzas ahí en acción (la de lanzar y la de recoger) y la pelota actúa como "partícula" de intercambio de fuerzas.


El modelo estándar ha clasificado en familias las diferentes partículas de materia y mediadoras, y ha estudiado sus interacciones y transformaciones.  en particular, las partículas de materia se denominan fermiones y las de intercambio bosones. Recordemos que materia y energía, en último término, son intercambiables, de modo que es posible generar partículas mediadoras a partir de partículas de materia, y viceversa. Como ejemplo, tenemos la desintegración espontánea de un pión  π en un muón  µ y posteriormente en un electrón e:

 π =>  µ => e

 El electrón és una partícula constituyente de la materia (un fermión) mientras que el pión és una partícula de intercambio (un bosón) asociada al campo cuántico de las fuerzas nucleares que estabilizan al núcleo atómico y evitan que se rompa debido a la repulsión mutua de sus protones; fué predicho en 1935 por el físico japonés Yukawa y confirmada su existencia en 1947. Estas transformaciones son las que se estudian en los aceleradores de partículas.

El modelo también establece una clasificación de las fuerzas de interacción de la naturaleza: gravitatoria, electromagnética, nuclear débil y nuclear fuerte.

Este modelo de partículas de materia y de fuerzas ha tenido un éxito casi total en la explicación de la constitución de todo los que nos rodea; pero queda una laguna importante por llenar, y aquí es donde entra la teoría de Higgs.

Campo y partícula de Higgs
Un hecho que intrigó desde el primer momento a los investigadores es: ¿porqué hay bosones sin masa (el fotón) y bosones masivos mucho más pesados que las partículas de materia? Por ejemplo, el pión es el bosón más ligero de todos, y tiene 273 veces la masa del electrón. Otros bosones relacionados con el campo nuclear, como los bosones W, tienen masas superiores al átomo de hierro. ¿Porqué son tan masivas estas partículas portadoras de fuerzas?

El físico escocés Higgs propuso una explicación elegante: quizá la masa, como magnitud física, también tiene su campo cuántico asociado, de forma que la masa de las partículas realmente se forma por la interacción de dichas partículas con el campo de Higgs. Es lo mismo que expusimos en el ejemplo de la carga interaccionando con un campo electromagnético, con el cual intercambia fotones: ahora la carga sería un bosón, el campo sería el campo de Higgs y el fotón, la partícula de Higgs, que será también un bosón, por ser de intercambio. De este modo, el fotón no interacciona con el campo de Higgs y por tanto no tiene masa, mientras que los otros bosones sí lo hacen.

Decir de pasada, sin entrar en detalles técnicos, que aquí también participa el muy interesante concepto de simetría; de hecho en el marco teórico las clasificaciones de partículas usan la teoría matemática de grupos de simetría. Alguna cosa he escrito anteriormente en este blog sobre la simetría en Física, y remito al lector interesado en los detalles al artículo La simetría en Matemáticas y Física. Consideraciones de este tipo permiten predecir la masa esperada de la partícula de Higgs, así como otras propiedades. También explican porque el fotón no interacciona con el campo de Higgs mientras que los otros bosones sí lo hacen.

Si se descubre el Higgs, como le llaman los físicos, toda la teoría encajará, no quedaran piezas sueltas (bien, algún detalle sí, pero sólo detalles) y el modelo estándar quedará totalmente establecido. Por el contrario si no se encuentra tal partícula, será señal de que algo falla en toda la teoría, y habrá que revisar todo lo realizado en los últimos cincuenta años.

Consideraciones y conclusiones
No debemos confundir el Higgs con el gravitón, partícula no descubierta que se supone sería el cuanto de intercambio del campo gravitatorio. El campo de Higgs  explica la masa de las partículas, mientras que el campo gravitatorio explica las fuerzas gravitatorias entre objetos con masa.

“El modelo estándar y nuestra imagen de cómo Dios hizo el universo depende de encontrar el bosón de Higgs”, comentó el premio Nobel Leon Lederman. De esta afirmación surgió el sobrenombre de "partícula de Dios". También he leído algunas opiniones al respecto afirmando que este nuevo descubrimiento vuelve a demostrar que no necesitamos la existencia de Dios para explicar el Universo, pues el modelo estándar completo ya lo hace. En mi opinión un mayor conocimiento del funcionamiento del Universo ni afirma ni niega nada sobre un creador.

El campo de Higgs tiene también relación directa con la teoría de la creación del Universo, el "big-bang"; se cree que en los primeros instantes había algo así como un 1% más de materia que de antimateria, lo que permitió que en  a posterior evolución del Universo la materia predominara sobre la antimateria. Podemos estar agradecidos por ello, ya que materia y antimateria se aniquilan mutuamente en una explosión de energía: si quedaran restos de antimateria serían tan peligrosos como bombas atómicas ambulantes. La explicación de ese 1% de desequilibrio depende de la existencia del campo de Higgs.

lunes, 5 de diciembre de 2011

Decisiones inconscientes y redes complejas

En el programa Redes de Eduard Punset del 4/12/11, titulado "Sabemos que no sabemos lo que decidimos", se habló de la gran proporción de decisiones  (nada menos que un 90%) que tomamos sin estar conscientes de los detalles que nos conducen a tomarlas, centrándose especialmente en el terreno de la Economía, ya que el invitado, Aldo Rustichini, es economista, bien, más precisamente es neuroeconomista: la neuroeconomía intenta relacionar nuestro conocimiento del cerebro con la toma de decisiones económicas. La verdad es que me interesó el tema de las decisiones inconscientes.

Además, el mismo día en las noticias me enteré de que unos investigadores de la Universidad Rovira i Virgili de Tarragona, Roger Guimerà yMarta Sales-Pardo, han programado un algoritmo que permite predecir la decisión de un juez del tribunal supremo d'EEUU sabiendo la decisión tomada por sus colegas, con una fiabilidad del 83%. Se puede acceder al artículo original libremente. Informándome un poco me pareció ver una relación entre este método y las decisiones inconscientes, y así se me ocurrió esta entrada del blog.

Modelos de redes. Redes complejas.
Grafo de una red: nodos, arcos y flujos
En este artículo, una red es un conjunto de elementos, llamados nodos, interconectados entre sí por arcos. La representación gráfica de una red se llama grafo. Las conexiones entre nodos pueden actuar como medio de transporte entre los nodos; sería el caso, por ejemplo, de una red de distribución eléctrica. En la figura se presenta el grafo de una red con 6 nodos y algunas conexiones entre nodos; los números que aparecen en las conexiones el flujo actual y el flujo máximo (o capacidad) del arco.


Las redes se utilizan para modelar problemas reales; una de sus aplicaciones consiste en encontrar un flujo entre los nodos que optimize una cierta función: es el campo de la optimización de flujos en redes. La función puede ser el flujo total que circula por la red. En los casos reales siempre se encuentran restricciones que hay que tener en cuenta, como los costes de transmisión o las capacidades máximas de los arcos.

Resulta sorprendente la cantidad de problemas que pueden modelarse usando redes: transporte de mercancías, flujos eléctricos, de fluidos, de datos, asignación de tareas en un proyecto, ... Por este motivo se ha desarrollado una teoría de grafos que permite clasificar las diferentes redes y conocer sus propiedades. Entre estas propiedades se encuentra el grado de un nodo (número de conexiones de ese nodo) y la distribución de grado de la red (distribución de probabilidad de la variable grado de los nodos).
Cuando el grado de la red es muy elevado (hay muchas conexiones en cada nodo) calificamos la red como red compleja. En la siguiente figura vemos un red compleja, con algunos nodos de grado elevado.
Comunidades en una red compleja

Ejemplos de casos reales en los que se encuentran redes complejas son las redes sociales, la estructura de proteínas, el genoma, los ecosistemas y las redes de ordenadores. El estudio de redes complejas es un campo emergente al que se dedica un número creciente de investigadores.

Detección de comunidades en redes
Frecuentemente en las aplicaciones de las redes complejas aparece una nueva propiedad: las comunidades,  agrupaciones  de nodos que estan fuertemente relacionados entre sí pero débilmente con el resto de la red. En la figura anterior se distinguen diversas comunidades coloreándolas. En el caso de las redes sociales, las comunidades pueden ser grupos de usuarios con aficiones y/o opiniones comunes.  No sólo se considera el número de conexiones, sinó también su importancia; por ejemplo en una red de comunicaciones si tenemos algunos nodos con flujos importantes de datos entre ellos podríamos considerarlos como pertenecientes a una comunidad.

Dada una red compleja, la detección de comunidades que no estaban explicitadas tiene gran importancia práctica: en el caso de las redes sociales, se pueden ofrecer servicios específicos a comunidades dependiendo de sus intereses comunes; en un ecosistema una comunidad tendrá un elevado grado de dependéncia entre sus miembros, de forma que cualquier cambio brusco en la población de uno de sus individuos afectará especialmente a los demás miembros de la comunidad; de forma similar, en un genoma los genes incluidos en una comunidad probablemente tienen funciones comunes y son altamente dependientes entre sí (comunidades de interacción genética).

En la actualidad se investiga activamente en el desarrollo de algoritmos eficientes de detección de comunidades en grandes redes complejas. A pesar de que en una primera impresión pueda parecer al no experto en el tema que el problema de la detección sea "fácil" (¿quizá baste con observar el grafo?) en realidad es un problema muy difícil computacionalmente hablando.

"Cortes" en una red compleja
Matemáticamente una red se expresa usando matrices que describen las conexiones entre nodos y los flujos circulantes por los arcos, como por ejemplo las matrices de incidéncia arco-nodo; para una red de n nodos y m arcos necesitamos una matriz de n·m elementos para representar las conexiones. En las redes complejas reales frecuentemente tenemos miles y decenas de miles de nodos, con un elevado número de arcos entre ellos, resultando matrices de millones de elementos. Si un algoritmo simplemente va visitando cada nodo y comprobando las conexiones con sus vecinos para establecer posibles comunidades, se encontrará que el número de combinaciones posibles es enorme; de hecho se considera que el problema de detección de comunidades en redes por complejidad computacional pertenece a la categoría denominada NP-Hard. Debido a esto, no se puede resolver el problema de forma directa, sinó con métodos indirectos que dan soluciones aproximadas. De ahí que existan numerosas alternativas algorítmicas. Uno de los métodos realiza "cortes" imaginarios en la red y analiza los arcos y flujos que atraviesan los cortes para establecer posibles comunidades (figura anexa).


Toma de decisiones y flujos de información en comunidades
Ahora que ya tenemos una base de conceptos de redes complejas y comunidades, podemos volver al trabajo de los investigadores de la Universidad de Tarragona sobre decisiones de los jueces del Supremo. Tal como ellos mismos explican en su artículo: "...we use models and methods that have been developed to uncover hidden associations between actors in complex social networks...". Anteriormente se habían hecho intentos de diseño de algoritmos capaces de "suplantar" a un juez, de forma que fuera capaz de dictar la misma senténcia, con escaso éxito. Incluso los expertos (humanos) sólo han demostrado acertar en sus predicciones respecto a los fallos judiciales en aproximadamente un 30% de casos. En contraste, el algoritmos de redes complejas ha superado el 80% de aciertos en una muestra de 150 casos, con lo cual han podido afirmar que:

"We find that U.S. Supreme Court justice votes are more predictable than one would expect from an ideal court composed of perfectly independent justices."

Este resultado puede tener implicaciones en la comprensión y predicción de otro tipo de decisiones, como las políticas y en general en la teoría de toma de decisiones.

En otro interesante estudio de la Universidad de Zaragoza, se emplean las redes complejas para averigüar la existéncia de comunidades en los participantes del movimiento del 15-M, conocido también por "los indignados". Efectivamente se detectaron tales comunidades, y ello permitió establecer diversas propiedades importantes de la red de contactos de los "indignados", como por ejemplo la existencia de unos pocos usuarios relevantes que son los más eficientes para recibir y difundir la información a toda la red.

Redes funcionales neuronales y toma de decisiones
Cuando se mide la dinámica de zonas del cerebro durante una actividad cognitiva mediante resonancia magnética o electroencefalograma, se encuentran relaciones y dependencias entre las  zonas analizadas, oteniendo una red funcional (relativa a la actividad cognitiva estudiada) neuronal, que es una red compleja por su elevado número de conexiones. La detección de comunidades neuronales en esta red posibilitaría la identificación de àreas especializadas en determinadas sub-funciones.

Parece ser que nuestro cerebro trabaja en gran medida de este modo: estableciendo redes complejas para las distintas funciones cognitivas, entre las cuales puede estar la toma de decisiones. Entonces, y esta es una tesis mía que enuncio en este blog sin más pretensiones que las puramente especulativas, podríamos tener redes complejas asociadas a las decisiones que tomamos, de forma que en buena parte esas decisiones serán inconscientes pues "estan programadas" en nuestro cerebro. Con lo cual se justificaría la afirmación del neuroeconomista Aldo Rustichini comentada en la introducción. A mi modo de ver, si esto fuera así, implicaría una pérdida del libre albedrío que nos parece que disfrutamos, pues en buena parte (recordemos, ¡un 90% de las decisiones!) estan programadas inconscientemente. Al menos nos quedaría, supongo, la libertad de re-programar nuestras redes, aunque sea parcialmente, acudiendo a psicoterapia ;-)

Para saber más...





viernes, 2 de diciembre de 2011

Elegante = verdadero


Frecuentemente los matemáticos y los físicos se guían por su intuición al enunciar y probar teorías; dicha intuición suele tener en cuenta propiedades aparentemente "inmateriales" como la elegancia y la belleza. ¿Por qué? 

Elegancia y belleza matemática
Platón afirmaba que la belleza debía de estar al servicio del conocimiento y del bien. Hoy en día los matemáticos y los físicos afirman que la “elegancia” de una teoría puede proporcionarles un indicio de su exactitud. Entendemos por elegancia el atributo de ser excepcionalmente eficaz y sencillo a la vez.
A este respecto recuerdo mi primer día de clase de la asignatura de Electromagnetismo en segundo de carrera (ya hace un montón de años), cuando el catedrático escribió las ecuaciones de Maxwell en la pizarra,


 
y acto seguido dijo “estas ecuaciones explican todos los fenómenos eléctricos, magnéticos y electromagnéticos, las ondas de radio, la luz, la radiación, todo. En el resto del curso nos dedicaremos exclusivamente a estudiar sus implicaciones”. Me impresionó tanta información de tanta importancia condensada en tan poco espacio y, además, expresada de una forma que permite hacer deducciones prácticas. A mi modo de ver, estas impresiones coinciden bastante con la definición de elegancia dada arriba: eficaz y simple. Además, presentan una evidente simetría, una alternancia entre los campos E y B.

Otra ecuación con numerosos adeptos en cuanto a su elegancia es la identidad de Euler,

que reúne en forma muy breve y simple, de forma sorprendente, a cinco valores importantes de las matemáticas, el número pi, el número de Euler, el número imaginario i, la unidad y el cero.


La percepción de la "belleza" a menudo implica la interpretación de alguna ecuación o ley de la naturaleza que produce sentimientos de atracción y bienestar emocional. En la mentes de los matemáticos, esta percepción parece estar relacionada con la elegancia: su eficacia y su modo directo de expresar una verdad universal.

Veamos a continuación dos corrientes de pensamiento acerca del  origen de la sensación de belleza y elegancia en las teorías científicas, particularmente en las matemáticas y la física: la platónica y la enunciada por las ciencias cognitivas.


Los platónicos
Sostienen que las verdades matemáticas son necesariamente existentes de forma independiente de la mente humana, lo que hacen los matemáticos es descubrir verdades que ya estaban ahí, independientemente de si hay o no alguien para hacerlo. La intuición matemática sería una "inspiración" que nos conecta con esa realidad pre-existente. No me extenderé más sobre esta corriente de opinión pues ya lo hice en otro artículo reciente: los fundamentos de la matemática, !no están fundamentados!,  al cual me remito. 

Sí añadiré que muchos matemáticos son platónicos incluso sin ser conscientes de ello: basta con fijarse en cuantos de ellos al hablar se expresan en términos de "descubrimientos". Por ejemplo, la identidad de Euler, ¿fue descubierta?  Responder sí implica aceptar que ya existía de antemano, pero era desconocida hasta que Euler la descubrió, y eso es platonismo matemático. Un buen artículo al respecto es Las verdades matemáticas, ¿se inventan o se descubren?, en el blog PsicoGeek.

Belleza y verdad en las ciencias cognitivas

En el otro extremo de opinión, por así decirlo, se sitúa la neurología, que busca explicaciones fisiológicas a todos los aspectos de la mente, incluso a aquellos más "espirituales" como la percepción de la belleza y de la verdad.

Investigadores de la Universidad de Michigan publicaron, en el 2004, una teoría de la sensación estética: afirma que nos parecen más bellas las obras de arte o piezas musicales cuando son fáciles de percibir. Posteriormente investigadores de la Universidad de Basilea mostraron que cuando el procesamiento mental de una afirmación es inesperadamente sencillo se incrementa la sensación de que dicha afirmación debe de ser cierta.
En la Universidad de Bergen han aplicado esta teoría a la intuición matemática, presentando problemas de aritmética simples a estudiantes de matemáticas en la forma de patrones de puntos, algunos expresaban verdades y otros falsedades:


Para cada suma de puntos sólo tenían dos segundos, así que no podían contar. Como resultado, las ecuaciones con simetría en los puntos (la suma superior de la figura) se consideraban con más frecuencia correctas aún siendo falsas. En el ejemplo, la igualdad simétrica es falsa, y la asimétrica verdadera. 

Según estos investigadores estos experimentos aportan indicios de la relación  entre elegancia y verdad matemática en la mente. El cerebro cuando ha de tomar decisiones prefiere aquellas alternativas que puede comprender con más facilidad, que también es aquella en la que las diferentes partes parecen encajar mejor. Esto proporciona sensaciones positivas: se experimenta la belleza como resultado de la facilidad de percepción.

Conclusiones
Parece fundamentada la afirmación de que la simetría está relacionada con la facilidad de percepción y comprensión, y a su vez con el sentimiento de elegancia, de forma que puede tener un papel en la intuición matemática. Aunque también es cierto que los teoremas científicos son mucho más complicados que los simples patrones de puntos usados por los investigadores, de forma que hay que afinar mucho más los experimentos. Por otra parte, la pregunta "¿el número pi fue descubierto o fue inventado?" sigue sin tener una respuesta última. De momento deberán de seguir coexistiendo platónicos y no-platónicos. 

Bibliografía
  • Mente y cerebro, Investigación y Ciencia, nº 42/2010



sábado, 26 de noviembre de 2011

Mística y ciencia

La unidad de conciencia en las filosofías y religiones

En las experiencias místicas de pueblos, culturas y épocas diversos encontramos una semejanza en la descripción de un estado místico en el que se experimenta la "identidad" de todas las mentes entre sí y con la "mente suprema"; también las religiones como el zen, el sufismo, el taoísmo, el tantrismo, los místicos cristianos, etc. presentan semejanzas en este aspecto. Algunos ejemplos de citas de místicos de procedencia diversa:

Me desprendí de mi yo como se desprende de su piel una serpiente. Después me miré y vi que yo soy Él.
Abu Yazid Al-Bistamit (siglo IX)

Todo lo que tu consideres como siendo yo, tu, él ella, y eso, todo es Uno.
Vedanta Advaita (siglo XIX)

Mi naturaleza se armoniza con la de Buda. Ya no hay dualidad, sino unidad y armonía: Satori.
Yoka Daishi: El canto del inmediato Satori (Budismo Zen)

No preguntes si el Principio está en esto o en aque­llo; está en todos los seres.
Chuang Tse, entre los siglos cuarto y tercero antes de J. C.

Mi Yo es Dios, y no reconozco otro Yo que mi Dios mismo.
Santa Catalina de Genova


Tenemos que reconocer que es sorprendente esta similitud entre personas de razas y religiones diferentes, separados entre sí por siglos e incluso milenios y por grandes distancias, y con poca o ninguna relación entre sí ni conocimiento mutuo. De hecho, la constatación de esta regularidad es en sí misma un hecho científico, que evidentemente puede tener diversas explicaciones.

¿El cerebro genera muchas conciencias en un único sujeto?
En nuestra experiencia subjetiva, solo podemos experimentar una conciencia: parece ser que la mente no es capaz de generar múltiples conciencias simultáneas. Quizá en casos patológicos, como en personas con daños cerebrales, esto no es así; es cierto que existen enfermos con personalidades múltiples, pero no es esto de lo que hablamos aquí, pues en cada instante la persona es consciente de una de las personalidades, de forma que sigue habiendo una única conciencia.
De lo poco que conocemos todavía sobre el funcionamiento del cerebro, sabemos que los actos de percepción utilizan áreas diversas, de forma que no hay una zona concreta responsable de la percepción. En la corteza cerebral hay áreas delimitadas e independientes para cada uno de los cinco sentidos. Así por ejemplo:

(...) las imágenes del ojo derecho y del izquierdo se elaboran de modo singular, cada una por su parte, combinándose luego en una única percepción. Equivale a tener dos subcerebros simples, uno para cada ojo, que colaboran debido a la simultaneidad de la acción, y no por una unidad estructural.
Cita resumida de Charles Sherrington, premio Nobel de Medicina en 1932.

Nuestro cuerpo está formado por un número astronómico de células (1014 ), cada una de ellas es un organismo vivo, y conjuntamente colaboran para crear nuestro organismo pluricelular; en cambio la mente no puede considerarse formada por la simple unión de neuronas; de hecho para la mente lo de menos son las neuronas, lo que importa son las conexiones entre ellas: las sinapsis, que posibilitan la creación de redes neuronales. Cada red neuronal se especializa en una determinada percepción; lo que no está claro es cómo se coordinan entre sí las diferentes redes para producir la única conciencia que experimentamos. De hecho no existe ningún circuito neuronal que haga de "director" de los demás. Podemos decir que el "yo" que experimentamos no tiene ningún circuito neuronal asociado, que sepamos, ni está alojado en ninguna área especializada del cerebro. Entonces, ¿cómo se forma nuestro yo?

Experiencia subjetiva y ciencia
El sujeto que contempla, percibe, siente, que tiene valores estéticos y éticos, es poco interesante para la ciencia, que se siente cómoda trabajando con hechos objetivos, independientes del sujeto que observa. Así, los modelos científicos presentan un mundo en el que tiene poca cabida lo personal, y por este motivo la ciencia es claramente atea, ya que difícilmente puede acojer a un Dios personal. Además, todo científico dirá: no encuentro ninguna deidad, ni tampoco la necesito para explicar el mundo. Y es lógico que sea así, pues los modelos que usa son objetivos, y anidan en el espacio y el tiempo. También es cierto que ésta última afirmación se debilita cuando pensamos en la teoría de la relatividad, que "rompe" los esquemas intuitivos de espacio y tiempo, y en la teoría cuántica, que introduce la subjetividad al enunciar que el observador y el experimento no son independientes. Quizá es por esta razón que muchos de los físicos pioneros en estos campos, Heisenberg, Schrödinger, Einstein, Planck, Pauli, Eddington, Bohm, ..., acabaron compartiendo la visión mística de la realidad como un todo indivisible. A continuación veremos cómo Erwin Schrödinger defendió esta idea.

El concepto de todos los "yo" son uno en Schrödinger
Schrödinger es conocido por su ecuación, valedora del premio Nobel de Física, que describe la evolución temporal de la función de onda cuántica, y también por su famosa paradoja del gato, que muestra la incompletitud de la formulación de la mecánica cuántica. Es menos conocida su aportación a la que voy a denominar "mística científica", que abordamos aquí. 

Sostiene Schrödinger que el "yo" al que nos referimos habitualmente, aquel que es el objeto de la psicología, es meramente una colección de datos recopilados en las experiencias del sujeto. Pero hay un "yo" más profundo que sirve soporte de aquellos datos, que es el sujeto de las experiencias.

El cuerpo funciona como un mecanismo automático siguiendo las leyes naturales; en cambio nuestra experiencia consciente señala que somo nosotros los responsables de nuestros movimientos: es el “yo” el que dirige al cuerpo. Entonces, ¿el yo es también parte del cuerpo? Intentar responder esta pregunta con el pensamiento resulta complicado, ya que el propio pensamiento se estudia a sí mismo, de forma que el objeto estudiado y el sujeto que estudia se confunden en uno. Pero con Schrödinger podemos acercarnos al concepto correcto indirectamente, observando diferentes líneas de pensamiento acerca del tema del yo, y comprobando si parecen converger en un punto, algo así como una extrapolación:



La línia de puntos asignada a la Ciencia indica que no ha postulado la conciencia única, pero numerosos científicos han apostado por ella, y además tal tesis no contradice, creo, ninguna de las leyes de la naturaleza conocidas. La lista no es de ningún modo exhaustiva, la última línia termina con puntos suspensivos queriendo indicarlo.

La totalidad de David Bohm
Otro brillante exponente de la mística científica es David Bohm; es conocido en el círculo científico por su trabajo en mecánica cuántica, particularmente por los modelos de variables ocultas. Pero también era un seguidor de la filosofía de la conciencia de Krishnamurti, que le inspiró para su teoría holográfica del universo (ver por ejemplo el artículo del blog la bella teoría), en la que cualquiera de sus elementos componentes contiene a todo lo demás, en una unidad que incluye a la materia y a la conciencia. En este blog he escrito algunos artículos sobre su concepción.

Conclusión
La antigua división entre ciencia y misticismo, que las hacía irreconciliables, se empezó a romper a principios del siglo XX a manos de numerosos físicos de primera línea, a los cuales se unieron posteriormente matemáticos "platónicos". En este sentido hay diversos intentos de fusión de ambas líneas de pensamiento; esto entodo caso enriquece nuestra visión del cosmos.

Referéncias

  • Cuestiones cuánticas, Ken Wilber
  • La totalidad y el orden implicado, David Bohm

Realidad, física cuántica y misticismo

Ayer estuve revisando un librito que tengo desde hace años, se titula " El espíritu en el átomo : una discusión sobre los misterios de...