El Tejido de la Realidad: Cómo un concepto de Platón anticipó la inteligencia artificial

La Symploké de Platón apunta a las cadenas de Markov y a cómo una dependencia puede abocar en un caso de Ley de Grandes Números.

La symploké (del griego symploké, "entrelazamiento" o "conexión") es una idea que Platón explora principalmente en El Sofista.La Tesis vendría a afirmar que la proposición "Nada se relaciona con nada" es tan falsa como "Todo se relaciona con todo". La realidad no es un caos absoluto ni una unidad indiferenciada.

Vale decir, Algunas cosas se relacionan con algunas otras: Existe una estructura selectiva de conexiones.

En términos modernos, la symploké es una teoría de la complejidad estructural: el universo (físico o de las ideas) es una red con nodos y conexiones específicas, no una sopa indiferenciada, un red de mundo-pequeño.

Las Cadenas de Markov: Es un modelo estocástico (aleatorio) donde la probabilidad de que ocurra un evento depende únicamente del evento inmediatamente anterior. Es el epítome de la "dependencia de corto alcance".

El sistema tiene "memoria" de un solo paso.

El caso de estudio que uso Andréi Márkov para crear las cadenas son precisamente las letras y la gramática, y digo precisamente porque eso es en lo que se fijó Platón para incoar su concepto filosófico de symploke.

Markov se dió cuenta de que en el poema Eugenio Oneguin cuando tu escoges un carácter al azar hay una probabilidad de que el siguiente carácter sea tal o cual, incluso él mismo, de manera de que se van encanando estadísticamente unas letras u otras y su aparición, en el poema final, seguirá también la Ley de Grandes Números a pesar de que los sucesos no sean dependientes.

Hasta la llegada de Markov se creía que la Ley de los Grandes Números exigía una independencia de eventos para que fuera que aquella surgiera. Esto le impulsó a teorizar a Pavel Nekrasov que si estadísticas como el crimen, nacimiento o matrimonios, guardaban un concordancia con la Ley de los Grandes Números por fuerza su eventualidad debía ser independiente, esto significará: que los agentes causantes de tales hechos tenían libre albedrío.

Andréi Márkov, a la sazón socialista y furibundo ateísta, explícitamente polemiza con esto y es hoy que este texto tiene caracteres que cuyo valor predictivo me está adelantando el procesador de texto.

Hay un video en el yotube de Veritasium que explica esto todo muy bien,

La symploké y las cadenas de Markov comparten la idea central de que el futuro estado del sistema depende de su estado actual y de las conexiones permitidas. En la symploké, una idea sólo puede llevar a otras con las que tiene una "conexión lógica". En una cadena de Markov, un estado sólo puede transicionar a otros para los que existe una probabilidad definida. Ambos rechazan la aleatoriedad caótica total (el "todo se conecta con todo" de Platón) y definen un conjunto de reglas de conexión mundo-pequeño.

Definitivamente, la symploké es el principio filosófico abstracto que justifica la misma actitud mental que luego las matemáticas formalizarían con herramientas como las Cadenas de Markov y las redes mundo-pequeño.

Todo esto nos va a permitir tratar con el Azar.

Vamos a ver cómo.

En esencia se podría decir que todos los modos de pensamiento son heurísticas salvo la seducción que de manera inédita entrega certezas. Pero lo relevante aquí de la deduccion no es su entrega final, la certeza, sino su cualidad pegamentosa que podría formularse como una parodia del sacramento matrimonial: "lo que la deducción ha unido, que no lo separe el hombre". Para el resto de enlaces, sí tenemos potestad humana.

Con la deducción se da el crear "muros" de carga que no se pueden derribar, el dar paso a un paso del pensamiento frente al "todo vale" del espacio abierto del resto de pensamientos. El pensamiento solo se abre paso por deducciones. El resto son puntos focales de encuentro con lo que o bien nos sale al encuentro la empiria, o bien la convención, pero dejando ese sin sabor de por qué aquí y no acullá.

Pues bien, el método de Montecarlo es una técnica computacional de "adivinar con datos" que usa de manera muy inteligente y symplokeada el Azar como una suerte de parkour semejante a los muros de Carga de la Lógica.

Empiezo explicando una aproximación bruta por burda usanza del Azar.

Imagina un círculo de radio 1 dentro de un cuadrado de lado 2. El área del círculo es πr² = π(1)² = π. El área del cuadrado es (2)² = 4.

La proporción del área del círculo respecto al área del cuadrado es π/4.

Ahora, "llueven" puntos aleatorios dentro del cuadrado. Para cada punto, calculas si cayó dentro del círculo.

La proporción de puntos que caen dentro del círculo respecto al total de puntos lanzados debería ser aproximadamente igual a π/4.
Puntos dentro del círculo / Total de puntos ≈ π / 4

Por lo tanto, podemos despejar π:
π ≈ 4 * (Puntos dentro del círculo / Total de puntos)

Cuántos más puntos aleatorios se usen, mejor será la aproximación de π. Con 100,000 puntos, puedes obtener fácilmente un valor de 3.14. Con un millón, te acercarás a 3.1416.

Esto sería el método exhaustivo de Arquímedes versión probabilista. Quiero decir, con el Método de Exhaución se tiene que Para calcular el área de un círculo (o otras formas), lo inscribes y circunscribes con polígonos de cada vez más lados. Al aumentar el número de lados (n), el área del polígono se "agota" o acerca exhaustivamente al área real del círculo. Es un proceso determinista y geométrico.

En lo que antes dijimos, para calcular la misma área, se "disparan" puntos aleatorios. La proporción de puntos que caen dentro de la figura respecto al total, multiplicada por el área del dominio conocido (el cuadrado que la contiene), da una aproximación del área. Es un proceso estocástico y estadístico.

Ahora bien, el primer ejemplo del cálculo de π no usa Cadenas de Markov. Ese es un Montecarlo "crudo" o "bruto". La verdadera potencia, que fue la que usaron Von Neumann, Ulam y Metropolis, viene al combinarlo con Cadenas de Markov, dando lugar al Muestreo de Markov Chain Monte Carlo (MCMC).

Así funciona: Digamos que ahora tiramos agua a un terreno y allí donde se encharca más, podemos adivinar que hay una mayor depresión.

Quiero decir, no puedo ver el terreno (la distribución de probabilidad compleja), pero puedo ir arrojando agua (generando muestras aleatorias) y observar dónde se acumula.

En Montecarlo Simple: Sería como lanzar cubos de agua desde el cielo de forma totalmente aleatoria. Al final, los charcos más grandes estarán en los valles más grandes y profundos, pero habremos gastado mucha agua (recursos computacionales) mojando zonas altas y laderas.

En MCMC (siguiendo la analogía), es como verter el agua desde un punto y dejar que la gravedad y la naturaleza del terreno hagan el trabajo. El agua explora el terreno de forma inteligente: fluye naturalmente hacia las zonas bajas y se queda allí. Un solo balde de agua puede revelarte muy eficientemente la geografía de las depresiones, porque su camino está guiado por la topografía (la función de probabilidad).

Al final, no necesitamos conocer la ecuación exacta del terreno. Basta con observar el patrón de los charcos para inferir con gran precisión la forma y profundidad de las depresiones. De la misma manera, el histograma de las muestras generadas por Montecarlo te permite "adivinar" o inferir la forma de la distribución de probabilidad subyacente.

Al final, lo que "fijas" con la cadena de Markov es el "esfuerzo" que para esa gota supondrá el movimiento en ascenso (mayor) o bajada (menor) . Para eso se usa Markov. Y las probabilidades transicionales que te pide cada paso Markov te lo tiene que dar las leyes generales (pej la gravedad). Quiero decir ,que por supuesto tienes que partir de una teoría base y no puedes usar Montecarlo (o Markov) a base de puro azar y así poder calcular patrones.

Mirado al detalle, y sin absoluto desmerecer el genio del inglés, La máquina de Turing puede ser vista como una aplicación general del principio de las cadenas de Markov a una máquina de telar de Jacquard donde el "programa" actúa como la "función base" que determina de manera determinista (o potencialmente probabilística) las transiciones de estado.

La máquina de Jacquard usaba tarjetas perforadas para "programar" un diseño en un telar. Cada tarjeta representaba una fila del diseño.

La "Cadena" eran las tarjetas las cuales se encadenaban secuencialmente. El estado del telar (la posición de los hilos, el patrón tejido) cambiaba con cada nueva tarjeta introducida de manera que el "Programa" actuaba como Fijador, esto es, el conjunto completo de tarjetas (el "programa") fijaba de manera absoluta y predeterminada la secuencia de operaciones del telar. La transición de un estado (patrón parcial) al siguiente estaba completamente determinada por la próxima tarjeta en la cadena.

¿Cómo une Turing a Markov?

Una Máquina de Turing se define por:

1. Una cinta infinita (la memoria).

2. Un cabezal que lee y escribe símbolos en la cinta.

3. Un conjunto finito de estados (como q0, q1, q_aceptar, q_rechazar).

4. Un programa (o tabla de transiciones). Esta es la clave.

El programa es exactamente lo que Platón llamaría la "lanzadera" (pensando también en lo textil) o "función base" de sus probabilidades o motivo de transición.

Es un conjunto de reglas de la forma:

(Estado Actual, Símbolo Leído)

→ (Nuevo Estado, Símbolo a Escribir, Movimiento [Izq/Der])

La Máquina de Telar de Jacquard demostró que las instrucciones físicas (el programa) podían gobernar un proceso mecánico complejo y definir su secuencia de estados.

Las Cadenas de Markov proporcionaron el lenguaje

matemático para describir sistemas que transitan entre estados según

reglas definidas.

Alan Turing sintetizó estos conceptos en un modelo abstracto, potente y general. Su máquina toma el "programa" (las tarjetas de Jacquard) y lo eleva a una "función de transición" formal y matemática que dicta, con certeza o con probabilidad, la evolución de los estados de la máquina (su configuración completa). No es que la Máquina de Turing sea una Cadena de Markov. Obvio. Es que Turing utilizó la estructura formal de una Cadena de Markov Determinista como el andamiaje central de su modelo, y lo hace además juntando dos conceptos, uno físico, la máquina de telar, y otro matemático, las cadenas de Márkov inspiradas a través de la manipulación de texto, que justamente le sirvieron también a Platón para pensar en la Symploké: la lanzadera textil y la gramática (que en griego se dice Elementos, de ahí también el título de la famosa obra de Euclides).

Si se ha desplegado con cuidado lo hasta ahora razonado, es fácil llegar a que lo único que se necesita para que un proceso siga siendo computable no es que sea determinista o indeterminista sino que siga encadenando cadenas de Markov, se viene a decir: que las probabilidades estén acotadas y no que cualquier estado pueda saltar a cualquier estado de cualquier modo con cualquier probabilidad.

La máquina de Turing respeta el Principio de Razon Suficiente (para decepción de Quentin Meillassoux).

Tradicionalmente, cierto es, se enseña la Máquina de Turing (MT) en su versión determinista. La teoría de la computabilidad, no obstante, es más general. Lo crucial no es la ausencia de aleatoriedad, sino la presencia de una estructura gobernada por reglas.

El principio, atribuido a Leibniz, establece que "nada ocurre sin una razón suficiente". En el contexto de la Máquina de Turing (y la computabilidad en general), esto se traduce perfectamente:

La "razón suficiente" para que la máquina pase del estado A al estado B es la existencia de una regla explícita en su tabla de transiciones (su programa) que lo especifique. Incluso en el caso no determinista, la "razón suficiente" para que haya un abanico de opciones (A -> B con P=0.3, A -> C con P=0.7) es, nuevamente, la existencia de esa regla que define las probabilidades.

Esto no viola el principio de la symploké. Al contrario, lo refuerza. Las transiciones posibles no son "cualquier cosa"; están estrictamente definidas y acotadas por la función de transición. El sistema no puede saltar a un estado que no esté listado en las reglas para su estado actual.

La "Computabilidad" se preserva porque el proceso sigue siendo una Cadena de Markov: el siguiente estado es una función (determinista o aleatoria) del estado actual. La aleatoriedad, cuando existe, está acotada y canalizada por las reglas.

La decepción para Meillassoux debiera ser que el dominio de la computación, que es el dominio de la lógica aplicada, es inherentemente un dominio de razón suficiente. Incluso el azar, cuando es utilizado computacionalmente (como en MCMC), no es el azar caótico y absoluto que él imagina para socavar el PRS. Es un azar domado, reglamentado y puesto al servicio de la exploración de una estructura lógica preexistente.

"Lo único que se necesita para que un proceso siga siendo computable... es que siga encadenando cadenas de Markov". Es decir, que respete la symploké. La Máquina de Turing, en todas sus variantes, es la formalización de este principio. No decepciona al PRS, al contrario, es su máxima expresión algorítmica.

Esto del Azar ontológico y el PRS explica el Problema de la Parada porque, en el fondo, el Problema de la Parada resucita el problema de la inducción.

A ver si me explico.

El Problema de la Parada pregunta: Dado un programa y una entrada, ¿puede existir un algoritmo general que decida de antemano si ese programa se detendrá o correrá para siempre?Respuesta de Turing: No, es indecidible.

El Problema de la Inducción (Hume) pregunta: Dada una secuencia observada de eventos (e.g., "el sol ha salido cada día"), ¿tenemos justificación racional para creer que continuará ocurriendo en el futuro?

Respuesta escéptica: No, la creencia en la regularidad es un hábito psicológico, no una conclusión lógica.

Si yo pudiera aplicar un Montecarlo "simple"(o sea, sin cadenas de Markov, más concretamente, sin conocer la función base) y aún así pudiera "fijar" los pesos de Markov: las probabilidades acotadas de transición entonces podría resolver el problema de la inducción.

Simplemente tiraría de muestras de azar y las reglas de transición emergerían de manera natural.

No obstante, quedó demostrado (Chaitin lo hizo) que una cadena de eventos no puede ser indentificada como aleatoria (Chaitin mediante). La demostración, por cierto, se vale de la misma razón por la que no podemos verificar la verdad de un hecho, a lo más falsarla. Aquí va:

Para una secuencia infinita, no hay un test definitivo que pueda probar que es aleatoria. Solo podemos probar que una secuencia no es aleatoria (e.g., encontrando un patrón o una compresión). La aleatoriedad es una propiedad que, en el fondo, solo podemos suponer o postular, pero no demostrar conclusivamente.

Esto significa que no podemos aplicar el ceteris paribus a una transición para saber que no habría un contrafáctico concurrente que modificaría la probabilidad que venimos anotando empíricamente.

Por ejemplo: que si hago suficientes muestreos aleatorios, llegaré a un punto en que sé qué probabilidad de tener infarto su sujeto S tiene y que ninguna nueva información sobre S (su salario, por caso) va a modificar esta probabilidad de transición.

El problema de la parada resucita el problema de la inducción y demuestra su insolubilidad computacional. La esperanza de usar un método estadístico para "techar" la inducción choca contra la pared de que no podemos encerrar al universo en un principio de "ceteris paribus" garantizado. La única manera de hacerlo sería teniendo acceso a la "función base" completa del universo (la "teoría del todo"), lo cual nos remite a la tesis Dunhem-Quine: para computar algo, antes debemos pre-suponer una función base a partir de la cual bayesianamente ir optimizando a través de ajustes empíricos.

La "Función Base" es el Supuesto Auxiliar (A): Porque para incluso comenzar a computar o modelar (ya sea con una MT o con MCMC), debemos presuponer una estructura. Esta es nuestra "symploké" hipotetizada.

Y si no existe el "Montecarlo puro" que pueda adivinar la función base desde cero esto implica que todo método de muestreo debe comenzar con una función de propuesta, que es nuestra hipótesis sobre cómo se estructura el espacio que estamos explorando o lo que es lo mismo: siempre se está haciendo uso de una metafísica porque computar, inducir y conocer son actividades inherentemente "sesgadas" y "teóricas".

La racionalidad metafísica no es un proceso a eliminar por sus supuestos, sino algo a tener para a partir de ella elegir los supuestos más fértiles y ajustarlos de manera inteligente porque toda computación, y por extensión todo acto de conocer, es un acto metafísico pero porque definir una "función base" —ya sea una tabla de transiciones, un kernel de Markov, una distribución previa (prior) bayesiana o una función de propuesta— es siempre un acto que trasciende los datos inmediatos: es una apuesta sobre la naturaleza de la realidad que se quiere explorar.

La symploké platónica, lejos de ser una filo-reliquia metafísica, se revela como el principio primordial: conocer es tejer una red de conexiones (una función base) y luego usar el mundo para tensionar esa red y ver dónde se rompe, para así tejer una mejor. Es un ciclo infinito, es un ciclo necesariamente ontologicista.

Campo de pláticas

El Tejido de la Realidad: Cómo un concepto de Platón anticipó la inteligencia artificial

Comentarios