La mayor secuencia de palabras encadenadas

Aunque todos conocéis este juego, existen varias modalidades distintas en función de la forma de encadenar palabras, y qué palabras son válidas. Para esta prueba, vamos a considerar estas reglas:

  1. El primer jugador dice una palabra cualquiera.
  2. Los siguientes jugadores deben decir una palabra que empiece por la última sílaba de la palabra anterior, ignorando los acentos.
  3. No se puede repetir una misma palabra 2 veces.
  4. Sólo son válidas palabras que figuren en el diccionario. Aunque figuren en el diccionario, nombres propios, siglas y monosílabos tampoco son válidos.
  5. Al encadenar las palabras, se ignoran sus acentos.
Datos

En primer lugar, necesitamos obtener todas las palabras del diccionario de la lengua española. Aunque la RAE no proporciona un listado completo de palabras, Giusseppe Domínguez nos lo facilita.

Tras esto, necesitamos la descomposición silábica de todas las palabras del diccionario. Puede parecer trivial, pero es una tarea bastante compleja, ya que hay un gran número de reglas y excepciones. Por suerte, la librería Pyphen hace ese trabajo decentemente por nosotros.

Finalmente, tenemos una lista de 86993 palabras válidas separadas por sílabas.

Palabras por número de sílabas en español

Secuencia más larga

Para calcular la mayor secuencia posible, construimos un grafo dirigido cuyos nodos son las palabras en cuestión, y las aristas comunican dos palabras que puedan ser encadenadas.

Ejemplo de grafo de palabras encadenadas

De esta manera, el problema se reduce a encontrar el camino dirigido más largo de este grafo. A diferencia del camino más corto, encontrar el camino más largo en un grafo es un problema NP-completo. Con un grafo de 86993 nodos y 43053416 aristas, tardaríamos 1.82 × 101012 años en encontrar la solución perfecta a este problema, así que debemos probar soluciones aproximadas.

Camino aleatorio

Escogiendo caminos de forma aleatoria, el camino más largo obtenido es de tan sólo 92 palabras:

sopa -> pantalla -> llaneza -> [...] -> ramuja -> jagüel -> güeldrés

Esto se debe a que es fácil llegar a un sumidero, es decir, una palabra a la que es posible llegar, pero no es posible salir de ella, como es el caso de güeldrés.

Otras aproximaciones

Existen otras formas de resolver este problema, como:

¿Se te ocurren más formas de resolver este problema? ¿Cuál es la cadena más larga que has sido capaz de encontrar? Si lo deseas, puedes dejar un comentario con tus resultados.

Sé el primero en comentar!