04/2023 ~ Com gotes a l'oceà

Fa un parell de dies vaig crear un fil a Twitter que ha generat molta més expectació de l'esperada. Hi presentava quatre imatges generades amb Midjorney v5 de personatges populars de clàssics de la literatura catalana. Per generar-les vaig fer servir les descripcions dels personatges que em va donar ChatGPT a partir d'algunes preguntes que li vaig fer. En concret, vaig crear fotografies de la Natàlia de La Plaça del Diamant, la Mila de Solitud, en Manelic de Terra Baixa, i en Lluís d'Incerta Glòria.

Enllaç al fil a Twitter

Algunes persones m'heu preguntat pel procés, i pels prompts que he fet servir, perquè us agradaria provar-ho. Aquest apunt pot servir de tutorial i per inspirar-vos a fer altres experiments amb aquestes eines. Per a una opinió una mica més pausada i profunda sobre IA i creativitat, podeu llegir el meu article Poetes i robots.

En el cas que ens ocupa, el meu procés començà fent preguntes a ChatGPT sobre personatges concrets. S'ha d'anar amb compte, perquè el ChatGPT s'inventa les coses quan no les sap. I en literatura catalana, això passa molt sovint (penseu que en el seu entrenament ha tingut un accés molt limitat als textos originals de les obres). Per exemple, jo vaig demanar que descrigués la Natàlia la nit que coneix en Quimet (primeres pàgines de la novel·la), i va dir que duia jaqueta blava i mocador vermell (per això a la foto que vaig compartir surt així). Però a la novel·la, aquella nit la Natàlia porta un vestit blanc, si no vaig errat. Tot i això, la roba que descriu ChatGPT és coherent amb la d'altres parts de la novel·la.

Intentem-ho ara amb l'Alba, del Mecanoscrit del segon origen. Fem una primera pregunta a ChatGPT:

Com veieu, ja hi ha alguna cosa que s'inventa. Això del poble de la Selva a mi no em sona de res (però ep, fa dècades que la vaig llegir). I la descripció que fa tampoc és gaire gràfica ni ens va gaire bé si volem generar una imatge. Podem intentar afinar molt més. El secret d'aquestes eines és saber com preguntar. Fixeu-vos:

Aquesta sí que és una descripció que ens serveix per generar una imatge, sigui una foto sigui una il·lustració. Li podem demanar a ChatGPT que ho tradueixi a l'anglès i ho resumeixi en un sol paràgraf: a 14-year-old girl with brown hair, pulled back into a ponytail, with expressive eyes showing intelligence. Wearing a short-sleeved shirt, shorts, and sturdy boots. Her facial expression shows a mix of determination and hope. She is in a devastated world: ruined houses and fallen trees.

En traslladar aquest text a Midjourney, podem acabar d'afinar quan escrivim el prompt, i dir quin tipus de pla volem (per exemple: a wide shot), i passar-li alguns paràmetres, com la proporció amplada-alçada (en el meu cas,16:9).

I a partir d'aquí, en uns segons podem obtenir fotografies tan realistes com aquesta:

O demanar-li el mateix però en Anime:

Evidentment, podem generar les imatges a Midjourney sense necessitat de passar pel ChatGPT, partint dels nostres records sobre els personatges llegits, o buscant descripcions més acurades dintre de les novel·les i després utilitzar-les literalment. L'experiment que vaig fer, però, el que volia era combinar les dues eines i veure'n precisament les limitacions.

Deixant de banda aquest petit joc que barreja IA generativa i literatura, la veritat és que les fotos realistes que genera l'última versió de Midjourney són espectaculars. Tinc guardats molts exemples que no he ensenyat, però ja ho aniré fent.

Segueix llegint

3.4.23

Jugant amb la IA generativa i la literatura catalana