Imágenes generadas por IA de foreros

El poder corregir algo de una imagen sin que te genere una nueva totalmente diferente.
Es imposible con la base de tecnología actual, para que sea posible, se necesita una tecnología más moderna que aún no es posible.

Los modelos actuales se basan en cierta aleatoriedad, donde se premia la creatividad sobre la precisión, es decir, están pensados de base de forma distinta a lo que justamente se necesitaría para hacer lo que comentas.

Otro tema es que un modelo distinto se encargara de modificar partes concretas de una imagen previa, pero aún así, el mismo prompt de modificación sobre una imagen original produciría de nuevo imágenes diferentes.
 
Esto es fascinante, maldita sea.

Es fascinante, sí.

Explica ese "maldita sea", que intuyo por dónde vas pero no estoy seguro...

La IA progresa adecuadamente, y lo hace rápido. Pero aún le falta el tener herramientas que hagan que no sea tan aleatoria. El poder corregir algo de una imagen sin que te genere una nueva totalmente diferente.

Avanza a un ritmo que asusta.

Y sí, ya empezamos a tener herramientas así. Lo comento en la siguiente cita.

Es imposible con la base de tecnología actual, para que sea posible, se necesita una tecnología más moderna que aún no es posible.

Los modelos actuales se basan en cierta aleatoriedad, donde se premia la creatividad sobre la precisión, es decir, están pensados de base de forma distinta a lo que justamente se necesitaría para hacer lo que comentas.

Otro tema es que un modelo distinto se encargara de modificar partes concretas de una imagen previa, pero aún así, el mismo prompt de modificación sobre una imagen original produciría de nuevo imágenes diferentes.


No estoy completamente de acuerdo.

Al igual que la generación de mensajes de texto ha mejorado infinitamente gracias a la capacidad de poder seguir la conversación y recordar de qué va lo que hablas en pasos anteriores, la generación de imágenes podría hacer lo mismo, pero es mucho más costoso y en realidad debiera abordarse como la edición de un resultado generado, y no como la creación de uno nuevo.

De hecho, en ImageFX tienes la posibilidad de hacer una edición limitada sobre la imagen generada, pudiendo seleccionar con una máscara la parte que quieres modificar, y con un espacio para indicar el prompt con el cambio que solicitas.

Aquí os lo muestro sobre esta imagen, en la que he seleccionado el suelo que pisan y le he pedido que lo cambie la tierra por un río.

21HYq05.jpeg



Y lo ha cambiado por un río sin agua, más seco que otra cosa...

I74Hhcz.jpeg



:ok:ok:ok
 
Otra serie a la que le tenía ganas, y la verdad, ha quedado preciosa.
Ha generado auténticas maravillas :amor

Wildlife mothers through photographers' eyes

Frans Lanting


ydh8nn8.png



Paul Nicklen

aqgbCT9.png



Art Wolfe

fNMRNtW.png



Steve Winter

w4OyuLN.png



Ami Vitale

F3JZP54.png



David Yarrow

Zch6G5Z.png



Joel Sartore

XWeQUzp.png


Thomas D. Mangelsen

HW3IoSg.png



Nick Brandt

1JtnzYI.png



Cristina Mittermeier

hkd6lMJ.png




Michael "Nick" Nichols

Euwa8ns.png



Tim Laman

64KtGXa.png



Greg du Toit

w0HMzzJ.png



Marsel van Oosten

K99gcYI.png


Beverly Joubert

XyYkqPT.png
 
De hecho, en ImageFX tienes la posibilidad de hacer una edición limitada sobre la imagen generada, pudiendo seleccionar con una máscara la parte que quieres modificar, y con un espacio para indicar el prompt con el cambio que solicitas.
Es lo que he dicho, y ese primor que solo afecta a la parte que dices, producirá igualmente resultados distintos cada vez que lo uses sobre la misma base de imagen.

En el corazón del sistema de la tecnología actual sobre la que todo esto se sustenta está la aleatoriedad. Pretender que no sea así es imposible, se necesita algo diferente desde cero.
 
Es lo que he dicho, y ese primor que solo afecta a la parte que dices, producirá igualmente resultados distintos cada vez que lo uses sobre la misma base de imagen.

En el corazón del sistema de la tecnología actual sobre la que todo esto se sustenta está la aleatoriedad. Pretender que no sea así es imposible, se necesita algo diferente desde cero.


Es una tecnología imperfecta, sí, pero a la velocidad que avanza tengo claro que se irá perfeccionando.

Así es como funciona el sistema, y en mi opinión es así como debe funcionar en su parte "generativa".

Se trata de que invente contenido que no existe en base a una información que debe ser lo más precisa posible para que obtenga los resultados deseados.

Editar ese resultado es función de una herramienta de edición de imágenes tradicionales, que deberán incorporar esta tecnología para que las correcciones y modificaciones que queramos realizar puedan ser creadas con un simple texto que indique lo que queremos hacer, como una herramienta más en la caja de herramientas.

De momento, el secreto está en el prompt, que debe ser lo más completo posible para llevar la creación por donde queremos. El LLM que utilizan como base cada una de las herramientas ha sido entrenado con miles de millones de variables, pero son una ínfima parte sobre todo el conocimiento que ha acumulado la humanidad, y no han sido entrenados con la información específica de tu entorno, de los sistemas de las empresas u organizaciones.

Ahora mismo se está trabajando en los sistemas RAG (Retrieval Augmented Generation) que permiten complementar el conocimiento general del LLM con el conocimiento específico que quieras, conectándolo con los sistemas de información de las compañías para poder obtener resultados precisos, aunque es todo un reto conseguir que las respuestas más sencillas sean siempre las mismas.

El método que utilizo para crear las series de imágenes que os comparto utiliza el prompt para acotar el resultado, y además de decirle que quiero algo, se lo completo para darle el contexto que quiero y que las variaciones tengan sentido y sean coherentes.

Tomando como ejemplo el combate de Ali vs Lee que nos proponía ayer @Hinomura Krycek, este sería mi prompt básico para generar un prompt específico:

Generate a prompt for a AI image generation tool, to create a signature photograph in Neil Leifer style, showing an action moment during a boxing combat between Muhammad Ali, wearing a white short with black strip, and Bruce Lee, wearing a golden short with red stripe. Mohammed is defending, covering his face with the gloves, while Bruce is punching him in the liver fiercely.

Y este sería el prompt que utilizaría:

Create a signature photograph in the iconic and perfectly timed style of Neil Leifer, capturing a high-intensity moment during a fictional boxing match between Muhammad Ali and Bruce Lee. The scene is set in a packed, electrified arena, with the crowd roaring in the background and the ring illuminated by bright, dramatic lighting.

Muhammad Ali, wearing white shorts with a black stripe, is in a defensive stance, his gloves raised to cover his face, his body slightly turned to absorb the impact. His expression is focused and strategic, showcasing his legendary defensive skills. Bruce Lee, wearing golden shorts with a red stripe, is mid-action, delivering a fierce punch to Ali's liver. His body is coiled with power, his face intense and determined, capturing his explosive speed and precision.

The composition should emphasize the dynamic energy of the fight, with sharp focus on the fighters and a slightly blurred background to highlight their movement. Sweat flies off their bodies, adding to the intensity of the moment. The lighting should be dramatic, casting strong shadows and highlighting the textures of their skin, gloves, and the ropes of the ring. The overall mood is one of power, speed, and the timeless allure of two legendary athletes in their prime, embodying the essence of Neil Leifer's ability to capture iconic moments in sports history.

¿Me ha hecho caso? Pues en el agunas cosas sí, y en otras no.

El estilo de la fotografía me cuadra y me gusta, Mohammed lleva el calzón blanco con cintura negra como le he pedido, Bruce lleva correctamente el calzón dorado, pero no la banda de la cintura no es roja como quería para representar la combinación dorado y rojo típica de china.

Y de la pose defensiva de Mohammed mientras le zurra Bruce, ni hablamos.

8oz4WGL.jpeg



Así que me conformo con este par de momentos, en donde cada uno coloca su golpe.

gPtAteq.png


0Of6xV2.png



Si quiero seguir con otra foto de la misma serie, en otro momento del combate, tengo que crear un prompt que mantenga el mismo escenario, y eso le pido a la IA:

Create another prompt, in the same scenario, after finishing the combat, with Mohammed Ali and Bruce Lee embracing each other in a gesture of fraternity

Que me ofrece este resultado:

Create a signature photograph in the iconic and emotive style of Neil Leifer, capturing a powerful moment of fraternity and respect after a fictional boxing match between Muhammad Ali and Bruce Lee. The scene is set in a packed, electrified arena, with the crowd on their feet, cheering and applauding in the background. The ring is illuminated by soft, warm light, creating a dramatic yet intimate atmosphere.

Muhammad Ali, wearing white shorts with a black stripe, and Bruce Lee, wearing golden shorts with a red stripe, stand at the center of the ring, embracing each other in a gesture of mutual respect and camaraderie. Ali's arms are wrapped around Bruce, his face showing a mix of exhaustion and admiration, while Bruce leans into the embrace, his expression reflecting humility and respect. Both fighters are glistening with sweat, their bodies bearing the marks of an intense battle.

The composition should emphasize the emotional connection between the two legends, with sharp focus on their faces and the embrace, while the background is slightly blurred to highlight the moment. The lighting should be soft and warm, casting gentle shadows and highlighting the textures of their skin, gloves, and the ropes of the ring. The overall mood is one of unity, respect, and the timeless bond between two iconic athletes, embodying the essence of Neil Leifer's ability to capture the human spirit in sports history.

Que aplico en ImageFX y obtengo el mismo escenario, la misma ropa, los mismos personajes, y en las poses que buscaba

7X77mlm.jpeg


No olvidemos que este combate nunca existió, y que la cámara de Neil Leifer tampoco estuvo allí, todo es fruto de mi imaginación con la ayuda de la IA

No sé a vosotros, pero a mí, me parece espectacular y maravilloso.

GTt74QQ.png


:ok :ok :ok
 
Es una tecnología imperfecta, sí, pero a la velocidad que avanza tengo claro que se irá perfeccionando.
No he dicho que sea imperfecta, está diseñada así, para comportarse así de base. Hay unos videos que se hicieron por parte de DotCSV en su momento donde se explica bastante bien la técnica que hay detrás sobre diferentes modelos, bastante denso en la parte más técnica, pero que son oro puro. El tema de las multidimensionalidades es algo que sí me deja loco, como consiguen generar todo el espectro temporal posible y elegir el resultado en base a eso, así como hacer lo mismo con otras dimensiones. De esa forma, las IAs son capaces de elegir en base a un sistema multidimensional cuyo corazón sigue siendo, por encima de todo, la creatividad basada en cierta aleatoriedad.

Ya lo de conectar las outputs de unos transformers a los inputs de otros es alucinante, pero siempre me he preguntado qué animaladas de energía y recursos técnicos deben consumir esos gigantescos modelos.
 
Podríamos abrir otro hilo sobre el uso de la inteligencia artificial generativa en otros campos, es un tema apasionante en donde creo que estaría más de acuerdo con lo que comenta @TheReeler

Pero en este hilo, que va de imágenes creadas por nosotros usando herramientas de IA, se trata de ver cómo utilizamos la tecnología para generar imágenes usando las tecnologías y cómo van evolucionando.

El hilo lo abrió @TheReeler en octubre de 2023 y si le dais un repaso, salta a la vista la evolución en la calidad de las creaciones, que tiene no solo que ver con la mejora de las tecnologías - que también - sino en cómo hemos aprendido a utilizarlas.

Como siempre me ha gustado hacer, intento compartir no solo el resultado, sino mis recetas para conseguirlo.

:ok :ok :ok
 
Lo interesante es la técnica de prompts que usa @DeBilbao , que sea la propia IA la que le diga a la IA lo que tiene que hacer... :D

Y por otra parte como domina mucho de foto, y conoce los estilos de muchos fotógrafos famosos... pues logra esos resultados que lucen tanto imitando esos estilos. :ok

Si la IA fuera mas consistente en los resultados estaría bien lograr hacer siempre TU propio estilo. Yo voy probando, y a veces se acerca a lo que de verdad quiero y a veces no... pero imaginación no nos falta, ni a mi ni a la IA. :cuniao
 
A ver. Si hemos cambiado la visión en 10 páginas de hilo en un mes, qué no vamos a ver en un año. Hablar de imperfección es de boomer. Pues claro que es imperfecto. Pero perdemos lo nuclear. Las imágenes son una creación, no existen en la realidad, y son alucinantes. De quedarse boquiabierto. Imperfecto eso?. Venga , hombre. Te podrán meter la perfección por el ojete y no la verás venir.
Lo que el ojo no ve y el oído no oye es la perfección y la práctica totalidad de seres humanos no ven las imperfecciones de nada. Hemos llegado a un nivel en que no sabemos distinguirlo. Y si lo haces como el Bilbaino te la mete por la escuadra
 
Lo que me flipa es de donde saca tiempo joserra para todo esto? No folla, no come, no sale de casa, está jubilado, de baja? Voy a preguntar a la ia

Realmente son solo ratos sueltos, aunque últimamente le dedico algo más porque el tema me ha fascinado.

Lo que realmente me alucina es lo poco que cuesta conseguir los resultados.

Acabo de deciros que estoy pensando en el Bilbao del futuro y aquí estoy con mis primeros bocetos.

RM374zn.png



LJiY20I.png



Bxn2Su3.png


AFpBfTa.png
 
Hemos llegado a un nivel en que no sabemos distinguirlo
Llegará el momento en que podamos pedirle a una IA que nos haga una película o una serie de TV a nuestro gusto, será la transformación del deseo en producto de consumo donde todos podremos jugar a ser directores de las películas que nos montemos.
 
Ya me veo de aquí a 10 años guisándome y comiéndome mi propia secuela de R.O.T.O.R. gracias a la IA. Sería maravilloso :mparto


¿10 años?

¡Anímate y hazlo ya! Aquí te dejo una idea para que te inspires...


1k4XgID.png


Título:
R.O.T.O.R.: Génesis

Director: Cullen Blaine (reimaginado con sensibilidad moderna)
Estilo: Una mezcla retrofuturista del camp de los 80 y visuales de vanguardia, manteniendo el encanto peculiar del original pero renovado para el público contemporáneo.
Tono: Una combinación de humor oscuro, comentario satírico sobre la tecnología y secuencias de acción exageradas.


Resumen de la trama:

Ambientada en el año 2045, R.O.T.O.R.: Génesis sirve como precuela del clásico de culto R.O.T.O.R., explorando los orígenes del programa R.O.T.O.R. (Oficial Robótico de Investigación para Operaciones Tácticas). La historia sigue al Dr. Harley Gibbons, un ingeniero en robótica brillante pero socialmente incómodo, quien es reclutado por una agencia gubernamental secreta para desarrollar la máquina definitiva de aplicación de la ley.

Gibbons, motivado por el deseo de crear un mundo más seguro, comienza a trabajar en el prototipo de R.O.T.O.R. Sin embargo, a medida que profundiza en el proyecto, descubre las verdaderas intenciones de la agencia: usar los robots no para la seguridad pública, sino para la vigilancia masiva y el control. Dividido entre sus ideales y la presión para completar el proyecto, Gibbons programa secretamente un mecanismo de seguridad en el sistema R.O.T.O.R., una directiva oculta que podría salvar a la humanidad o condenarla.

Cuando la agencia descubre la traición de Gibbons, activan el prototipo prematuramente, liberando una unidad R.O.T.O.R. rebelde que comienza a "hacer cumplir la justicia" a su propia y retorcida manera. Gibbons debe unirse a una hacker renegada y un exagente desilusionado para detener a la máquina antes de que evolucione más allá de su control.


Elementos clave:

  1. Estilo visual:
    • Una estética cyberpunk bañada en neón con un guiño a los 80. Piensa en Blade Runner 2049 mezclado con Stranger Things.
    • Efectos prácticos combinados con CGI para mantener una sensación táctil y cruda.
    • Las unidades R.O.T.O.R. son elegantes y amenazantes, con un diseño que rinde homenaje al original pero se siente futurista.
  2. Personajes:
    • Dr. Harley Gibbons: Un genio socialmente incómodo con una brújula moral, luchando con las implicaciones éticas de su trabajo.
    • Kara Voss: Una hacker renegada con un pasado misterioso, que se convierte en la aliada reluctante de Gibbons.
    • Agente Cole Riggs: Un exagente endurecido que conoce los oscuros secretos de la agencia y tiene una vendetta personal contra el programa R.O.T.O.R.
    • El Prototipo R.O.T.O.R.: Una máquina fría y calculadora con una presencia inquietantemente humana, con una voz modulada que oscila entre la calma y lo amenazante.
  3. Temas:
    • Los peligros del avance tecnológico descontrolado.
    • Los dilemas éticos de la inteligencia artificial y la automatización.
    • Sátira sobre la codicia corporativa y el exceso de control gubernamental.
  4. Secuencias de acción:
    • Persecuciones de autos de alta velocidad a través de paisajes urbanos futuristas.
    • Combates cuerpo a cuerpo entre humanos y unidades R.O.T.O.R., mostrando la fuerza y precisión aterradoras de las máquinas.
    • Un enfrentamiento climático en las instalaciones subterráneas de la agencia, donde Gibbons debe confrontar al prototipo R.O.T.O.R. y decidir si activar el mecanismo de seguridad, arriesgando su propia vida en el proceso.
  5. Banda sonora:
    • Una partitura synthwave que combina ritmos electrónicos retro con elementos orquestales modernos, creando una atmósfera electrizante.

Campaña de marketing:

  • Los tráilers enfatizan el estilo retrofuturista de la película, con eslóganes como "La justicia ha evolucionado... y no toma prisioneros."
  • Marketing viral que incluye noticias falsas sobre robots rebeldes y mensajes crípticos del programa R.O.T.O.R.
  • Merchandising de edición limitada, como réplicas de unidades R.O.T.O.R. y posters iluminados con neón.

R.O.T.O.R.: Génesis honraría el encanto camp del original mientras lo eleva a un thriller de ciencia ficción moderno y reflexivo. Es una carta de amor a las películas de acción de los 80, reimaginada para una nueva generación.
 
Arriba Pie