La semana pasada, un aficionado probó el nuevo modelo de recopilación de imágenes Flux AI fue descubierto Es inesperadamente bueno crear máquinas de escribir personalizadas. Si bien durante décadas existen métodos más eficientes para mostrar fuentes de computadora, la nueva técnica es útil para los entusiastas de las imágenes de IA porque Flux puede proporcionar representaciones precisas de texto y los usuarios ahora pueden insertar palabras representadas en fuentes personalizadas directamente en generaciones de imágenes de IA.
Hemos tenido la tecnología para crear con precisión fuentes fluidas renderizadas por computadora en formas personalizadas desde la década de 1980 (la década de 1970 en investigación), por lo que crear una fuente replicada por IA no es una gran noticia. Pero una nueva técnica significa que puedes ver aparecer una fuente particular en imágenes generadas por IA, como el menú de una pizarra en un restaurante con Photoshop o una tarjeta de presentación impresa de un zorro cyborg.
Poco después de la aparición de los principales modelos de síntesis de imágenes de IA, como el estándar extendido en 2022, algunos comenzaron Me pregunto: ¿Cómo inserto mi propio producto, ropa, personaje o estilo en una imagen generada por IA? Una respuesta que surgió llegó en forma de LORA (adaptación de bajo grado), una técnica fue descubierto 2021 permite a los usuarios aumentar el conocimiento sobre el modelo base de IA con complementos modulares personalizados.
Estos LoRA, llamados módulos, permiten que los modelos de conjuntos de imágenes generen nuevos conceptos que no se vieron originalmente (o estaban mal representados) en los datos de entrenamiento del modelo base. En la práctica, los aficionados al collage los utilizan para proporcionar estilos individuales (digamos todo lo que es arte de tiza) o sujetos (imágenes detalladas hombre arañaPor ejemplo). Cada lora debe ser entrenada especialmente utilizando ejemplos proporcionados por el usuario.
Hasta Flux, la mayoría de los generadores de imágenes de IA no destacaban en la representación de texto preciso dentro de una escena. Si obligaras a Standard Spread 1.5 a darte una identidad como «queso», sería una tontería. DALL-E 3 de OpenAI, lanzado el año pasado, fue el primer modelo convencional en escribir bien texto. Flux todavía a veces comete errores con palabras y caracteres, pero es el modelo de IA más hábil para representar «texto en el mundo» (como podría llamarlo) que hemos visto hasta ahora.
Dado que Flux es un modelo abierto disponible para descargar y ajustar, tenía sentido entrenar la fuente LoRA por primera vez el mes pasado. ese es uno Un entusiasta de la IA llamado Vadim Fedenko (que al cierre de esta edición no respondió a una solicitud de entrevista) se enteró recientemente. «Estoy muy impresionado con el resultado», escribió Fedenko. publicación en Reddit. «Flux toma el aspecto de los personajes en un determinado estilo/fuente, lo que permite entrenar a Loras con fuentes específicas, tipos de letra, etc. Pronto entrenaremos a muchos de ellos».
Para su primer experimento, Fedenko eligió una burbuja. Fuente de estilo «Y2K» Con reminiscencias de lo que fue popular a finales de los 90 y principios de los 2000, el resultado se publicó en la plataforma Civitai el 20 de agosto. Dos días después, el usuario de CVdaily «AggravatingScree7189» lanzó una segunda máquina de escribir, LoRA. Ciberpunk 2077 Videojuego.
«El texto era bastante malo antes de que pensara que podías hacerlo». escribió En reacción a la publicación de Fedenko sobre la fuente Y2K, el usuario de Reddit egg-benedryl. Otro redactor escribió«No sabía que el diario Y2K era falso hasta que lo acerqué».
¿Es demasiado?
Es cierto que utilizar una red neuronal de manipulación de imágenes profundamente entrenada para representar una fuente antigua y sencilla sobre un fondo sencillo es excesivo. No querrás utilizar este método para reemplazar Adobe Illustrator al diseñar un documento.
«Se ve genial, pero es divertido reinventar la idea de fuentes como loras de 300 MB». escribió Un comentarista de Reddit en un hilo Ciberpunk 2077 fuente.
La IA generativa a menudo es criticada por su impacto ambiental, y esta es una preocupación válida para los centros de datos masivos en la nube. Pero cuando Flux se ejecuta de forma nativa en un RTX 3060, vemos que estas fuentes se pueden insertar en escenas generadas por IA. Mesurado (escala reducida) (y el modelo de desarrollo completo puede ejecutarse en un RTX 3090). Eso es aproximadamente el mismo consumo de energía que jugar un videojuego en la misma computadora. Lo mismo ocurre con la creación de LoRA: creador Ciberpunk 2077 fuente Entrenado LoRA en tres horas en una GPU 3090.
Existen problemas éticos con el uso de generadores de imágenes de IA, como la forma en que se entrenan con datos recopilados sin el consentimiento del propietario del contenido. Aunque la tecnología genera división entre algunos artistas, una gran comunidad la utiliza todos los días. Compartir resultados en línea A través de sitios de redes sociales como Reddit, esto conduce a nuevas aplicaciones de dicha tecnología.
Al momento de escribir este artículo, solo hay dos LoRA de tipo de letra Flux personalizados, pero ya hemos oído hablar de planes que la gente está construyendo más al momento de escribir este artículo. Aunque todavía se encuentra en sus primeras etapas, si la síntesis de imágenes mediante IA se utiliza más ampliamente en el futuro, la técnica de generar fuentes LoRA se volverá fundamental. Es probable que Adobe, con sus propios modelos de colección de imágenes, lo considere.