Correction: I had erroneously said that the Claude Code $20 plan had access to Opus 4.5. It does not, Opus 4.5 uses the API instead of your Claude Code subscription when using it on the $20 plan.
Releases
Claude Opus 4.5
The largest model in the Claude family has gotten its long awaited refresh, with Opus 4.5 being released this week.
A decent selection of benchmarks to compare against
Before we get into model quality, we need to talk about the much more interesting update to the model outside of its capabilities, which is its pricing.
Previous Opus models were arguably the best models for their time, but their extremely high price made it not worth it to use them.
This changes with the Opus 4.5 release, as Anthropic has gone and made Opus 3x cheaper than it had been previously.
| Model | $ per million (input) | $ per million (output) | Tokens per second |
|---|
| Claude Sonnet 4.5 | $3 | $15 | 57 |
| GPT 5.1 | $1.50 | $10 | 34 |
| Gemini 3 Pro Preview | $2 | $12 | 80 |
| Claude Opus 4.1 | $15 | $75 | 29 |
| Claude Opus 4.5 | $5 | $25 | 64 |
New pricing for Opus, still expensive, but justifiable if its performance is the best
Along with this decrease in cost, the model also uses far fewer tokens to achieve the same solution as Sonnet, making it potentially cheaper than Sonnet for medium and high difficulty tasks.
Opus now has different reasoning levels as well, similar to GPT 5.1
Now let’s finally talk about quality.
For coding, it is the first model I have seen that can compete with the raw intelligence that GPT 5.1 has.
For general coding tasks, it matches or exceeds the ability of GPT 5.1, and has excellent instruction following capabilities.
It still has the usual over eagerness for making additional changes, but it is easily mitigated by adding “Only make changes that are directly requested. Keep solutions simple and focused” to your prompt or CLAUDE.md instructions.
Its frontend ability out of the box is below Gemini 3, but with the frontend skill from Anthropic, it is able to match Gemini’s design capabilities.
Also, being a Claude model, it has an interesting personality and unique writing style, which coupled with the intelligence of Opus 4.5, make for a great model to chat with.
Anthropic also has been working on reducing the model’s sycophancy, with Opus 4.5 having a 60% reduction when compared with Sonnet 3.5.
Also note that since Opus has better instruction following capabilities, you may need to update your prompts for it. To make this easy, Anthropic has made a guide and also a plugin for Claude Code to migrate your rules for you.
Image model wars
Flux.2
Black Forest Labs has returned after a long (for the AI world) break to release their Flux.2 series of models.
The Flux.1 series of models were strong for their time, and while their closed source models had moderate success, their open source options of Flux Dev and Schnell became the go to models for the open source community.
The Flux.2 models have 4 variants, Pro, Flex, Dev, and Klein.
The Pro model is their flagship model with the highest quality at a low cost.
The Flex model allows you to take more control over model parameters, such as steps and guidance scale, while coming at a higher cost for this flexibility.
Dev continues to be the distilled open source model, and Klein (which has not been released yet) is meant to be a smaller and faster version of Dev.
In terms of capabilities, the Flux.2 models all see a bug jump from their previous version. They have better image detail and photorealism, text rendering, prompt following, world knowledge, and can generate images up to 4MP (previously they had only been able to do around 1-2MP).
The Flux.2 models all also support image editing out of the box as well, allowing up to 10 images to be used as references.
Flux.2 image — From Twitter
For the Dev model, since it is open source, we know that the model sizes have increased, as Flux.2 Dev now has a 24 billion parameter text encoder (Mistral Small) and a 8 billion parameter diffusion model.
We will get into the comparisons with other models below, but before then, there is another new image generation model we need to introduce.
Z Image
It has been a while since we have covered something from Alibaba, but this week they have released a new open source image generation and editing model called Z Image (not to be confused with Z.ai, the makers of the GLM series of LLMs).
Z Image is meant to be a small, fast, well polished model for hyper-realistic image and text rendering.
It has 6 billion parameters and uses Qwen3 4B as a text encoder and also a prompt expander.
It comes in 3 variants, turbo, which is the fully post-trained model, edit, which is an editing version, and base, which is the base pretrained model to use for finetuning.
Right now only the Turbo model has been released, with the other two expected in the coming weeks.
Z Image examples — from both from Twitter
If you want to see more examples of Z-Image, check out their gallery.
Comparisons against Nano Banana Pro
The usual sites that I use for head to head comparisons of models, LMArena and Artificial Analysis have not released scores for either model yet, so I will give the rough vibe check for what I have seen so far.
Fal has released a video doing a side by side comparison of the models, which is a good starting point for understanding the differences between the models.
Both models are very strong, and can compete with Nano Banana Pro in terms of quality, but fall short when you start getting picky about the details. Also when it comes to rendering large amounts of text or making infographics, neither come close to Nano Banana Pro.
Flux’s strong suit seems to be more artistic and stylized prompts, while Z Image is good at realism and text rendering, and is just okay at everything else.
| Model | $ per MP | Image Generation Time |
|---|
| Nano Banana Pro | $0.035 | 20 seconds |
| Flux.2 Pro | $0.012 | 10 seconds |
| Z Image | $0.005 | 1 second |
Flux is 3x cheaper than Nano Banana Pro and Z Image is 7x cheaper, and both are much faster as well. Pricing from Fal.ai
Nano Banana Pro vs Z Image — see more examples in the Reddit post
See more example in the Reddit post
Z Image makes sense as the best model to run locally, due to its small size and thus fast speeds, even on lower end hardware. It will also be interesting to see what the community can do with finetuning to try and make the model good at other types of images other than hyper-realistic ones. It is also what I would reach for if I need to make realistic images quickly for cheap.
Flux is a Swiss Army Knife model, with good aesthetics and prompt following. Similar to Z Image, I think the community will be able to do a lot with this model for fine tuning, so I expect it to only get better over time.
Nano Banana Pro is for the most complex prompts, prompts that require reasoning or tool use, and also for making diagrams, slides, or any other text heavy content.
Quick Hits
Anthropic API Features
Along with the Opus 4.5 release, Anthropic also released some features for their API that enhance the model’s ability to use tools.
These features are:
- Tool Search Tool
- Programmatic Tool Calling
- Tool Use Examples
You can read more about what these are and how they help in this Tweet or on their blog. These features are only for the API right now, but will most likely also be available in Claude Code in the near future.
Can LLMs reproduce Astrophysics Papers
Astrophysicists from Stanford wanted to know how good LLM’s are at reproducing Astrophysics papers, since they tend to be very data analysis heavy and require little to no real world interaction once the data has been collected.
What they found is that LLMs struggle with this task, with the best models scoring under 20% on the benchmark.
You can read the whole setup for the evaluation and their take-aways from it in their paper.

NPM Malware
Just a PSA:
There was a supply chain attack on NPM where many popular packages had malware injected into them that would scrape and steal your API keys.
You can see if your code has been affected using this tool.
Finish
I hope you enjoyed the news this week. If you want to get the news every week, be sure to join our mailing list below.
Frog King — made with Flux 2, from Civit AI. Nota: Este artigo foi traduzido automaticamente com Claude Sonnet 4.5; a qualidade pode estar reduzida, especialmente na terminologia técnica.
Lançamentos
Claude Opus 4.5
O maior modelo da família Claude recebeu sua atualização tão esperada, com o Opus 4.5 sendo lançado esta semana.
Uma seleção decente de benchmarks para comparar
Antes de entrarmos na qualidade do modelo, precisamos falar sobre a atualização muito mais interessante do modelo fora de suas capacidades, que é seu preço.
Os modelos Opus anteriores eram indiscutivelmente os melhores modelos de sua época, mas seu preço extremamente alto fazia com que não valesse a pena usá-los.
Isso muda com o lançamento do Opus 4.5, já que a Anthropic tornou o Opus 3x mais barato do que era anteriormente.
Eles também aumentaram a acessibilidade do modelo no plano de codificação Claude Code. Anteriormente, apenas aqueles inscritos no plano de assinatura de $100 ou $200 por mês tinham acesso ao Opus, mas agora a Anthropic deu acesso àqueles no plano de $20 por mês também. Isso também vem com um aumento nos limites de taxa, já que os assinantes Max ($100+ por mês) agora podem esperar usar o Opus tanto quanto eles estavam usando o Sonnet 4.5 anteriormente.
| Modelo | $ por milhão (entrada) | $ por milhão (saída) | Tokens por segundo |
|---|
| Claude Sonnet 4.5 | $3 | $15 | 57 |
| GPT 5.1 | $1.50 | $10 | 34 |
| Gemini 3 Pro Preview | $2 | $12 | 80 |
| Claude Opus 4.1 | $15 | $75 | 29 |
| Claude Opus 4.5 | $5 | $25 | 64 |
Novo preço para Opus, ainda caro, mas justificável se seu desempenho for o melhor
Junto com essa redução de custo, o modelo também usa muito menos tokens para alcançar a mesma solução que o Sonnet, tornando-o potencialmente mais barato que o Sonnet para tarefas de média e alta dificuldade.
Opus agora tem diferentes níveis de raciocínio também, similar ao GPT 5.1
Agora vamos finalmente falar sobre qualidade.
Para codificação, é o primeiro modelo que vi que pode competir com a inteligência bruta que o GPT 5.1 tem.
Para tarefas gerais de codificação, ele corresponde ou excede a capacidade do GPT 5.1, e tem excelentes capacidades de seguir instruções.
Ele ainda tem a ansiedade usual por fazer mudanças adicionais, mas é facilmente mitigado adicionando “Faça apenas mudanças que são diretamente solicitadas. Mantenha as soluções simples e focadas” ao seu prompt ou instruções CLAUDE.md.
Sua capacidade de frontend pronta para uso está abaixo do Gemini 3, mas com a habilidade de frontend da Anthropic, é capaz de igualar as capacidades de design do Gemini.
Além disso, sendo um modelo Claude, ele tem uma personalidade interessante e um estilo de escrita único, que juntamente com a inteligência do Opus 4.5, fazem dele um ótimo modelo para conversar.
A Anthropic também tem trabalhado na redução da bajulação do modelo, com o Opus 4.5 tendo uma redução de 60% quando comparado com o Sonnet 3.5.
No geral, este modelo será agora algo que usarei diariamente no Claude Code.
Espero ter alguns limites de taxa já que estou apenas no plano de $20 por mês da Anthropic, então estarei alternando para o GPT 5.1 sempre que isso acontecer, já que a OpenAI tem limites de taxa muito melhores para seu plano de $20.
Observe também que como o Opus tem melhores capacidades de seguir instruções, você pode precisar atualizar seus prompts para ele. Para facilitar isso, a Anthropic fez um guia e também um plugin para Claude Code migrar suas regras para você.
Guerra de modelos de imagem
Flux.2
Black Forest Labs retornou após uma longa (para o mundo de IA) pausa para lançar sua série de modelos Flux.2.
A série de modelos Flux.1 era forte para sua época, e enquanto seus modelos de código fechado tiveram sucesso moderado, suas opções de código aberto Flux Dev e Schnell se tornaram os modelos preferidos para a comunidade de código aberto.
Os modelos Flux.2 têm 4 variantes, Pro, Flex, Dev e Klein.
O modelo Pro é seu modelo principal com a mais alta qualidade a um baixo custo.
O modelo Flex permite que você tenha mais controle sobre os parâmetros do modelo, como passos e escala de orientação, enquanto vem com um custo mais alto por essa flexibilidade.
Dev continua sendo o modelo de código aberto destilado, e Klein (que ainda não foi lançado) é destinado a ser uma versão menor e mais rápida do Dev.
Em termos de capacidades, todos os modelos Flux.2 veem um grande salto em relação à sua versão anterior. Eles têm melhor detalhe de imagem e fotorrealismo, renderização de texto, acompanhamento de prompt, conhecimento do mundo, e podem gerar imagens de até 4MP (anteriormente eles só conseguiam fazer cerca de 1-2MP).
Todos os modelos Flux.2 também suportam edição de imagem pronta para uso, permitindo que até 10 imagens sejam usadas como referências.
Imagem Flux.2 — De Twitter
Para o modelo Dev, como é de código aberto, sabemos que os tamanhos dos modelos aumentaram, já que o Flux.2 Dev agora tem um codificador de texto de 24 bilhões de parâmetros (Mistral Small) e um modelo de difusão de 8 bilhões de parâmetros.
Entraremos nas comparações com outros modelos abaixo, mas antes disso, há outro novo modelo de geração de imagem que precisamos apresentar.
Z Image
Faz um tempo desde que cobrimos algo da Alibaba, mas esta semana eles lançaram um novo modelo de geração e edição de imagens de código aberto chamado Z Image (não confundir com Z.ai, os criadores da série GLM de LLMs).
Z Image é destinado a ser um modelo pequeno, rápido e bem polido para renderização hiper-realista de imagens e texto.
Ele tem 6 bilhões de parâmetros e usa Qwen3 4B como um codificador de texto e também um expansor de prompt.
Ele vem em 3 variantes, turbo, que é o modelo totalmente pós-treinado, edit, que é uma versão de edição, e base, que é o modelo base pré-treinado para usar para ajuste fino.
Atualmente apenas o modelo Turbo foi lançado, com os outros dois esperados nas próximas semanas.
Exemplos Z Image — de ambos de Twitter
Se você quiser ver mais exemplos de Z-Image, confira sua galeria.
Comparações contra Nano Banana Pro
Os sites usuais que uso para comparações diretas de modelos, LMArena e Artificial Analysis ainda não lançaram pontuações para nenhum dos modelos, então darei uma análise geral do que vi até agora.
Fal lançou um vídeo fazendo uma comparação lado a lado dos modelos, que é um bom ponto de partida para entender as diferenças entre os modelos.
Ambos os modelos são muito fortes e podem competir com o Nano Banana Pro em termos de qualidade, mas ficam aquém quando você começa a ser exigente sobre os detalhes. Além disso, quando se trata de renderizar grandes quantidades de texto ou fazer infográficos, nenhum deles chega perto do Nano Banana Pro.
O ponto forte do Flux parece ser prompts mais artísticos e estilizados, enquanto o Z Image é bom em realismo e renderização de texto, e é apenas razoável em tudo mais.
| Modelo | $ por MP | Tempo de Geração de Imagem |
|---|
| Nano Banana Pro | $0.035 | 20 segundos |
| Flux.2 Pro | $0.012 | 10 segundos |
| Z Image | $0.005 | 1 segundo |
Flux é 3x mais barato que Nano Banana Pro e Z Image é 7x mais barato, e ambos são muito mais rápidos também. Preços de Fal.ai
Nano Banana Pro vs Z Image — veja mais exemplos no post do Reddit
Veja mais exemplos no post do Reddit
Z Image faz sentido como o melhor modelo para rodar localmente, devido ao seu tamanho pequeno e assim velocidades rápidas, mesmo em hardware de menor potência. Também será interessante ver o que a comunidade pode fazer com ajuste fino para tentar tornar o modelo bom em outros tipos de imagens além de hiper-realistas. É também o que eu usaria se precisasse fazer imagens realistas rapidamente e de forma barata.
Flux é um modelo canivete suíço, com boa estética e acompanhamento de prompt. Semelhante ao Z Image, acho que a comunidade poderá fazer muito com este modelo para ajuste fino, então espero que ele só melhore com o tempo.
Nano Banana Pro é para os prompts mais complexos, prompts que requerem raciocínio ou uso de ferramentas, e também para fazer diagramas, slides ou qualquer outro conteúdo pesado em texto.
Destaques Rápidos
Recursos da API Anthropic
Junto com o lançamento do Opus 4.5, a Anthropic também lançou alguns recursos para sua API que melhoram a capacidade do modelo de usar ferramentas.
Esses recursos são:
- Ferramenta de Busca de Ferramentas
- Chamada de Ferramentas Programática
- Exemplos de Uso de Ferramentas
Você pode ler mais sobre o que são e como ajudam neste Tweet ou em seu blog. Esses recursos são apenas para a API agora, mas provavelmente também estarão disponíveis no Claude Code em um futuro próximo.
LLMs podem reproduzir Papers de Astrofísica
Astrofísicos de Stanford queriam saber quão bons os LLMs são em reproduzir papers de Astrofísica, já que eles tendem a ser muito pesados em análise de dados e requerem pouca ou nenhuma interação com o mundo real uma vez que os dados foram coletados.
O que eles descobriram é que os LLMs lutam com essa tarefa, com os melhores modelos pontuando menos de 20% no benchmark.
Você pode ler toda a configuração da avaliação e suas conclusões dela em seu paper.

Malware NPM
Apenas um aviso:
Houve um ataque à cadeia de suprimentos no NPM onde muitos pacotes populares tiveram malware injetado neles que rastrearia e roubaria suas chaves de API.
Você pode ver se seu código foi afetado usando esta ferramenta.
Conclusão
Espero que você tenha gostado das notícias desta semana. Se você quiser receber as notícias toda semana, certifique-se de se juntar à nossa lista de e-mails abaixo.
Rei Sapo — feito com Flux 2, de Civit AI. Nota: Este artículo fue traducido automáticamente con Claude Sonnet 4.5; la calidad puede verse degradada, especialmente en la terminología técnica.
Lanzamientos
Claude Opus 4.5
El modelo más grande de la familia Claude ha recibido su tan esperada actualización, con el lanzamiento de Opus 4.5 esta semana.
Una buena selección de benchmarks para comparar
Antes de entrar en la calidad del modelo, necesitamos hablar sobre la actualización mucho más interesante del modelo más allá de sus capacidades, que es su precio.
Los modelos Opus anteriores eran probablemente los mejores modelos para su época, pero su precio extremadamente alto hacía que no valiera la pena usarlos.
Esto cambia con el lanzamiento de Opus 4.5, ya que Anthropic ha hecho que Opus sea 3 veces más barato de lo que era anteriormente.
También han aumentado la accesibilidad del modelo en el plan de codificación de Claude Code. Anteriormente, solo aquellos suscritos al plan de $100 o $200 al mes tenían acceso a Opus, pero ahora Anthropic ha dado acceso a quienes tienen el plan de $20 al mes también. Esto también viene con un aumento en los límites de uso, ya que los suscriptores Max ($100+ al mes) ahora pueden esperar usar Opus tanto como habían estado usando Sonnet 4.5 anteriormente.
| Modelo | $ por millón (entrada) | $ por millón (salida) | Tokens por segundo |
|---|
| Claude Sonnet 4.5 | $3 | $15 | 57 |
| GPT 5.1 | $1.50 | $10 | 34 |
| Gemini 3 Pro Preview | $2 | $12 | 80 |
| Claude Opus 4.1 | $15 | $75 | 29 |
| Claude Opus 4.5 | $5 | $25 | 64 |
Nuevo precio para Opus, aún costoso, pero justificable si su rendimiento es el mejor
Junto con esta disminución en el costo, el modelo también usa muchos menos tokens para lograr la misma solución que Sonnet, lo que lo hace potencialmente más barato que Sonnet para tareas de dificultad media y alta.
Opus ahora también tiene diferentes niveles de razonamiento, similar a GPT 5.1
Ahora hablemos finalmente de calidad.
Para codificación, es el primer modelo que he visto que puede competir con la inteligencia bruta que tiene GPT 5.1.
Para tareas generales de codificación, iguala o supera la capacidad de GPT 5.1, y tiene excelentes capacidades de seguimiento de instrucciones.
Todavía tiene la habitual tendencia a hacer cambios adicionales, pero se mitiga fácilmente agregando “Solo haz cambios que se soliciten directamente. Mantén las soluciones simples y enfocadas” a tu prompt o instrucciones de CLAUDE.md.
Su capacidad de frontend desde el principio está por debajo de Gemini 3, pero con la habilidad de frontend de Anthropic, es capaz de igualar las capacidades de diseño de Gemini.
Además, al ser un modelo Claude, tiene una personalidad interesante y un estilo de escritura único, que junto con la inteligencia de Opus 4.5, lo convierten en un gran modelo para conversar.
Anthropic también ha estado trabajando en reducir la sicofancia del modelo, con Opus 4.5 teniendo una reducción del 60% en comparación con Sonnet 3.5.
En general, este modelo ahora será algo que usaré diariamente en Claude Code.
Espero tener algunos límites de uso ya que solo tengo el plan de $20 al mes de Anthropic, así que cambiaré a GPT 5.1 cuando eso suceda, ya que OpenAI tiene mejores límites de uso para su plan de $20.
También ten en cuenta que dado que Opus tiene mejores capacidades de seguimiento de instrucciones, es posible que necesites actualizar tus prompts para él. Para facilitar esto, Anthropic ha creado una guía y también un plugin para Claude Code para migrar tus reglas automáticamente.
Guerra de modelos de imagen
Flux.2
Black Forest Labs ha regresado después de un largo (para el mundo de la IA) descanso para lanzar su serie de modelos Flux.2.
La serie de modelos Flux.1 fueron fuertes para su época, y mientras sus modelos de código cerrado tuvieron un éxito moderado, sus opciones de código abierto de Flux Dev y Schnell se convirtieron en los modelos preferidos para la comunidad de código abierto.
Los modelos Flux.2 tienen 4 variantes: Pro, Flex, Dev y Klein.
El modelo Pro es su modelo insignia con la calidad más alta a bajo costo.
El modelo Flex te permite tomar más control sobre los parámetros del modelo, como pasos y escala de guía, aunque con un costo más alto por esta flexibilidad.
Dev continúa siendo el modelo de código abierto destilado, y Klein (que aún no se ha lanzado) está destinado a ser una versión más pequeña y rápida de Dev.
En términos de capacidades, todos los modelos Flux.2 ven un gran salto desde su versión anterior. Tienen mejor detalle de imagen y fotorrealismo, renderizado de texto, seguimiento de prompts, conocimiento del mundo, y pueden generar imágenes de hasta 4MP (anteriormente solo habían podido hacer alrededor de 1-2MP).
Todos los modelos Flux.2 también soportan edición de imágenes desde el principio, permitiendo usar hasta 10 imágenes como referencias.
Imagen de Flux.2 — Desde Twitter
Para el modelo Dev, dado que es de código abierto, sabemos que los tamaños del modelo han aumentado, ya que Flux.2 Dev ahora tiene un codificador de texto de 24 mil millones de parámetros (Mistral Small) y un modelo de difusión de 8 mil millones de parámetros.
Entraremos en las comparaciones con otros modelos a continuación, pero antes de eso, hay otro nuevo modelo de generación de imágenes que necesitamos presentar.
Z Image
Ha pasado un tiempo desde que cubrimos algo de Alibaba, pero esta semana han lanzado un nuevo modelo de código abierto de generación y edición de imágenes llamado Z Image (que no debe confundirse con Z.ai, los creadores de la serie GLM de LLMs).
Z Image está destinado a ser un modelo pequeño, rápido y bien pulido para renderizado de imágenes y texto hiperrealistas.
Tiene 6 mil millones de parámetros y usa Qwen3 4B como codificador de texto y también como expansor de prompts.
Viene en 3 variantes: turbo, que es el modelo totalmente post-entrenado, edit, que es una versión de edición, y base, que es el modelo base preentrenado para usar en ajuste fino.
Por ahora solo se ha lanzado el modelo Turbo, con los otros dos esperados en las próximas semanas.
Ejemplos de Z Image — de ambos de Twitter
Si quieres ver más ejemplos de Z-Image, consulta su galería.
Comparaciones contra Nano Banana Pro
Los sitios habituales que uso para comparaciones directas de modelos, LMArena y Artificial Analysis aún no han publicado puntuaciones para ninguno de estos modelos, así que daré un análisis aproximado de lo que he visto hasta ahora.
Fal ha lanzado un video haciendo una comparación lado a lado de los modelos, que es un buen punto de partida para entender las diferencias entre los modelos.
Ambos modelos son muy fuertes y pueden competir con Nano Banana Pro en términos de calidad, pero se quedan cortos cuando empiezas a ser exigente con los detalles. También cuando se trata de renderizar grandes cantidades de texto o hacer infografías, ninguno se acerca a Nano Banana Pro.
El punto fuerte de Flux parece ser los prompts más artísticos y estilizados, mientras que Z Image es bueno en realismo y renderizado de texto, y es simplemente aceptable en todo lo demás.
| Modelo | $ por MP | Tiempo de Generación de Imagen |
|---|
| Nano Banana Pro | $0.035 | 20 segundos |
| Flux.2 Pro | $0.012 | 10 segundos |
| Z Image | $0.005 | 1 segundo |
Flux es 3 veces más barato que Nano Banana Pro y Z Image es 7 veces más barato, y ambos son mucho más rápidos también. Precios de Fal.ai
Nano Banana Pro vs Z Image — ve más ejemplos en la publicación de Reddit
Ve más ejemplos en la publicación de Reddit
Z Image tiene sentido como el mejor modelo para ejecutar localmente, debido a su tamaño pequeño y por lo tanto velocidades rápidas, incluso en hardware de gama baja. También será interesante ver qué puede hacer la comunidad con el ajuste fino para tratar de hacer que el modelo sea bueno en otros tipos de imágenes además de las hiperrealistas. También es a lo que recurriría si necesito hacer imágenes realistas rápidamente y de forma económica.
Flux es un modelo navaja suiza, con buena estética y seguimiento de prompts. Similar a Z Image, creo que la comunidad podrá hacer mucho con este modelo para ajuste fino, así que espero que solo mejore con el tiempo.
Nano Banana Pro es para los prompts más complejos, prompts que requieren razonamiento o uso de herramientas, y también para hacer diagramas, diapositivas o cualquier otro contenido con mucho texto.
Noticias Breves
Características de la API de Anthropic
Junto con el lanzamiento de Opus 4.5, Anthropic también lanzó algunas características para su API que mejoran la capacidad del modelo de usar herramientas.
Estas características son:
- Tool Search Tool
- Programmatic Tool Calling
- Tool Use Examples
Puedes leer más sobre qué son estas características y cómo ayudan en este Tweet o en su blog. Estas características son solo para la API por ahora, pero muy probablemente también estarán disponibles en Claude Code en un futuro cercano.
¿Pueden los LLMs reproducir Artículos de Astrofísica?
Astrofísicos de Stanford querían saber qué tan buenos son los LLMs reproduciendo artículos de astrofísica, ya que tienden a ser muy pesados en análisis de datos y requieren poca o ninguna interacción con el mundo real una vez que se han recopilado los datos.
Lo que encontraron es que los LLMs tienen dificultades con esta tarea, con los mejores modelos obteniendo puntuaciones por debajo del 20% en el benchmark.
Puedes leer toda la configuración de la evaluación y sus conclusiones en su artículo.

Malware en NPM
Solo un aviso público:
Hubo un ataque a la cadena de suministro en NPM donde muchos paquetes populares tuvieron malware inyectado que raspaba y robaba tus claves de API.
Puedes ver si tu código ha sido afectado usando esta herramienta.
Final
Espero que hayas disfrutado las noticias de esta semana. Si quieres recibir las noticias cada semana, asegúrate de unirte a nuestra lista de correo a continuación.
Rey Rana — hecho con Flux 2, de Civit AI.