Releases
Grok 4.3
xAI (now a part of SpaceX) has quietly released Grok 4.3
Artificial Analysis benchmark scores, since xAI did not release any of their own
The model falls into the mushy middle with the likes of Meta’s Muse Spark and the plethora of Chinese models.
It is half a trillion parameters, and is around Sonnet 4.6 level on benchmarks, but based on the previous Grok models it is probably a bit overfit and will be behind Sonnet in real world use.
Grok 4.3 struggles relative to its Chinese rivals when it comes to coding and agentic tasks. It does shockingly well on the Vals AI, being the best model on their corporate finance and case law benchmarks, beating every other model (GPT 5.5 and Opus 4.7 included).
The orange bars are internal, private evals that Vals AI has made, and thus can’t be overfit on easily
If you are using AI for finance applications or case law, then I would give this model a look, otherwise it is a pass for now.
It will be interesting to see how xAI continues going forward, as they have lost every co founder (except Elon Musk) along with a large number of their top engineers.
Quick Hits
Mistral Medium 3.5
Mistral is still struggling to release a high quality model, with their 128 billion parameter dense “flagship” Mistral Medium 3.5 model being big, slow, expensive, and no better than similarly sized MoE models.
new mistral model: 128B dense with an arch from 3 years ago (llama 2), priced higher than deepseek v4 pro (1.6T total params, 1M context) and every other oss model that outperforms it — from elie on Twitter
Finish
I hope you enjoyed the news this week. If you want to get the news every week, be sure to join our mailing list below.
Neo Industrial design — by Kyle Anthony Miller on Twitter Nota: Este artigo foi traduzido automaticamente com Claude Sonnet 4.5; a qualidade pode estar reduzida, especialmente na terminologia técnica.
Lançamentos
Grok 4.3
A xAI (agora parte da SpaceX) lançou silenciosamente o Grok 4.3
Pontuações de benchmark da Artificial Analysis, já que a xAI não divulgou nenhuma das suas próprias
O modelo se encaixa no meio-termo com os gostos do Muse Spark da Meta e a infinidade de modelos chineses.
Ele possui meio trilhão de parâmetros e está em torno do nível do Sonnet 4.6 nos benchmarks, mas com base nos modelos Grok anteriores provavelmente está um pouco sobreajustado e ficará atrás do Sonnet no uso no mundo real.
O Grok 4.3 tem dificuldades em relação aos seus rivais chineses quando se trata de tarefas de programação e agentes. Ele se sai surpreendentemente bem no Vals AI, sendo o melhor modelo nos benchmarks de finanças corporativas e jurisprudência, superando todos os outros modelos (incluindo GPT 5.5 e Opus 4.7).
As barras laranja são avaliações internas e privadas feitas pelo Vals AI, e portanto não podem ser facilmente sobreajustadas
Se você utiliza IA para aplicações financeiras ou jurisprudência, eu recomendaria dar uma olhada neste modelo; caso contrário, é melhor aguardar por enquanto.
Será interessante acompanhar como a xAI seguirá em frente, já que eles perderam todos os cofundadores (exceto Elon Musk), além de um grande número dos seus principais engenheiros.
Destaques Rápidos
Mistral Medium 3.5
A Mistral ainda está enfrentando dificuldades para lançar um modelo de alta qualidade, com seu “carro-chefe” denso de 128 bilhões de parâmetros, o Mistral Medium 3.5, sendo grande, lento, caro e não melhor do que modelos MoE de tamanho semelhante.
novo modelo mistral: 128B denso com uma arquitetura de 3 anos atrás (llama 2), com preço mais alto que o deepseek v4 pro (1,6T de parâmetros totais, contexto de 1M) e todos os outros modelos open-source que o superam — de elie no Twitter
Encerramento
Espero que você tenha curtido as novidades desta semana. Se quiser receber as notícias toda semana, não deixe de se inscrever na nossa lista de e-mails abaixo.
Design Neo Industrial — por Kyle Anthony Miller no Twitter Nota: Este artículo fue traducido automáticamente con Claude Sonnet 4.5; la calidad puede verse degradada, especialmente en la terminología técnica.
Lanzamientos
Grok 4.3
xAI (ahora parte de SpaceX) ha lanzado silenciosamente Grok 4.3
Puntuaciones de referencia de Artificial Analysis, ya que xAI no publicó ninguna propia
El modelo se sitúa en un punto intermedio junto a modelos como Muse Spark de Meta y la gran cantidad de modelos chinos.
Cuenta con medio billón de parámetros y se encuentra aproximadamente al nivel de Sonnet 4.6 en los benchmarks, pero basándose en los modelos Grok anteriores, probablemente esté algo sobreajustado y quede por detrás de Sonnet en el uso real.
Grok 4.3 tiene dificultades frente a sus rivales chinos en lo que respecta a tareas de programación y agénticas. Sin embargo, obtiene resultados sorprendentemente buenos en Vals AI, siendo el mejor modelo en sus benchmarks de finanzas corporativas y jurisprudencia, superando a todos los demás modelos (incluyendo GPT 5.5 y Opus 4.7).
Las barras naranjas son evaluaciones internas y privadas que Vals AI ha creado y, por tanto, no pueden sobreajustarse fácilmente
Si utilizas IA para aplicaciones financieras o jurisprudencia, te recomiendo echarle un vistazo a este modelo; de lo contrario, por ahora es mejor descartarlo.
Será interesante ver cómo continúa xAI en el futuro, ya que han perdido a todos los cofundadores (excepto Elon Musk), junto con un gran número de sus ingenieros más destacados.
Noticias Rápidas
Mistral Medium 3.5
Mistral sigue teniendo dificultades para lanzar un modelo de alta calidad; su modelo “insignia” denso de 128 mil millones de parámetros, Mistral Medium 3.5, resulta grande, lento, costoso y no supera a modelos MoE de tamaño similar.
nuevo modelo de mistral: 128B denso con una arquitectura de hace 3 años (llama 2), con un precio mayor que deepseek v4 pro (1,6T parámetros totales, contexto de 1M) y que todos los demás modelos de código abierto que lo superan — de elie en Twitter
Cierre
Espero que hayas disfrutado las noticias de esta semana. Si quieres recibir las noticias cada semana, asegúrate de unirte a nuestra lista de correo a continuación.
Diseño Neo Industrial — por Kyle Anthony Miller en Twitter