En la actualidad, los clientes que evalúan la infraestructura de IA se basan en una combinación de pruebas de rendimiento estándar del sector y métricas de rendimiento de modelos reales -como las de Llama 3.1 405B, DeepSeek-R1 y otros modelos de código abierto de primera línea- para orientar sus decisiones de compra de GPU.
En AMD, creemos que ofrecer valor en ambas dimensiones es esencial para impulsar una mayor adopción de la IA y el despliegue en el mundo real a escala. Por eso adoptamos un enfoque holístico: optimizamos el rendimiento para pruebas de referencia rigurosas del sector como MLperf y, al mismo tiempo, ofrecemos compatibilidad de día 0 y ajuste rápido para los modelos más utilizados en producción por nuestros clientes. Esta estrategia ayuda a garantizar que las GPU AMD Instinct™ ofrezcan no solo un rendimiento sólido y estandarizado, sino también una inferencia de IA escalable y de alto rendimiento a través de los últimos modelos generativos y de lenguaje utilizados por los clientes.
En este blog, exploramos cómo la inversión continua de AMD en benchmarking, habilitación de modelos abiertos, software y herramientas de ecosistema ayuda a desbloquear un mayor valor para los clientes, desde
Resultados de MLPerf Inference 5.0 a Llama 3.1 405B y rendimiento de DeepSeek-R1, avances del software ROCm, y más allá.
Serie de primicias para AMD Instinct en MLPerf Inference 5.0
En la ronda MLPerf Inference 5.0, AMD marcó un hito con una serie de primicias significativas que ponen de relieve nuestro creciente impulso en esta referencia estándar clave del sector.
- Hemos enviado nuestros primeros números de inferencia MLPerf para AMD Instinct MI325X, nuestra última generación de GPU Instinct lanzada en octubre de 2024.
- Apoyamos la primera presentación multinodo de la historia utilizando la solución AMD Instinct en colaboración con un socio.
- Por primera vez, permitió a varios socios enviar resultados utilizando nuestras últimas GPU MI325X.
Aumentar la adopción del sector y ampliar nuestra presencia
Estamos orgullosos de que varios partners -Supermicro (SMC), ASUS y Gigabyte (GCT) con Instinct MI325X, y MangoBoost con Instinct MI300X- hayan presentado con éxito los resultados de MLPerf utilizando las GPU Instinct de AMD por primera vez.
Todos envíos de socios con Instinct MI325X en Llama 2 70B lograron resultados comparables.
con los resultados presentados por AMD (Figura 1), lo que subraya la consistencia y fiabilidad de nuestras GPU en diversos entornos.
Además de Llama 2 70B, AMD ha ampliado sus presentaciones para incluir Stable Diffusion XL (SDXL) con las últimas GPU Instinct MI325X, demostrando un rendimiento competitivo en
cargas de trabajo de IA generativa (véase la figura 1). Nuestras exclusivas técnicas de particionamiento de GPU desempeñaron un papel en la consecución de un rendimiento competitivo frente a NVIDIA H200 en nuestra presentación inaugural de SDXL.
Figura 1: Resultados de AMD (1× nodo Instinct MI325X, MLPerf 5.0) frente a NVIDIA (1x nodo H200) en las pruebas Llama 2 70B y SDXL
Más allá de MLPerf, AMD sigue ayudando a los clientes a implementar con confianza los modelos de IA más avanzados a escala. Recientemente ofrecimos soporte de Día 0 para los modelos Gemma 3 de Google, ayudando a permitir el acceso temprano a la inferencia de alto rendimiento en las GPUs AMD Instinct. Nuestro trabajo en curso con Llama 3.1 405B y DeepSeek-R1 también proporcionó un rendimiento de liderazgo a través de rápidos avances dirigidos por el software ROCm. Más adelante profundizaremos en estos aspectos destacados del rendimiento, así que ¡sigue leyendo!
Probando la escalabilidad: Un envío multinodo que bate récords
MangoBoost, un proveedor de soluciones de sistemas avanzados que maximizan la eficiencia del centro de datos de IA, realizó la primera presentación de un socio a MLperf utilizando varios nodos de soluciones AMD Instinct, concretamente con cuatro nodos de Instinct MI300X. En particular, esta presentación estableció un nuevo punto de referencia, logrando el mayor rendimiento en línea jamás registrado en presentaciones MLPerf para el punto de referencia Llama 2 70B (ver Figura 2). Esta presentación valida la escalabilidad y
rendimiento de las soluciones AMD Instinct en cargas de trabajo de IA multinodo.
Figura 2: Resultados de MangoBoost (4× nodos Instinct MI300X, MLPerf 5.0) frente a AMD (1× nodo Instinct MI300X, MLPerf 4.1) para la prueba Llama 2 70B
Rendimiento de MLPerf
En el núcleo de los sólidos resultados de AMD MLPerf Inference 5.0 se encuentra la sinergia entre el hardware Instinct MI325X y la innovación de software impulsada por ROCm™.
Cada nodo MI325X ofrece 2,048 TB de memoria HBM3e y 6 TB/s de ancho de banda, lo que permite que modelos como Llama 2 70B y SDXL se ejecuten íntegramente en memoria incluso en una sola GPU -incluida la caché KV-, evitando la sobrecarga entre GPU y maximizando el rendimiento.
Los últimos contenedores quincenales ROCm de AMD, disponibles a través de Infinity Hub, aportaron optimizaciones clave en la programación del núcleo, el ajuste de GEMM y la eficiencia de la inferencia, ayudando a liberar todo el del MI325X. Además, la herramienta AMD Quark permitió la cuantificación de FP16 a FP8, mientras que
Las mejoras introducidas en vLLM y en la gestión de la memoria aumentaron aún más el rendimiento de la inferencia.
Las últimas actualizaciones en todo el ecosistema ROCm están preparadas para mejorar aún más el rendimiento futuro de MLPerf de AMD y ayudar a los clientes de Instinct a escalar las cargas de trabajo de IA de forma más eficiente. El nuevo AI Tensor Engine para ROCm (AITER) acelera operaciones críticas como GEMM, Attention y Mixture-of-Experts utilizando kernels preoptimizados y listos para usar, proporcionando una ejecución del decodificador hasta 17 veces más rápida, mejoras de 14 veces en Multi-Head Attention y un rendimiento de más de 2 veces en LLM.
inferencia. Más información sobre AITER aquí.
AMD también ha presentado recientemente Open Performance and Efficiency Architecture (OPEA), un marco de trabajo multiplataforma que ofrece telemetría profunda en computación, memoria y energía. Integrada con ROCm y compatible con PyTorch, Triton y configuraciones multi-GPU, OPEA ayuda a los clientes de Instinct a optimizar el rendimiento y escalar desde el borde hasta la nube. Más información sobre OPEA aquí.
AdemásAMD GPU Operator simplifica la implementación nativa de Kubernetes de las GPU de AMD para entornos de IA de producción. Las actualizaciones recientes incluyen automatización mejorada, compatibilidad con GPU multiinstancia (MIG) e integración ROCm más profunda, lo que reduce la sobrecarga operativa y acelera la rentabilidad para los usuarios de Instinct. Explore nuestra serie de blogs AI Inference Orchestration with Kubernetes on Instinct aquí: Parte 1, Parte 2, Parte 3.
Juntas, estas mejoras seguirán ayudando a AMD a obtener buenos resultados en las presentaciones de MLPerf, al tiempo que proporcionan un valor y una escalabilidad aún mayores a los clientes de Instinct.
Mantener un rendimiento sólido en los modelos de código abierto más avanzados y recientes de la actualidad
Basándose en nuestro éxito MLPerf, AMD sigue ofreciendo un rendimiento excepcional en los principales modelos de IA de código abierto, en particular DeepSeek-R1 y Llama 3.1 405B.
Optimizado para las GPU AMD Instinct™ MI300X, DeepSeek-R1 se beneficia de las rápidas optimizaciones ROCm™, consiguiendo multiplicar por 4 la velocidad de inferencia en sólo 14 días. Aunque la MI300X compite directamente con la H100 de NVIDIA, su rendimiento rivaliza con la H200 (véase la figura 3), lo que la convierte en un
excelente opción por su escalabilidad, alto rendimiento y eficiencia. Más información sobre cómo reproducir este benchmark aquí.
Figura 3: Resultados de rendimiento AMD (1× nodo Instinct MI300X) frente a NVIDIA (1× nodo H200) en la prueba Deepseek R1
El modelo Llama 3.1 405B se ha optimizado para las GPU AMD Instinct™ MI300X, lo que ayuda a AMD a convertirse en la solución exclusiva de inferencing para el modelo de frontera de Meta gracias a su liderazgo en rendimiento. MI300X supera a H100 de NVIDIA en las cargas de trabajo ligadas a la memoria gracias a su mayor ancho de banda, al tiempo que reduce los costes de infraestructura al requerir menos nodos para modelos de gran tamaño. Con el soporte de Día 0, AMD ayudó a garantizar una implantación y optimización perfectas de este modelo de vanguardia desde el principio. Más información sobre cómo reproducir este benchmark aquí.
Figura 4: (1× nodo Instinct MI300X) frente a (1x nodo NVIDIA H100) rendimiento de Llama 3.1 405B FP8 frente a latencia con TP4 y TP8
Impulso continuo y compromiso con la transparencia
La inversión de AMD en escalabilidad de IA, rendimiento, avances de software y estrategia de código abierto son evidentes en nuestros resultados MLPerf v5.0, colaboraciones con la industria y optimizaciones para modelos de vanguardia como DeepSeek-R1 y Llama 3.1 405B. Con MI300X y MI325X, podemos
ofrecen soluciones de IA escalables y de alto rendimiento que impulsan la eficiencia y la rentabilidad.
A medida que impulsamos IA, AMD sigue dedicada a la transparencia, la innovación y la capacitación de los clientes para escalar la IA con confianza. Permanece atento a nuestra próxima presentación de MLPerf: estamos deseando compartir nuestros avances y conocimientos contigo.