Este 15 de Julio AMD libero oficialmente su 3ra generación de procesadores Ryzen con Inteligencia Artificial, los Ryzen AI 300, con denominación Strix Point.
Estos procesadores poseen arquitectura ZEN 5, gráficos RDNA3.5 y por el lado de la NPU basada en XDNA 2 con 50 TOPS.
Arquitectura ZEN 5
ZEN 5 representa una innovación arquitectónica en AMD, diseñado para la nueva generación de procesamiento.
Se enfoca en mejorar las instrucciones por ciclo con un aumento del 16% en IPC, amplía las unidades de ejecución, envío, y duplica ancho de banda de la caché.
En relación con la arquitectura, se ha incrementado la caché L1D a 48KB 12-way y su tiempo de carga es ahora de 4 ciclos, lo cual duplica el ancho de banda máximo hacia la caché L1 y la FPU. Además, la caché L2 ahora es 16-way, aunque conserva su tamaño de 1MB.
ZEN 5 ahora soporta AVX-512 con la totalidad de 512 bits disponibles, aumentando los pipelines FADD a 6 y así incrementando la cantidad de instrucciones de punto flotante que puede manejar, con el objetivo de optimizar la realización de tareas e instrucciones relacionadas con la Inteligencia Artificial.
Dentro de la arquitectura ZEN5 hay mejoras significativas en las unidades de Dispatch y Execution. Ahora son de 8-wide y se expandieron a 6 unidades aritméticas (ALU) con 3 múltiplos, y se incrementaron las unidades de generación de direcciones (AGU) a 4.
Con el fin de optimizar el IPC, se enfocaron en las etapas de Fetch y Branch Prediction. Esto resultó en la reducción de la latencia en la caché de instrucciones y una mejora en el ancho de banda, lo cual llevó a menos fallos de caché e incrementó el rendimiento global.
AMD asegura que, con las mejoras implementadas, la arquitectura ZEN5 superará a ZEN4 con un aumento del 16% en IPC de media, alcanzando mejoras de más del 30% en el rendimiento de tareas matemáticas.
AMD RDNA 3.5
Los nuevos procesadores incluyen una gráfica integrada con la arquitectura RDNA3.5, una mejora de RDNA3 diseñada específicamente para maximizar el rendimiento sin incrementar el consumo energético, ideal para dispositivos portátiles.
Para lograrlo, aumentaron la frecuencia de muestreo de texturas para aquellas que son más comúnmente usadas, y de manera similar, incrementaron las frecuencias de interpolación y comparación para las operaciones dominantes en los shaders.
Estas modificaciones llevaron a una optimización del número de instrucciones y operaciones por ciclo, lo cual resultó en un rendimiento mejorado, sin incurrir en tiempos de ejecución adicionales. Además, optimizaron el acceso a la memoria, reduciendo la frecuencia con la cual se accede a ella, y perfeccionaron las técnicas de compresión de datos, mejorando así tanto el rendimiento como la eficiencia en el uso de la memoria del sistema.
El análisis con la herramienta de benchmarking 3DMark TimeSpy muestra que, con un consumo energético de 15W, el modelo actual ofrece un aumento del rendimiento de hasta un 32% en comparación con la generación anterior. Esto indica una eficiencia significativamente mejorada, con ganancias que oscilan entre el 19% y el 32% a igualdad de potencia, evidenciando así una relación más favorable de rendimiento por vatio consumido.
XDNA 2 – NPU
Ahora entrando al componente de IA del procesador, la NPU, y en esta ocasión tenemos la XDNA2, evolución de XDNA liberada el 2023, para los Ryzen AI.
A medida que el volumen de trabajo para tareas de inteligencia artificial sigue en aumento, la necesidad de emplear unidades de cómputo especializadas se vuelve más crítica. Es así como se ha evolucionado en utilizar la CPU a adoptar la GPU para determinadas funciones; sin embargo, hay tareas específicas donde una Unidad de Procesamiento Neural (NPU) resulta esencial para alcanzar un nivel de eficiencia óptimo al ejecutar estas operaciones.
Según la naturaleza de la carga, la frecuencia de uso y las dimensiones del modelo que va en aumento, estos se están convirtiendo en elementos cruciales de los sistemas operativos variados. Por ello, disponer de una Unidad de Procesamiento Neural (NPU) puede incrementar el rendimiento en la ejecución de tareas de Inteligencia Artificial hasta 35 veces más comparado con su ejecución en una CPU, especialmente en términos de rendimiento por vatio.
EL motor de XDNA AI difiera bastante a nivel de arquitectura de una arquitectura clásica de un procesador multi núcleo y uso de cahe, en especial al momento de utilizar la memoria. XDNA utiliza una jerarquía flexible tanto en el cómputo, como en la jerarqúa de la memoria. AMD llama a sus unidades de cómputo AI Engine (AIE).
El motor de inteligencia artificial XDNA se diferencia significativamente en términos de arquitectura respecto a un procesador multinúcleo tradicional con uso de caché, particularmente en lo que respecta al manejo de la memoria. XDNA adopta una jerarquía adaptable tanto en el cómputo como en la organización de la memoria. AMD denomina a sus unidades de cálculo AI Engine (AIE).
AMD logra una mejora considerable entre la versión uno y dos de XDNA, logrando aumento en los bloques AI Engine de 20 a 32, y pasando de 10 NPU TOPS a 50 NPU TOPS
Ahora otro punto importante a tener en la mesa es como se gestiona la información, es decir el cómo se gestionan los tipos de datos importa mucho.
Por ejemplo, si se toman puntos flotantes de 8 bit, tendríamos menos información que si gestionáramos puntos flotantes de 16 bit. En que se traduce esto, si usamos un modelo de 8 bit, tendremos menos datos, con lo que tendremos una respuesta más rápida, pero no tan precisa, ahora si tenemos 16bit, tenemos muchos más datos, lo que nos da más precisión, pero mayor tiempo de procesamiento.
Bueno para esto AMD usa Block FP16, que es una técnica que se utiliza para mejorar el rendimiento en cálculos de **precisión de punto flotante**. Este formato es ideal en aplicaciones donde no se requiere una alta precisión, como **procesamiento de imágenes** y/o **redes neuronales**. Por ejemplo, en redes neuronales, los cálculos pueden realizarse con Block FP16 para acelerar el procesamiento sin sacrificar demasiada precisión.
Es decir, logramos buenos tiempos de respuesta, con una precisión adecuada para nuestro requerimiento. En esta SLIDE vemos el comportamiento del Block FP16 en distintos escenarios de tipos de datos.
Pruebas y comparativas Ryzen AI 300
A la fecha AMD ha compartido algunas SLIDE con el rendimiento de sus procesadores, comparándolos directamente con la competencia, específicamente hablamos del SNAPDRAGON X ELITE, el X1E-84-100 e inclusive INTEL, con su INTEL Core Ultra 9 185H.
Todas estas tablas y resultados, por el momento son directamente de AMD, por lo que parte de nuestros próximos pasos, es hacernos de algunos de estos equipos y poder obtener nosotros mismos resultados y conclusiones de estos procesadores.
Uno de los puntos importantes a destacar, el trabajo colaborativo que se ha generado entre AMD y Microsoft para poder lograr la compatibilidad y certificación de estos procesadores con los nuevos Copilot+PC.
Adicional a lo anterior, AMD presento una serie de patners con los cuales esperan ya a final de mes salir al mercado con productos que incorporen estos procesadores.