Si no estás suscripto: Regístrate

–Exelente entrevista realizada por HPCWire a Thomas Sterling, marca, lo que para él, son los grandes desafíos para llegar a la computación exaescala–

 07 de mayo 2012

Thomas Sterling: “Creo que nunca llegaremos a Zettaflops ‘


Como la supercomputación hace su camino a través de la era petaescala, el futuro de la tecnología nunca ha sido tan incierto. El veterano en HPC  Thomas Sterling, profesor de Informática y Computación de la Universidad de Indiana, nos lleva a través de algunos de los acontecimientos más críticos de la computación de alto rendimiento, explicando por qué la transición a la exaescala va a ser muy diferentes de las que en el pasado y cómo los Estados Unidos  está perdiendo su liderazgo en innovación de HPC.

HPCwire: ¿Tiene la sensación de que otras regiones, China y Europa en particular, están cerrando la brecha de liderazgo HPC que los EE.UU. ha disfrutado durante tanto tiempo? Si es así, ¿crees que esto es más el resultado de la democratización de tecnología en lugar de las opciones políticas del gobierno?

Thomas Sterling: Es evidente que otras regiones no están cerrando la brecha de liderazgo HPC, lo están ampliando. A través de una serie de acciones tanto en la UE y Asia, el impulso se desplaza al extranjero, donde una vez  se atrincheró dentro de los EE.UU.. Los europeos a través de su EESI y próximas actividades EESI2 están haciendo progresos espectaculares en la planificación hacia una trayectoria dominante de la exaescala de la UE. Los rusos también están poniendo en colocar un programa que combina estrechamente coordinada exaescala la Universidad Estatal de Moscú, T plataformas, y el gobierno, no simplemente para duplicar los métodos anteriores de Estados Unidos, sino a innovar más allá de ellos.

Asia hoy en día representa el mayor aumento en los mejores equipos que realizan con la máquina 10 petaflops Kei en Kobe, Japón y el sistema de los 2,6 petaflops de Tianhe-1A en Tianjin. Tal vez más la definición, aunque algo menos potente, es el BlueLight Sunway, una máquina de petaflops clase construido en su totalidad de los microprocesadores chinos. Menos claro es el grado en que todas estas máquinas se están aplicando eficazmente a aplicaciones de uso final, pero es sólo cuestión de tiempo hasta que estas fortalezas impulsen la ciencia y otros objetivos de la industria más allá de la esfera de influencia de EE.UU..

La razón es una mezcla de la democratización de tecnología y la política del gobierno. Tampoco está trabajando en favor de los EE.UU.. Mientras que los EE.UU. será el despliegue de 10 y 20 máquinas de petaflops en el próximo par de años, es evidente que el impulso de la innovación es off-shore. Lo que puede revertir esta tendencia preocupante es la nueva – sin juego de palabras – energía en el Departamento de Energía en el impulso hacia la exaescala a través de los avances innovadores en software, métodos de programación de aplicaciones paralelas, algoritmos, y, finalmente, al menos hasta cierto grado en el hardware.

HPCwire: ¿Cómo es la transición a la exaescala diferente de las transiciones de otros hitos de HPC – TeraScale y petaescala – que hemos pasado?

Sterling: La transición a la exaescala es diferente de los dos anteriores de tres década a través de las transiciones que hemos pasado, y en dos aspectos fundamentales: uno relacionado con el pasado, y el otro el futuro. A principios de 1990, el “asesino de las micro,” DRAM barato, y el surgimiento de redes de área del sistema se manifiestan como MPP (por ejemplo, Intel Touchstone Delta) y los grupos de productos básicos (por ejemplo, mi propio proyecto Beowulf). Estos junto con el modelo de comunicación fundamental secuencial ejecución de los procesos se refleja en el modelo de programación de paso de mensajes establecido en  una fórmula para que coincida con débil escala de cargas de trabajo a las tecnologías de componentes VLSI.

En intervalos de unos 11 teraflops entregado este año a escala informática, ASCI Red en 1999, y petaflops escala, Roadrunner en 2008. Sin embargo, esta estrategia de gran éxito es poco probable que para facilitar la realización de la informática exaescala, excepto quizás para algunas cargas de trabajo especializados y cuidadosamente elaborado. Esto es porque los medios adoptados por este enfoque para abordar los factores clave de la degradación del rendimiento ya no resultar adecuado.

Por ejemplo, el paralelismo de instrucciones de grano fino y nivel de grano grueso de procesos concurrentes no proporcionará paralelismo eficaz suficiente para satisfacer el requisito de paralelismo millones-más-forma de exaescala. La asignación de recursos estáticos y programación de tareas no es suficiente para proporcionar la necesaria eficiencia y escalabilidad, así como las técnicas introspectivas necesarias para la fiabilidad y la administración de energía. Espero que la necesidad de nuevos modelos de programación, que puede incluir pero no limitarse a las variaciones de las técnicas anteriores, será esencial para la comunicación entre las aplicaciones de usuario y los sistemas subyacentes de ejecución.

Como he afirmado en el pasado, un modelo de nueva ejecución como la encarnación de un cambio de paradigma va a conducir esta transición de los sistemas antiguos a los nuevos. Hemos hecho esto antes en el caso de escalar para los vectores y SIMD, y de nuevo de estos lugares de paso de mensajes, MPP, y las agrupaciones. Ahora estamos sólo – o no tan simplemente – frente a otro cambio de fase en la programación del sistema HPC, la estructura y funcionamiento.

Exaescala también es diferente porque a diferencia de etapas anteriores, es poco probable que nos enfrentaremos a otra más en el futuro. Estas palabras pueden ser arrojados a la cara, pero creo que nunca llegará a zettaflops, al menos no por hacer discretas operaciones de punto flotante. Estamos llegando al tope de la tecnología de la curva S, y se aproxima a una asíntota de una sola ejecución del programa debido a una combinación de factores, como la granularidad atómica a escala nanométrica.

Por supuesto que anticipar algo más elaborado que se está más allá de mi imaginación, tal vez algo parecido a la computación cuántica, la computación metafórica, o la informática biológica. Pero sea lo que sea, no va a ser lo que hemos estado haciendo durante las últimas siete décadas. Ese es otro aspecto único de la etapa exaescala y la actividad. Para un número, supongo que alrededor de 64 exaflops sería el límite, dependiendo de la cantidad de dolor que estamos dispuestos a tolerar.

HPCwire: ¿Cuál es el reto más grande de hardware para lograr la informática exaescala?

Sterling: La respuesta habitual a esta pregunta es “poder” o “resistencia” y estos son sin duda desafíos críticos para la consecución de exaescala. Según el análisis de la elección, sin formas innovadoras de poder gestionar el movimiento vertical y lateral de los datos de estimaciones basadas en las tendencias tecnológicas previstas indicar un orden de magnitud de la demanda de energía mayor que se considera práctico. Modos de fallo individuales puntuales de los sistemas que comprenden cientos de millones de núcleos exhibirá el tiempo medio de interrupción-del orden de minutos o segundos muchos, y mucho menos que el tiempo de espera para dar servicio a un puesto de control o reiniciar el ciclo con los métodos convencionales.

Si bien ambos son claramente importantes, creo que el reto más grande de hardware es la arquitectura. Esto puede sorprender a muchos de nuestros colegas, porque hay una expectativa general de que la arquitectura del sistema es probable que sea una extensión de la evolución de la actual combinación de tomas múltiples núcleos GPU y los aceleradores. Este punto de vista es impulsado por la preocupación número uno, que es el paralelismo y la necesidad de exponer y lo explotan. No sólo la arquitectura del sistema tiene que proporcionar la concurrencia de hardware suficiente en el orden de mil millones o más acciones simultáneas para la productividad requerida, se tendrá que utilizar más de ella como un método de latencia de la mitigación del cambio que requiere la arquitectura adicional.

Además, se tendrán que incorporar mecanismos para reducir los gastos generales con el fin de hacer un uso eficaz de las tareas de granularidad más fina (por ejemplo, las discusiones de los usuarios de peso ligero), tales como la creación de instancias de las acciones a distancia. Soporte para las formas avanzadas de espacios de direcciones globales, su gestión, y la traducción de direcciones se requiere en apoyo de los datos globales distribuidos al azar (por ejemplo, gráficos dinámicos). Nuevos mecanismos para la sincronización eficiente semánticamente ricos y la continuación (objeto de control) para gestionar la migración de la localidad de control será parte de los diseños del futuro si se quiere tener éxito en una escala sin precedentes.

Mecanismos adicionales de hardware se requiere para la tolerancia a fallos como la detección de errores, el aislamiento, puntos de control en la memoria y la recuperación a través de la reconfiguración. Reducción de potencia exigirá sensor activo y los mecanismos de control de hardware para ajustar continuamente el consumo de energía basado en la demanda de aplicaciones. Nuevos núcleos de procesador y su relación con la memoria (por ejemplo, el procesador en la memoria) de ancho de banda superior, reduce la latencia y menor consumo de energía aún más para impulsar la innovación que el hardware necesita.

HPCwire: ¿Qué desafíos de software?

Sterling: Cada avance en el hardware requerirá los cambios correspondientes en el software. Sin embargo, el desafío del software se extiende más allá de este papel de apoyo. Quizás lo más importante es la evolución del rendimiento de software orientado a sistema de ejecución para la computación escalable. En este tipo de software se incluyen la programación dinámica para las discusiones de los usuarios de peso ligero, controlado por mensajes de cálculo para llevar el trabajo a los datos, la gestión global de direcciones del espacio, y el apoyo una vez más eficiente para los objetos de sincronización de gran alcance como la construcción de los futuros para eliminar el uso de las barreras globales y permitir la asincronía a controlar a través de la adaptación dinámica.

El modelo de ejecución ParalleX, así como el sistema de ejecución HPX-3 prototipo y el enjambre ETI que encarnan muchos de sus principios, son dos ejemplos que apoyan estos objetivos, incluso en las arquitecturas de sistemas distribuidos paralelo convencionales actuales . Pero no son sólo un comienzo como la necesidad de una nueva generación de tolerancia a fallos y el control de gestión de la energía se requiere, también. Con mil millones de núcleos, la jerarquía de memoria, y las comunicaciones en capas, un nuevo sistema operativo escalable y robusto será necesario. Una nueva arquitectura de software se requiere para proporcionar un contexto en el que tanto tiempo de ejecución y el sistema operativo deben ser mutuamente diseñado.

Un desafío importante es una nueva interfaz y definición de protocolo entre el tiempo de ejecución y el sistema operativo que permite una dinámica única para que una relación simbiótica de apoyo mutuo e interactivo. La presencia de un sistema de ejecución del rendimiento también impone nuevas demandas y la clase de funcionalidad en los compiladores del futuro que ahora desempeñan un papel muy diferente, dada la existencia de un tiempo de ejecución y la explotación de las técnicas introspectivas. Estos cambios afectan a filtrarse a la necesidad de nuevas interfaces de programación de aplicaciones. En esta combinación sugiere, posiblemente, un stack de software totalmente nuevo para la informática exaescala lo que implica que no es demasiado pronto para invertir en y llevar a cabo la investigación en estas áreas ya.

HPCwire: ¿Crees que la industria va a proporcionar el hardware de varios núcleos adecuado y los productos de software que pueden ser aplicados a la computación de alto rendimiento – para exaescala, sino también para HPC en general?

Sterling: . Esta es una pregunta complicada con la respuesta en función de lo que se entiende por “la industria”, “adecuado” y “productos” Yo no soy optimista sobre la ruta actual y las ofrendas que gradualmente extendió a exaescala, y planes de trabajo de la industria que asume este enfoque se han reduciendo en el impacto sobre el rango total de los problemas que eventualmente se aplicarán a su capacidad de exaescala en espacio de soluciones. No creo que nosotros como comunidad sepamos lo suficiente en este punto para establecer lo que el hardware adecuado / software de la máquina es para uso general exaescala o incluso si ese sistema es posible dentro de los límites del paralelismo, la energía y la fiabilidad.

Por lo tanto afirmar que los vendors particulares tienen bajo control tiene un valor limitado en el mejor de los casos. El espacio de diseño es demasiado complicado, los métodos anteriores para la ampliación de la Ley de Moore se aplica a un grado decreciente, toda las nuevas modalidades que exigen componentes avanzados de tiempo de ejecución aún no se deriva, pero son esenciales, y la generalidad ya la disminución en un grado preocupante de tales afirmaciones a tienen una validez significativa.

Sin embargo, la industria deberá entregar los sistemas que se utilizarán en la próxima década. No hay otra opción. Está claro que los vendors preferirían no tener que rediseñar y esto es cierto para los usuarios también. Para ello implicará un cierto grado de perturbación que sería mejor evitar si fuera posible. Y para una porción de la carga de trabajo general, incluso a exaescala, esto puede llegar a ser posible. Pero tales sistemas son un placebo a un enfermo de la comunidad de HPC que, si no en el triaje, ya está mostrando síntomas de enfermedades subyacentes que requieren atención.

El gran obstáculo es que la industria está de lleno en la necesidad de abordar el reto de todo el sistema de cómputo en paralelo a nivel de núcleo de procesador, refactors la relación física y lógica entre los núcleos y los bancos de memoria para una latencia mínima y el máximo ancho de banda, y las transiciones de estática a dinámica de los modelos de ejecución y el sistema de software. Yo espero que esto suceda, pero no sin un fuerte impulso por parte del usuario de organismos  de misión crítica .

Thomas Sterling hará la entrega de la apertura Miércoles en la Conferencia de este año Internacional de Supercomputación (ISC’12), que tendrá lugar en Hamburgo, Alemania a partir de junio 17-21. Su presentación examinará los logros en los últimos 12 meses en la computación de alto rendimiento.

Fuente: HPCWire

 

Deja un comentario

Powered by WP Symposium - Social Networking for WordPress v12.03.10