Processeur de matrice - Colonne du cercle informatique

Développement

La puce de processeur inventée en 1971 joue un rôle dans la définition de l'ordinateur. Depuis lors, l'ordinateur a évolué conformément au développement de la puce du processeur. C'est l'ordinateur sur la puce, le processeur L'ISA (Instruction Set Architecture, architecture de jeu d'instructions) de la puce a déjà dominé le monde. En 1987, les gens ont proposé le concept de système sur puce (SoC) pour étudier comment transférer la conception du système informatique vers la conception du système sur puce, qui jouera un rôle dans le remplacement. La puce système possède une puce système MP (multiprocesseur) interconnectée par bus et une puce système AP (ArrayProcessor) connectée au réseau, mais la puce système AP n'a pas encore atteint un stade de maturité. La conception de la puce offre une opportunité de compétition. Par conséquent, nous avons mené des recherches sur l'architecture de la puce du système MPP (Massively Parallel Processing, Massively Parallel Processing). Maintenant, à partir de l'unification des quatre aspects du mode de calcul du flux de données, de la puce de réseau de calcul parallèle, de la technologie mathématique d'évolution des applications et de la technologie de fabrication de puces à base de silicium, le développement de la puce du système de processeur de réseau a été étudié et comment concevoir un puce système de processeur de matrice avec une architecture unifiée, appelée puce système APU (Array Processing for Unification architecture, Array Processing for Unification architecture).

L'unification du mode de calcul des flux de données

La machine abstraite de Turing en 1935 a défini le mode de calcul qui contrôle le flux de données et termine le calcul. Maintenant, il a formé le flux d'instructions, le flux de données et la structure. Laissez couler trois modes de calcul qui contrôlent le flux de données. Le mode de calcul populaire actuel pour contrôler le flux de données est principalement le mode de calcul du flux d'instructions de von Neumann, qui a quatre architectures de SISD, SIMD, MISD et MIMD. Mais les puces monocœur/multicœur/plusieurs cœurs actuelles implémentent uniquement le mode de calcul du flux d'instructions SISD, ainsi que MMX [SIMD], pipeline [MISD], VLIW [MIMD] et d'autres modes de calcul de flux d'instructions à faible parallèle . Le mode de calcul du flot d'instructions de SIMD étant le plus adapté aux algorithmes de traitement d'images, les processeurs et calculateurs de l'architecture SIMD ont déjà été développés. Le mode de calcul de flux de données est réalisé par des puces ASIC/ASSP conçues par des circuits ou des puces FPGA reconstruites statiquement, tandis que le mode de calcul de flux structuré est réalisé par des puces RCDevice (ReConfigurable Device) reconfigurables. Leur efficacité de calcul élevée, le seuil de conception des applications est également élevé, il n'y a pas de flexibilité dans la programmation et il existe de nombreux types de puces. Par conséquent, nous avons étudié et mis en œuvre le mode de calcul du flux d'instructions MISD/MIMD, qui a non seulement l'efficacité de calcul du mode de calcul du flux de données/flux de structure, mais a également la flexibilité de la conception du programme, le seuil de conception de l'application est bas, et la variété de chips est petite. Etc. L'unification du mode de calcul consiste à utiliser le mode de calcul de flux d'instructions MISD/MIMD pour remplacer le mode de calcul de flux de données/flux de structure sans flexibilité de programmation, de sorte que tous les calculs soient unifiés dans le mode de calcul de flux d'instructions.

Unification des puces de réseau de calcul parallèle

Du point de vue du calcul parallèle, il existe des puces de matrice pour le calcul parallèle au niveau des tâches, le calcul parallèle au niveau des données, le calcul parallèle au niveau des opérations et le calcul parallèle au niveau des instructions. L'ordinateur MPP actuel est principalement basé sur Task Level Parallel (TLP, Task Level Parallel) pour compléter le calcul ; il est implémenté par des puces monocœur/multicœur/plusieurs cœurs. Les puces monocœur/multicœur/plusieurs cœurs évoluent vers des puces système MP et des puces système AP pour le calcul TLP. Le calcul TLP est un calcul de MPMD en mappant les tâches (processus/threads) aux cœurs (processeurs). . En raison des problèmes de synchronisation et d'exclusion mutuelle entre les tâches (processus/threads), les calculs TLP ont une faible efficacité et une programmation complexe. Les calculs Data Level Parallel (DLP, Data Level Parallel) sont calculés selon le mode SIMD, principalement implémenté par l'architecture SIMD dans le mode de calcul de flux d'instructions. Il existe déjà des GPU et autres puces système, ainsi que des GPU ou CPU+GPU MPP Computer. Le calcul Operation Level Parallel (OLP, Operation Level Parallel) est effectué sur la puce de matrice ASIC/ASSP/FPGA en mode de calcul de flux de données et la puce de matrice RCDevice en mode de calcul de flux. Il n'y a pas de conception de programme (changement). La flexibilité. La science et l'art sont utilisés pour explorer la relation espace-temps à 4 dimensions. La puce du système APU utilise la technologie adjacente entre PE (élément de traitement) pour explorer la relation de calcul parallèle espace-temps à 4 dimensions et réalise le niveau de calcul et d'instruction DLP. Calcul parallèle (ILP, Instruction Level Parallel). L'unification de la puce de réseau est le calcul DLP de SIMD et le calcul ILP de MISD/MIMD, qui est réalisé par la puce de système APU de l'interconnexion adjacente (En butée) entre les éléments de traitement.

Array processor

L'unification de la technologie des mathématiques évolutives appliquées

La science informatique est une « technologie mathématique » dérivée de la pensée mathématique et de la pensée technique, qui a changé la façon dont les gens pensent. En raison de l'augmentation de la vitesse d'intégration des puces selon la prédiction de Moore, la technologie mathématique a favorisé le nouveau développement des ordinateurs dans l'évolution des applications du calcul haute performance, de l'informatique en réseau et de l'informatique embarquée. Les ordinateurs hautes performances aident principalement l'humanité à comprendre le monde et à créer le monde par la simulation, tels que les simulateurs terrestres, les tempêtes bleues, les ordinateurs cosmiques, les crackers de code et les simulateurs d'armes. Les noms de ces ordinateurs indiquent l'évolution de leurs applications, qui nécessitent la mise en place de modèles mathématiques complexes et de bases de données expérimentales ou observationnelles grâce à des techniques mathématiques. Le cœur de la simulation est d'établir un modèle mathématique lié au système réel ou virtuel, et de discuter de l'impact sur l'architecture informatique haute performance à travers le modèle mathématique et la base de données. La fonction de communication de l'informatique en réseau est très réussie et a fondamentalement changé l'infrastructure mondiale de l'information. Maintenant, avec l'évolution de la technologie mathématique, le rôle des réseaux informatiques est passé d'un rôle de communication à un rôle de service de partage de ressources, appelé Net-Centric Computing/Grid Computing and Network Storage. Avec le support de systèmes de calcul parallèle et de stockage de masse hautes performances, le cloud computing et le SaaS (Software as a Service, Storage as a Service, software as a service, storage as a service) ou HaaS (Hardware as a Service, hardware as a service), etc. La technologie mathématique permet au centre de données de nouvelle génération de jouer le rôle de service de « centrale de données » et de « banque de données ».

L'informatique embarquée est un modèle de service qui combine la technologie informatique avec le monde physique. Certains l'appellent l'application de la réification et de la physique. Il simule la forme d'interaction entre les humains et le monde physique, et est devenu un visuel, auditif et sensoriel, etc.) et l'ordinateur de l'actionneur (simulant les membres humains), et grâce à l'application de la technologie mathématique, permettent aux industriels machines à travailler de manière autonome comme les humains. Bien que la technologie mathématique actuelle de l'intelligence artificielle ne donne aux robots que la capacité de penser logiquement et partiellement en images, et n'a fondamentalement aucune capacité de pensée créative, elle a apporté des méthodes créatives à la recherche sur les robots. En termes de forme, les robots humanoïdes et les robots non-humanoïdes. Le robot déformé du département américain de la Défense doit faire en sorte que le robot ait la capacité d'auto-assemblage grâce à la technologie mathématique qui évolue avec l'application, ce qui peut garantir que le robot puisse embarquer avec succès sur la surface de la planète. En termes de méthodes de réalisation de fonctions, il existe des méthodes artificielles et des méthodes bioniques naturelles. Les robots artificiels comprennent les robots chirurgicaux et les robots de conduite autonomes. Les robots à méthode bionique comprennent les robots à sondage aérien, les robots marchant par gravité, les robots chimiques, les robots neuronaux, les robots émotionnels, les robots qui simulent l'évolution biologique et les robots moléculaires. Les méthodes bioniques rendent le calcul des techniques mathématiques qui évoluent avec des applications de plus en plus naturelles. . Le développement rapide de la technologie informatique se reflète également dans l'évolution des langages de programmation, du plus ancien Basic à Algol, en passant par Fortran, et maintenant le langage C, qui est proche du langage assembleur. La technologie mathématique est finalement mappée sur l'ordinateur via le langage d'assemblage pour terminer le calcul. L'avantage du langage assembleur est une qualité de programme élevée, mais l'inconvénient est une mauvaise lisibilité, aucune compatibilité et il n'est pas uniforme. Par conséquent, l'ISA de la puce du système APU n'est pas décrit en langage assembleur mnémonique, mais un langage de mappage orienté vers la technologie mathématique et la définition des instructions est utilisé pour décrire l'ISA, appelé langage M (Mapping/MiddleLanguage). La technologie mathématique est unifiée au langage de cartographie pour améliorer la réutilisabilité du programme.

L'unification de la technologie de fabrication de puces à base de silicium

L'informatique quantique et l'informatique biologique sont encore au stade exploratoire et l'ordinateur actuel est mis en œuvre à l'aide d'une technologie de fabrication de puces à base de silicium. On s'attend à ce que la technologie de fabrication des puces à base de silicium soit proche de sa limite de développement d'ici 2016, et il est nécessaire de trouver de nouvelles ruptures technologiques. Par exemple, l'extension de la zone de la puce est une nouvelle façon d'améliorer l'intégration de la puce, qui est la technologie Wafer Scale Integration (WSI). Pour un autre exemple, les circuits intégrés hybrides sont une méthode de conditionnement d'interconnexion miniaturisée, hautes performances et très fiable, appelée technologie d'intégration secondaire en Chine. En 1993, le Georgia Institute of Technology aux États-Unis a proposé le concept de SoP (System on Package, System-in-Package) qui intègre des puces SoC, des puces MEMS et des composants passifs. Les puces IC développées selon la loi de Moore ne représentent que 10 % du volume d'un système, tandis que le SoP résout 90 % du volume du système. Surtout en 2007, Intel a pris les devants en disposant d'une capacité de production de puces à base de silicium de 45 nm, ce qui a permis à l'industrie des semi-conducteurs d'entrer dans l'ère de la « révolution axée sur les matériaux ». La puce 32 nm avec un niveau d'intégration de près de 2 milliards de transistors est proche de la pratique.

Afin de résoudre le problème du « mur rouge » de la technologie submicronique profonde et de la miniaturisation des applications embarquées, la technologie de fabrication intégrée TSV 3D de puces à base de silicium a été développée. IBM, Intel et Samsung ont tous adopté la technologie d'intégration tridimensionnelle TSV (Through-Silicon-Via, through-silicon via package). Selon IBM, la technologie TSV peut réduire de 1 000 la distance de transmission requise pour les données de la puce, augmenter le nombre de connexions de 100 fois et réduire la consommation d'énergie jusqu'à 20 %. IBM appliquera la technologie TSV aux puces de communication sans fil, aux processeurs de puissance, aux puces de superordinateur BlueGene et à la mémoire à large bande passante. Les « seize projets spéciaux » proposés par la Conférence scientifique nationale de mon pays en 2006 incarnent les caractéristiques de la chaîne industrielle de conception, de fabrication et d'application des puces. Poussé par les tâches stratégiques des « seize projets spéciaux », il est prévu que la technologie des puces de mon pays suive le rythme de développement de la « Prophétie de Moore ». L'unification de la technologie de fabrication fait référence à l'unification de la technologie TSV intégrée en trois dimensions pour réaliser la miniaturisation des ordinateurs embarqués et résoudre le problème RedbrickWall (mur rouge) du sous-micron profond ; c'est aussi le seul moyen d'améliorer les capacités de fabrication de puces de mon pays. En termes de conception, l'architecture de matrice de la puce du système APU, ainsi que les puces telles que les capteurs, les écrans et les mémoires, sont toutes des matrices qui conviennent uniquement à l'application de la technologie TSV.

Classification

Du point de vue de la structure d'interconnexion PE, les processeurs matriciels peuvent être divisés en quatre prototypes :

Processeur de réseau linéaire (LAP), LinearArrayProcessor)
Processeur Square Array (SAP, SquareArrayProcessor)
Processeur pyramidal (PYR, PYRamid)< /p>
Hypercube (HPR, HyPeRcube).

Parmi eux, le processeur à matrice carrée semble plus conforme à la structure bidimensionnelle de l'image. Cependant, certaines études antérieures ont montré que sous le principe du même nombre de PE, l'efficacité de LAP Computing et le débit de données ne sont pas inférieurs à ceux de SAP, et le premier a une surcharge matérielle plus faible.