
Przez dziesięciolecia cała branża komputerowa obracała się wokół prostego paradygmatu: logika jest królem.Sercem systemów były procesory i procesory graficzne;pamięć była jedynie elementem pomocniczym, odpowiedzialnym za tymczasowe przechowywanie danych, podczas gdy prawdziwą pracę wykonywały procesory.Ale dzisiaj ma miejsce zasadnicza rewolucja: kończy się era obliczeń logicznych przetwarzanie zorientowane na pamięć przybył.
Ta zmiana nie ma charakteru przyrostowego – ma charakter strukturalny.Dzięki sztucznej inteligencji, dużym modelom językowym, przetwarzaniu w chmurze i przetwarzaniu o wysokiej wydajności równowaga sił między logiką a pamięcią została całkowicie odwrócona.Pamięć nie jest już elementem peryferyjnym;stało się podstawowe wąskie gardło, główny ogranicznik wydajności i prawdziwe centrum wartości nowoczesnych systemów komputerowych.
Przez lata wydajność procesora poprawiała się w znacznie szybszym tempie niż przepustowość pamięci i opóźnienia.Ta rosnąca luka jest znana jako ściana pamięci.W tradycyjnych systemach:
W miarę jak modele sztucznej inteligencji rozrastają się z miliardów do bilionów parametrów, ściana pamięci stała się zabójcza.Systemy nie mogą już sobie pozwolić na przenoszenie ogromnych ilości danych tam i z powrotem pomiędzy logiką a pamięcią.Jedyne rozwiązanie: odbudować całą architekturę wokół pamięci.
Architektura zorientowana na logikę
- CPU/GPU jako rdzeń
- Pamięć jako pamięć zewnętrzna
- Dane przechodzą do obliczeń
- Wydajność zależy od szybkości instrukcji
- Dominacja komputerów osobistych i wczesne przetwarzanie w chmurze
Architektura zorientowana na pamięć
- Pamięć jako rdzeń systemu
- Obliczenia przenoszą się na dane
- Przepustowość i opóźnienie definiują wydajność
- Efektywność energetyczna skupiona na przesyłaniu danych
- Definiuje sztuczną inteligencję i obliczenia nowej generacji
Różnica nie polega na szczegółach technicznych – jest to całkowite odwrócenie filozofii projektowania systemu.
1. Obliczenia bliskiej pamięci (NMC)
Umieść silniki obliczeniowe blisko pamięci, minimalizując przepływ danych.Radykalnie zmniejsza opóźnienia i moc.Szeroko stosowane w akceleratorach AI i infrastrukturze DPU.
2. Przetwarzanie w pamięci (IMC)
Wykonuj obliczenia bezpośrednio w komórkach pamięci, całkowicie eliminując przesyłanie danych.Idealny do wnioskowania AI, urządzeń brzegowych i systemów o niskim poborze mocy.Postrzegana jako długoterminowa, ostateczna architektura.
3. Układanie pamięci 3D w logice
Układaj pamięć bezpośrednio na procesorach, korzystając z łączenia hybrydowego i TSV.Tworzy bardzo wysoką przepustowość między mocą obliczeniową a pamięcią.HBM, HBM3E i układanie 3D są podstawą nowoczesnych chipów AI.
Duże modele językowe i generatywna sztuczna inteligencja mają unikalne cechy:
W systemach AI procesor często pozostaje bezczynny w oczekiwaniu na dane.Wydajność nie jest ograniczona szybkością obliczeń, jaką może wykonać chip, ale jak szybko może uzyskać dostęp do pamięci.
Ta zmiana architektoniczna zmienia siłę branży:
Kto kontroluje architekturę pamięci, kontroluje przyszłość informatyki.
Era obliczeń zdominowanych przez logikę dobiegła końca.Weszliśmy w nową erę, w której pamięć określa wydajność, ogranicza skalowanie pamięci, a pamięć określa wartość systemową.
Przejście od architektury skoncentrowanej na logice do architektury skoncentrowanej na pamięci to nie tylko trend techniczny – to najbardziej fundamentalna transformacja w informatyce od pół wieku.Przez następną dekadę pamięć będzie centrum wszechświata.