DomAktualnościWielka zmiana: od architektury obliczeniowej skoncentrowanej na logice do architektury obliczeniowej skoncentrowanej na pamięci

Wielka zmiana: od architektury obliczeniowej skoncentrowanej na logice do architektury obliczeniowej skoncentrowanej na pamięci

Wielka zmiana: od architektury obliczeniowej skoncentrowanej na logice do architektury obliczeniowej skoncentrowanej na pamięci


Przez dziesięciolecia cała branża komputerowa obracała się wokół prostego paradygmatu: logika jest królem.Sercem systemów były procesory i procesory graficzne;pamięć była jedynie elementem pomocniczym, odpowiedzialnym za tymczasowe przechowywanie danych, podczas gdy prawdziwą pracę wykonywały procesory.Ale dzisiaj ma miejsce zasadnicza rewolucja: kończy się era obliczeń logicznych przetwarzanie zorientowane na pamięć przybył.

Ta zmiana nie ma charakteru przyrostowego – ma charakter strukturalny.Dzięki sztucznej inteligencji, dużym modelom językowym, przetwarzaniu w chmurze i przetwarzaniu o wysokiej wydajności równowaga sił między logiką a pamięcią została całkowicie odwrócona.Pamięć nie jest już elementem peryferyjnym;stało się podstawowe wąskie gardło, główny ogranicznik wydajności i prawdziwe centrum wartości nowoczesnych systemów komputerowych.

Podstawowa przyczyna: Ściana pamięci

Przez lata wydajność procesora poprawiała się w znacznie szybszym tempie niż przepustowość pamięci i opóźnienia.Ta rosnąca luka jest znana jako ściana pamięci.W tradycyjnych systemach:

  • Procesory przez większość czasu czekają na dane
  • Przenoszenie danych zużywa znacznie więcej energii niż obliczenia
  • Przepustowość nie nadąża za wzrostem rozmiaru modelu
  • Opóźnienie bezpośrednio określa prędkość wnioskowania w świecie rzeczywistym

W miarę jak modele sztucznej inteligencji rozrastają się z miliardów do bilionów parametrów, ściana pamięci stała się zabójcza.Systemy nie mogą już sobie pozwolić na przenoszenie ogromnych ilości danych tam i z powrotem pomiędzy logiką a pamięcią.Jedyne rozwiązanie: odbudować całą architekturę wokół pamięci.

Skupienie się na logice a skupienie się na pamięci: różnica w paradygmacie

Architektura zorientowana na logikę
- CPU/GPU jako rdzeń
- Pamięć jako pamięć zewnętrzna
- Dane przechodzą do obliczeń
- Wydajność zależy od szybkości instrukcji
- Dominacja komputerów osobistych i wczesne przetwarzanie w chmurze

Architektura zorientowana na pamięć
- Pamięć jako rdzeń systemu
- Obliczenia przenoszą się na dane
- Przepustowość i opóźnienie definiują wydajność
- Efektywność energetyczna skupiona na przesyłaniu danych
- Definiuje sztuczną inteligencję i obliczenia nowej generacji

Różnica nie polega na szczegółach technicznych – jest to całkowite odwrócenie filozofii projektowania systemu.

Trzy ścieżki innowacji skoncentrowanych na pamięci

1. Obliczenia bliskiej pamięci (NMC)
Umieść silniki obliczeniowe blisko pamięci, minimalizując przepływ danych.Radykalnie zmniejsza opóźnienia i moc.Szeroko stosowane w akceleratorach AI i infrastrukturze DPU.

2. Przetwarzanie w pamięci (IMC)
Wykonuj obliczenia bezpośrednio w komórkach pamięci, całkowicie eliminując przesyłanie danych.Idealny do wnioskowania AI, urządzeń brzegowych i systemów o niskim poborze mocy.Postrzegana jako długoterminowa, ostateczna architektura.

3. Układanie pamięci 3D w logice
Układaj pamięć bezpośrednio na procesorach, korzystając z łączenia hybrydowego i TSV.Tworzy bardzo wysoką przepustowość między mocą obliczeniową a pamięcią.HBM, HBM3E i układanie 3D są podstawą nowoczesnych chipów AI.

Dlaczego sztuczna inteligencja sprawia, że skupienie się na pamięci jest nieuniknione

Duże modele językowe i generatywna sztuczna inteligencja mają unikalne cechy:

  • Ogromne zestawy parametrów wymagają ogromnej pojemności pamięci
  • Wnioskowanie jest powiązane z pamięcią, a nie z obliczeniami
  • Przepustowość określa przepustowość i wygodę użytkownika
  • Zużycie energii jest zdominowane przez ruch danych

W systemach AI procesor często pozostaje bezczynny w oczekiwaniu na dane.Wydajność nie jest ograniczona szybkością obliczeń, jaką może wykonać chip, ale jak szybko może uzyskać dostęp do pamięci.

Restrukturyzacja przemysłu: wartość przenosi się do pamięci

Ta zmiana architektoniczna zmienia siłę branży:

  • Twórcy pamięci zyskują strategiczną siłę ustalania cen
  • W projekcie systemu priorytetem jest topologia pamięci
  • Opakowanie staje się krytyczne dla łączności pamięci
  • W pamięci i wzajemnych połączeniach pojawiają się nowi giganci

Kto kontroluje architekturę pamięci, kontroluje przyszłość informatyki.

Wniosek: przyszłość zależy od pamięci

Era obliczeń zdominowanych przez logikę dobiegła końca.Weszliśmy w nową erę, w której pamięć określa wydajność, ogranicza skalowanie pamięci, a pamięć określa wartość systemową.

Przejście od architektury skoncentrowanej na logice do architektury skoncentrowanej na pamięci to nie tylko trend techniczny – to najbardziej fundamentalna transformacja w informatyce od pół wieku.Przez następną dekadę pamięć będzie centrum wszechświata.