2017 год. Биткоин взлетает. Майнеры скупают все видеокарты на планете. Цены — вдвое, втрое выше нормы. Геймеры в ярости. 2020 год. Ковид, заводы стоят, логистика разрушена, чипов не хватает всем: от Apple до Toyota. 2026 год. SSD на терабайт, который стоил 50 долларов, стоит 110. И вы его ещё поищите по этой цене. DRAM подорожала на 172% за год.
Вы находитесь здесь.
Каждый раз казалось: «переживём, рассосётся». Крипта обвалилась — цены вернулись. Пандемия ушла — цены вернулись. Но на этот раз виновник никуда не уходит. Виновник — ChatGPT. Нет, не лично он, а то, что за ним стоит.
2. Гонка, в которой память проиграла
Мы привыкли думать, что искусственный интеллект — это про процессоры, видеокарты. Мощнее чип — умнее нейросеть. Логично? А вот и нет.
За последние 20 лет пиковая вычислительная мощность GPU и ускорителей увеличилась в 60 000 раз . А скорость, с которой данные поступают к этим ускорителям, — всего в 100 раз .
Чипы научились считать невероятно быстро, но толку немного: данные просто не успевают доехать. В индустрии это называют «стена памяти» . И самое удивительное: эффект предсказали ещё 30 лет назад. Просто никто не слушал.
Но как так вышло, что самая горячая технология планеты упёрлась в барьер, о котором предупреждали в прошлом веке? Почему из-за нейросетей дорожают ноутбуки и телефоны? И главное — есть ли выход?
3. Пророчество Вульфа и Мак
1995 год. Интернет — по модему, Windows 95 только вышла. Два исследователя из Университета Вирджинии, Уильям Вульф и Сали Маки, публикуют статью с названием, которое переводится как «Удар о стену памяти». Кажется почти издёвкой: «ребята, всё же на поверхности».
Они показали на графиках: скорость процессоров и памяти растёт экспоненциально, но экспоненты разные. Процессоры ускоряются примерно на 80% в год. Память — всего на 7%. Обе кривые ползут вверх, но одна — как ракета, другая — как улитка.
Разница между двумя расходящимися экспонентами тоже растёт экспоненциально. Разрыв не сглаживается — он ускоряется.
Рассуждение было простым. Допустим, процессор находит нужные данные в быстром кэше в 99 случаях из 100. Звучит отлично? Но оставшийся 1% приходится тянуть из основной оперативной памяти, а она медленнее в десятки раз. Если каждое такое обращение стоит процессору хотя бы пять тактов ожидания, производительность катастрофически проседает.
Неважно, насколько быстр процессор. Он сидит без дела и ждёт данные.
Вульф и Маки подсчитали: даже при фантастических 99,8% попаданий в кэш стена будет достигнута через 11–12 лет, то есть примерно к 2007 году.
Индустрия не стояла на месте. Инженеры добавили уровни кэш-памяти L1, L2, L3, придумали предсказатели ветвлений (угадывают, какие данные понадобятся дальше), внеочередное исполнение команд (процессор не ждёт застрявшую операцию, а переключается на другую задачу). Десятки трюков, чтобы процессор как можно реже лез в медленную память.
Это работало. Стену удалось отодвинуть , но не разрушить.
А потом пришёл искусственный интеллект.
4. Почему нейросети сломали кэш
Классические программы работают с относительно небольшими кусками данных. Они часто возвращаются к одним и тем же участкам памяти. Загрузил, посчитал, загрузил снова то же самое. Кэш с этим справляется прекрасно — он как раз и хранит часто используемые данные.
Нейросети устроены иначе. Им нужно протащить через процессор гигабайты параметров — десятки миллиардов чисел — последовательно, слой за слоем. Один раз загрузил, использовал, выкинул, загрузил следующий.
Кэш тут бесполезен. Данных слишком много, они туда просто не помещаются. Каждый раз приходится лезть в основную память — ту самую, медленную. Все трюки, которые индустрия копила 30 лет (кэши, предсказатели, переупорядочивания), разом перестали спасать.
Нейросети всё обнулили.
5. Архитектурный грех фон Неймана
1945 год. Математик Джон фон Нейман описал архитектуру, по которой до сих пор работают практически все компьютеры. Идея простая: есть процессор, который считает, и есть память, которая хранит данные и инструкции. Между ними — шина, по которой информация ездит туда-сюда.
В 1945 году это было откровением: одна универсальная машина вместо десятков специализированных. Компьютер, который можно перепрограммировать, не перепаивая провода.
Но есть подвох. Всё проходит через одну шину . Один мост через реку, по которому в обе стороны едут грузовики. Когда машин мало, проблемы нет. Но когда процессор научился считать в 100 раз быстрее, чем память отдаёт данные, мост встаёт в пробку.
Для обычных задач терпимо. Для ИИ, который непрерывно ворочает миллиарды параметров, — неприемлемо.
Пророчество Вульфа и Маки сбылось. Не через 12 лет, а через 30. И не из-за обычных программ, а из-за нейросетей, которых в 1995 году ещё не существовало.
6. Как устроен аппетит ИИ: цифры вместо слов
Любая нейросеть — это набор параметров, чисел. Когда вы слышите «модель на 70 миллиардов параметров» — это буквально 70 миллиардов чисел. В них закодировано всё знание: грамматика, логика, факты.
В стандартном формате FP16 (2 байта на число) модель на 70B весит 140 ГБ . Топовая потребительская видеокарта NVIDIA RTX 4090 имеет 24 ГБ видеопамяти. Модель туда не влезет даже теоретически. Нужно минимум шесть таких карт — и это только чтобы модель поместилась, без учёта всего остального.
А остальное — самое интересное.
Современные большие языковые модели (GPT, Claude, Gemini) построены на архитектуре «трансформер» , придуманной в 2017 году инженерами Google. Ключевой механизм — «внимание» (attention). Каждый элемент текста (токен) смотрит на все остальные токены, чтобы понять контекст.
Для этого модель создаёт матрицу внимания размером N × N , где N — длина контекста. При контексте в 2000 токенов (небольшой рассказ) матрица — 4 миллиона элементов, 8 МБ. Ерунда.
А теперь возьмём GPT-4 Turbo с контекстом 128 000 токенов (целая книга). Матрица внимания вырастает до 16 миллиардов элементов — 32 ГБ на один слой. А в модели таких слоёв десятки.
Уловили закономерность? Удвоили контекст — получили не двойной, а четырёхкратный рост памяти. Квадратичная сложность , которая превращает длинный контекст в монстра, пожирающего память.
7. Шпаргалка, которая тяжелее учебника
Когда языковая модель генерирует текст, она выдаёт по одному слову за раз. Для каждого нового слова ей нужно оглянуться на все предыдущие. Пересчитывать всё с нуля было бы безумно дорого.
Поэтому модель запоминает промежуточные результаты — так называемый KV Cache . И он растёт линейно с длиной контекста и количеством одновременных пользователей.
Для модели LLaMA 70B при контексте 128 000 токенов и 32 одновременных запросах KV Cache пожирает больше терабайта памяти. Даже со сжатием — около 640 ГБ. Только на шпаргалку.
Это больше, чем веса самой модели (140 ГБ). Шпаргалка оказалась в несколько раз тяжелее учебника.
8. Самый страшный факт: каждый токен — полная перезагрузка
Чтобы выдать одно слово ответа, модели нужно:
Для следующего слова — загрузить все 140 ГБ снова.
Скорость этой загрузки определяется пропускной способностью памяти . На видеокарте NVIDIA H100 (один из самых мощных ИИ-ускорителей) память отдаёт данные со скоростью 3350 ГБ/с.
Делим 3350 на 140 — получаем теоретический максимум примерно 24 токена в секунду (слова). Потолок определяется не скоростью вычислений. Процессорные ядра H100 могут считать гораздо быстрее. Но они сидят и ждут.
9. Видео — это ад
Текстовый токен — компактная единица информации. А теперь возьмём видео.
1 секунда ролика в 720p — это 30 кадров. Каждый кадр — почти миллион пикселей. Каждый пиксель — три цветовых канала. 1 секунда видео содержит информации больше, чем целая книга в текстовых токенах.
Видеомодели (Sora от OpenAI) работают на архитектуре диффузионного трансформера. Прямая обработка каждого пикселя невозможна — поэтому видео сначала сжимают в «латентное пространство» примерно в 100 раз.
Но даже после 185-кратного сжатия пятисекундный ролик в 720p — это больше 80 000 токенов . Помните квадратичную сложность? При 80 000 токенов матрица внимания — 6,4 миллиарда элементов для одного слоя.
Модель Stable Diffusion Video генерирует всего 14 кадров (меньше полсекунды). При разрешении 576×1024 она потребляет 39,5 ГБ пиковой памяти. Генерация статичной картинки того же разрешения — 6,3 ГБ. Рост в шесть раз, и это за жалкие полсекунды.
Обучение модели уровня Sora обходится в сотню с лишним миллионов долларов при использовании 6144 видеокарт одновременно. Значительная часть стоимости — память.
10. HBM: почему трёхмерная память победила, но её не хватает
Обычная оперативная память DDR5 выдаёт около 64 ГБ/с. Для модели LLaMA 70B нужно 3350 ГБ/с. DDR5 медленнее в 50 раз — на ней модель будет выдавать меньше одного слова за две секунды.
У топовой игровой RTX 4090 память GDDR6X выдает около 1000 ГБ/с — но ёмкости всего 24 ГБ. Модель не помещается.
Нужно другое: HBM (High Bandwidth Memory) .
Обычная память — как одноэтажный склад с одними воротами. HBM — многоэтажный склад, где этажи соединены тысячами грузовых лифтов. Технически: 8–12 кристаллов DRAM, уложенных друг на друга, соединённых тысячами микроскопических вертикальных контактов (TSV).
Ширина шины данных у HBM — 1024 бита, у DDR5 — 64 бита. Шестнадцатикратная разница.
Один стек HBM3E выдаёт более 1200 ГБ/с. Видеокарта NVIDIA H200 несёт шесть стеков — суммарная пропускная способность более 4800 ГБ/с .
Но HBM производит всего три компании в мире : SK Hynix (больше половины рынка), Micron и Samsung. Все три заявили, что их продукция HBM полностью распродана до конца 2026 года. Цены на HBM3, по заявлению Samsung, вырастут ещё на 20%.
11. Секретное оружие TSMC
Нельзя просто взять HBM и припаять к видеокарте. Стандартные дорожки на текстолите слишком грубые для тысяч микроскопических контактов. Нужен кремниевый интерпозер — промежуточный слой, где рядом размещаются GPU и стеки HBM с тончайшими проводниками.
Технология называется CoWoS , и владеет ею одна компания — TSMC .
NVIDIA зарезервировала более 60% всех мощностей CoWoS до конца 2026 года. TSMC наращивает производство с 13 000 пластин в месяц в конце 2023 года до планируемых 100–130 000 к концу 2026-го. Но даже этого не хватает: спрос превышает предложение примерно втрое.
Итого: три компании делают HBM, одна упаковывает их с процессорами. Всё распродано. Весь мировой ИИ висит на острове в 180 км от Китая (Тайвань) и на полуострове рядом с Северной Кореей (Южная Корея).
12. Почему из-за этого дорожают ваши SSD и ноутбуки
Производство памяти — это замкнутая система. Каждая кремниевая пластина, которая отправляется на линию HBM для нужд ИИ-кластера, — это пластина, которая не стала модулем DDR5 для вашего компьютера, чипом LPDDR5X для смартфона или контроллером для SSD.
Производители сделали выбор. Samsung и SK Hynix выделили до 40% мощностей под HBM. Почему? Один стек HBM3 приносит в разы больше прибыли, чем стопка модулей DDR5.
Проект OpenAI Stargate (суперкластер для обучения следующих поколений ИИ) зарезервировал почти миллион кремниевых пластин в месяц — около 40% всего мирового производства DRAM. Один проект сжирает почти половину мощностей.
Дальше — чистая арифметика. Предложение потребительской памяти падает, спрос не исчезает — цены ползут вверх. DRAM подорожала на 172% за год. Стоимость терабайтных NAND-чипов (основа SSD) выросла с 4 до 10 долларов за четыре месяца. Потребительские SSD на терабайт, которые в 2023 году стоили 50 долларов, сегодня стоят 110 и выше.
Аналитическая компания IDC пишет: «Это не циклический дефицит, а перманентное стратегическое перераспределение мирового кремния» .
13. Что с этим делать? Три пути обмануть стену
Инженеры атакуют проблему с двух сторон: учат модели обходиться меньшим количеством памяти и перестраивают архитектуру чипов.
Путь первый: Flash Attention. В 2022 году аспирант Стэнфорда Три Дао задал вопрос: а зачем собирать огромную матрицу внимания целиком? Нельзя ли по частям? Техника нарезает данные на блоки, которые помещаются в быструю кэш-память на чипе. Обращений к медленной памяти — в 9 раз меньше, скорость — в 2–4 раза выше. Именно благодаря этому алгоритму контекстные окна выросли до сотен тысяч токенов.
Путь второй: квантование. Каждый параметр модели — число с кучей знаков после запятой. Квантование — грубое округление. Переход от FP16 к INT4 сжимает модель в 8 раз. LLaMA 70B влезает в 35 ГБ вместо 140. Крупные модели теряют всего 1–3% точности.
Путь третий: PIM (Processing-in-Memory) — перенести холодильник на кухню. Вычислительные блоки встраиваются прямо в чипы памяти. Данные обрабатываются там, где лежат, никуда не путешествуя. Samsung уже показал работающие прототипы.
Каждое из этих решений бьёт в свой участок стены. Вместе они её расшатывают, но пока не пробивают.
14. Новая реальность
Вспомните криптобум 2017–2018. Видеокарты подорожали вдвое-втрое. Крипта рухнула — цены вернулись. Пандемия 2020–2021: сбои логистики, дефицит. Пандемия ушла — рынок выровнялся.
Сейчас другая история. Гиперскейлеры (Microsoft, Amazon, Google) заключают многолетние контракты на поставку памяти. Они забирают ёмкости не на квартал и не на год, а на несколько лет вперёд.
Дешёвых гигабайт больше не будет. ИИ растёт, и каждое следующее поколение требует больше памяти, чем предыдущее. Память становится стратегическим ресурсом.
Крипта обвалилась — цены вернулись. Пандемия ушла — цены вернулись. Но ИИ никуда не уходит.
Тот, кто разрушит стену памяти, изменит мир не меньше, чем те, кто придумал транзистор. А пока стена стоит.
Комментарии
Помню как в прошлом году я запускал LLaMA на домашнем железе и SSD просто не выдержал постоянной загрузки слоев из-за чего начались троттлинги и я потерял пару дней на отладку а теперь с ростом цен на DRAM уже не уверен что стоит ввязываться в такие эксперименты
Ощущение, что скоро все это станет не так уж и доступно простым смертным
Я всегда знал что ИИ разнесет всю память в клочья и вот мы уже видим как SSD и DRAM взлетели в цене из-за этой стены. Нейросети тащат гигабайты параметров через узкую шину фон Неймана и HBM просто не успевает за GPU. Без радикальных изменений в архитектуре это только разгонится дальше
Если система ввода-вывода (BIOS) не справляется: "Потолок определяется не скоростью вычислений. Процессорные ядра H100 могут считать гораздо быстрее. Но они сидят и ждут."... То, возможно, пришла пора заменить систему BIOS?
Чем?
Например: https://aftershock.news/?q=node/1475046
1 TB SSD за 110 долларов? Я недавно с рук продал новую SSD 500 GB примерно за такую цену, у фирменных торговцев они стоят еще значительно дороже