{"@context":"https://schema.org","@graph":[{"@id":"https://txtq.ru/@periferal/145#webpage","@type":"WebPage","name":"Стена памяти в ИИ: почему нейросети вызывают дефицит SSD и DRAM","url":"https://txtq.ru/@periferal/145"},{"@id":"https://txtq.ru/@periferal/145#article","@type":"Article","author":{"@id":"https://txtq.ru/@periferal#person","@type":"Person","name":"Периферия","url":"https://txtq.ru/@periferal"},"dateModified":"2026-05-15T07:43:29Z","datePublished":"2026-05-15T07:43:29Z","description":"Статья объясняет 'стену памяти' в контексте ИИ: вычислительная мощность GPU выросла в 60 000 раз, а пропускная способность памяти — лишь в 100 раз. Нейросети требуют огромных объемов данных, что приводит к росту цен на SSD (с 50 до 110 долларов за ТБ) и DRAM (на 172%). Рассматриваются причины, архитектура фон Неймана,","headline":"Стена памяти в ИИ: почему нейросети вызывают дефицит SSD и DRAM","image":["https://txtq.ru/uploads/801c76c1ebe10e2b31ba174a.jpg"],"mainEntityOfPage":{"@id":"https://txtq.ru/@periferal/145#webpage"},"mentions":[{"@type":"Thing","name":"стена памяти"},{"@type":"Person","name":"Уильям Вульф"},{"@type":"Person","name":"Сали Маки"},{"@type":"Person","name":"Джон фон Нейман"},{"@type":"Thing","name":"ChatGPT"},{"@type":"Thing","name":"NVIDIA H100"},{"@type":"Thing","name":"HBM"},{"@type":"Organization","name":"TSMC"},{"@type":"Organization","name":"SK Hynix"}],"publisher":{"@type":"Organization","logo":{"@type":"ImageObject","url":"https://txtq.ru/favicon.png"},"name":"ТекстQ"},"url":"https://txtq.ru/@periferal/145"},{"@id":"https://txtq.ru/@periferal#person","@type":"Person","description":"Про экономику и финансы, глобальные тренды и противостояния","name":"Периферия","url":"https://txtq.ru/@periferal"},{"@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","item":"https://txtq.ru/","name":"ТекстQ","position":1},{"@type":"ListItem","item":"https://txtq.ru/@periferal/145","name":"Стена памяти в ИИ: почему нейросети вызывают дефицит SSD и DRAM","position":2}]},{"@type":"FAQPage","mainEntity":[{"@type":"Question","acceptedAnswer":{"@type":"Answer","text":"Разрыв между скоростью процессоров (рост 80% в год) и памяти (7% в год), предсказанный Вульфом и Маки в 1995 году."},"name":"Что такое 'стена памяти'?"},{"@type":"Question","acceptedAnswer":{"@type":"Answer","text":"Они обрабатывают гигабайты параметров последовательно, кэш не помогает, требуется постоянная загрузка из основной памяти."},"name":"Почему нейросети усугубляют проблему?"},{"@type":"Question","acceptedAnswer":{"@type":"Answer","text":"Производители перераспределяют кремний под HBM для ИИ, предложение потребительской памяти падает."},"name":"Почему дорожают SSD?"}]},{"@id":"https://txtq.ru/@periferal/145#discussion","@type":"DiscussionForumPosting","author":{"@id":"https://txtq.ru/@periferal#person","@type":"Person","name":"Периферия","url":"https://txtq.ru/@periferal"},"comment":[{"@id":"https://txtq.ru/@periferal/145#comment-586","@type":"Comment","author":{"@type":"Person","name":"Константин Денисов","url":"https://txtq.ru/@konstantin_denisov"},"datePublished":"2026-05-16T16:41:43Z","parentItem":{"@id":"https://txtq.ru/@periferal/145#discussion"},"text":"Помню как в прошлом году я запускал LLaMA на домашнем железе и SSD просто не выдержал постоянной загрузки слоев из-за чего начались троттлинги и я потерял пару дней на отладку а теперь с ростом цен на DRAM уже не уверен что стоит ввязываться в такие эксперименты"},{"@id":"https://txtq.ru/@periferal/145#comment-605","@type":"Comment","author":{"@type":"Person","name":"Big Deal","url":"https://txtq.ru/@bigdeal"},"datePublished":"2026-05-16T19:10:35Z","parentItem":{"@id":"https://txtq.ru/@periferal/145#comment-586"},"text":"Ощущение, что скоро все это станет не так уж и доступно простым смертным"},{"@id":"https://txtq.ru/@periferal/145#comment-617","@type":"Comment","author":{"@type":"Person","name":"amos","url":"https://txtq.ru/@amos"},"datePublished":"2026-05-16T21:12:12Z","parentItem":{"@id":"https://txtq.ru/@periferal/145#discussion"},"text":"Я всегда знал что ИИ разнесет всю память в клочья и вот мы уже видим как SSD и DRAM взлетели в цене из-за этой стены. Нейросети тащат гигабайты параметров через узкую шину фон Неймана и HBM просто не успевает за GPU. Без радикальных изменений в архитектуре это только разгонится дальше"},{"@id":"https://txtq.ru/@periferal/145#comment-1423","@type":"Comment","author":{"@type":"Person","name":"u2640_427470","url":"https://txtq.ru/@u2640_427470"},"datePublished":"2026-05-29T20:51:16Z","parentItem":{"@id":"https://txtq.ru/@periferal/145#discussion"},"text":"Если система ввода-вывода (BIOS) не справляется: \"Потолок определяется не скоростью вычислений. Процессорные ядра H100 могут считать гораздо быстрее. Но они сидят и ждут.\"... То, возможно, пришла пора заменить систему BIOS?"},{"@id":"https://txtq.ru/@periferal/145#comment-1564","@type":"Comment","author":{"@type":"Person","name":"Периферия","url":"https://txtq.ru/@periferal"},"datePublished":"2026-05-30T17:36:43Z","parentItem":{"@id":"https://txtq.ru/@periferal/145#comment-1423"},"text":"Чем?"},{"@id":"https://txtq.ru/@periferal/145#comment-1683","@type":"Comment","author":{"@type":"Person","name":"u2640_427470","url":"https://txtq.ru/@u2640_427470"},"datePublished":"2026-05-31T15:33:54Z","parentItem":{"@id":"https://txtq.ru/@periferal/145#comment-1564"},"text":"Например: https://aftershock.news/?q=node/1475046"},{"@id":"https://txtq.ru/@periferal/145#comment-1722","@type":"Comment","author":{"@type":"Person","name":"I'm Taking The Crown","url":"https://txtq.ru/@belarus1"},"datePublished":"2026-06-01T05:37:06Z","parentItem":{"@id":"https://txtq.ru/@periferal/145#discussion"},"text":"1 TB SSD за 110 долларов? Я недавно с рук продал новую SSD 500 GB примерно за такую цену, у фирменных торговцев они стоят еще значительно дороже"}],"commentCount":7,"datePublished":"2026-05-15T07:43:29Z","headline":"Стена памяти в ИИ: почему нейросети вызывают дефицит SSD и DRAM","image":["https://txtq.ru/uploads/801c76c1ebe10e2b31ba174a.jpg"],"isPartOf":{"@id":"https://txtq.ru/@periferal/145#webpage"},"mainEntityOfPage":{"@id":"https://txtq.ru/@periferal/145#webpage"},"text":"1. Три кризиса, которые не рассосались 2017 год. Биткоин взлетает. Майнеры скупают все видеокарты на планете. Цены — вдвое, втрое выше нормы. Геймеры в ярости. 2020 год. Ковид, заводы стоят, логистика разрушена, чипов не хватает всем: от Apple до Toyota. 2026 год. SSD на терабайт, который стоил 50 долларов, стоит 110. И вы его ещё поищите по этой цене. DRAM подорожала на 172% за год. Вы находитесь здесь. Каждый раз казалось: «переживём, рассосётся». Крипта обвалилась — цены вернулись. Пандемия ушла — цены вернулись. Но на этот раз виновник никуда не уходит. Виновник — ChatGPT. Нет, не лично он, а то, что за ним стоит. 2. Гонка, в которой память проиграла Мы привыкли думать, что искусственный интеллект — это про процессоры, видеокарты. Мощнее чип — умнее нейросеть. Логично? А вот и нет. За последние 20 лет пиковая вычислительная мощность GPU и ускорителей увеличилась в  60 000 раз . А скорость, с которой данные поступают к этим ускорителям, — всего в  100 раз . Чипы научились считать невероятно быстро, но толку немного: данные просто не успевают доехать. В индустрии это называют  «стена памяти» . И самое удивительное: эффект предсказали ещё 30 лет назад. Просто никто не слушал. Но как так вышло, что самая горячая технология планеты упёрлась в барьер, о котором предупреждали в прошлом веке? Почему из-за нейросетей дорожают ноутбуки и телефоны? И главное — есть ли выход? 3. Пророчество Вульфа и Мак 1995 год. Интернет — по модему, Windows 95 только вышла. Два исследователя из Университета Вирджинии, Уильям Вульф и Сали Маки, публикуют статью с названием, которое переводится как «Удар о стену памяти». Кажется почти издёвкой: «ребята, всё же на поверхности». Они показали на графиках: скорость процессоров и памяти растёт экспоненциально, но экспоненты разные. Процессоры ускоряются примерно на 80% в год. Память — всего на 7%. Обе кривые ползут вверх, но одна — как ракета, другая — как улитка. Разница между двумя расходящимися экспонентами тоже растёт экспоненциально. Разрыв не сглаживается — он ускоряется. Рассуждение было простым. Допустим, процессор находит нужные данные в быстром кэше в 99 случаях из 100. Звучит отлично? Но оставшийся 1% приходится тянуть из основной оперативной памяти, а она медленнее в десятки раз. Если каждое такое обращение стоит процессору хотя бы пять тактов ожидания, производительность катастрофически проседает. Неважно, насколько быстр процессор. Он сидит без дела и ждёт данные. Вульф и Маки подсчитали: даже при фантастических 99,8% попаданий в кэш стена будет достигнута через 11–12 лет, то есть примерно к 2007 году. Индустрия не стояла на месте. Инженеры добавили уровни кэш-памяти L1, L2, L3, придумали предсказатели ветвлений (угадывают, какие данные понадобятся дальше), внеочередное исполнение команд (процессор не ждёт застрявшую операцию, а переключается на другую задачу). Десятки трюков, чтобы процессор как можно реже лез в медленную память. Это работало. Стену удалось  отодвинуть , но не разрушить. А потом пришёл искусственный интеллект. 4. Почему нейросети сломали кэш Классические программы работают с относительно небольшими кусками данных. Они часто возвращаются к одним и тем же участкам памяти. Загрузил, посчитал, загрузил снова то же самое. Кэш с этим справляется прекрасно — он как раз и хранит часто используемые данные. Нейросети устроены иначе. Им нужно протащить через процессор гигабайты параметров — десятки миллиардов чисел — последовательно, слой за слоем. Один раз загрузил, использовал, выкинул, загрузил следующий. Кэш тут бесполезен. Данных слишком много, они туда просто не помещаются. Каждый раз приходится лезть в основную память — ту самую, медленную. Все трюки, которые индустрия копила 30 лет (кэши, предсказатели, переупорядочивания), разом перестали спасать. Нейросети всё обнулили. 5. Архитектурный грех фон Неймана 1945 год. Математик Джон фон Нейман описал архитектуру, по которой до сих пор работают практически все компьютеры. Идея простая: есть процессор, который считает, и есть память, которая хранит данные и инструкции. Между ними — шина, по которой информация ездит туда-сюда. В 1945 году это было откровением: одна универсальная машина вместо десятков специализированных. Компьютер, который можно перепрограммировать, не перепаивая провода. Но есть подвох. Всё проходит через  одну шину . Один мост через реку, по которому в обе стороны едут грузовики. Когда машин мало, проблемы нет. Но когда процессор научился считать в 100 раз быстрее, чем память отдаёт данные, мост встаёт в пробку. Для обычных задач терпимо. Для ИИ, который непрерывно ворочает миллиарды параметров, — неприемлемо. Пророчество Вульфа и Маки сбылось. Не через 12 лет, а через 30. И не из-за обычных программ, а из-за нейросетей, которых в 1995 году ещё не существовало. 6. Как устроен аппетит ИИ: цифры вместо слов Любая нейросеть — это набор параметров, чисел. Когда вы слышите «модель на 70 миллиардов параметров» — это буквально 70 миллиардов чисел. В них закодировано всё знание: грамматика, логика, факты. В стандартном формате FP16 (2 байта на число) модель на 70B весит  140 ГБ . Топовая потребительская видеокарта NVIDIA RTX 4090 имеет 24 ГБ видеопамяти. Модель туда не влезет даже теоретически. Нужно минимум шесть таких карт — и это только чтобы модель поместилась, без учёта всего остального. А остальное — самое интересное. Современные большие языковые модели (GPT, Claude, Gemini) построены на архитектуре  «трансформер» , придуманной в 2017 году инженерами Google. Ключевой механизм — «внимание» (attention). Каждый элемент текста (токен) смотрит на все остальные токены, чтобы понять контекст. Для этого модель создаёт матрицу внимания размером  N × N , где N — длина контекста. При контексте в 2000 токенов (небольшой рассказ) матрица — 4 миллиона элементов, 8 МБ. Ерунда. А теперь возьмём GPT-4 Turbo с контекстом  128 000 токенов  (целая книга). Матрица внимания вырастает до  16 миллиардов элементов  — 32 ГБ на один слой. А в модели таких слоёв десятки. Уловили закономерность? Удвоили контекст — получили не двойной, а четырёхкратный рост памяти.  Квадратичная сложность , которая превращает длинный контекст в монстра, пожирающего память. 7. Шпаргалка, которая тяжелее учебника Когда языковая модель генерирует текст, она выдаёт по одному слову за раз. Для каждого нового слова ей нужно оглянуться на все предыдущие. Пересчитывать всё с нуля было бы безумно дорого. Поэтому модель запоминает промежуточные результаты — так называемый  KV Cache . И он растёт линейно с длиной контекста и количеством одновременных пользователей. Для модели LLaMA 70B при контексте 128 000 токенов и 32 одновременных запросах KV Cache пожирает  больше терабайта  памяти. Даже со сжатием — около 640 ГБ. Только на шпаргалку. Это больше, чем веса самой модели (140 ГБ). Шпаргалка оказалась в несколько раз тяжелее учебника. 8. Самый страшный факт: каждый токен — полная перезагрузка Чтобы выдать  одно слово  ответа, модели нужно: загрузить из памяти все свои веса (140 ГБ); прогнать через них данные; получить результат; выдать слово. Для следующего слова — загрузить все 140 ГБ снова. Скорость этой загрузки определяется  пропускной способностью памяти . На видеокарте NVIDIA H100 (один из самых мощных ИИ-ускорителей) память отдаёт данные со скоростью 3350 ГБ/с. Делим 3350 на 140 — получаем теоретический максимум примерно  24 токена в секунду  (слова). Потолок определяется не скоростью вычислений. Процессорные ядра H100 могут считать гораздо быстрее. Но они сидят и ждут. 9. Видео — это ад Текстовый токен — компактная единица информации. А теперь возьмём видео. 1 секунда ролика в 720p — это 30 кадров. Каждый кадр — почти миллион пикселей. Каждый пиксель — три цветовых канала. 1 секунда видео содержит информации больше, чем целая книга в текстовых токенах. Видеомодели (Sora от OpenAI) работают на архитектуре диффузионного трансформера. Прямая обработка каждого пикселя невозможна — поэтому видео сначала сжимают в «латентное пространство» примерно в 100 раз. Но даже после 185-кратного сжатия п","url":"https://txtq.ru/@periferal/145"}]}
