Записки CPU designer'a
رفتن به کانال در Telegram
Всем привет. Меня зовут Николай. Работаю RTL design инженером, амбассадором в RISC-V International. В свободное время пишу о магии процессоростроения и цифровом дизайне.
نمایش بیشتر3 455
مشترکین
+124 ساعت
+17 روز
+5430 روز
آرشیو پست ها
Repost from positive slack
Мечтают ли ИИ-агенты об анализе вейвформ?
Мероприятие прошло. Было очень круто 🎧
Спасибо всем кто пришел, и с кем удалось пообщаться!
Если вдруг упустили, то я рассказывал про CLI инструмент для анализа и работы с вейвформами, написанный специально для "рук" LLM-агентов.
https://github.com/kleverhq/wavepeek
Слайды в первом коменте к посту, ну а выступление есть на YouTube
Жажду получить любую обратную связь, особенно отзывы по использованию в реальных задачах. Любая движуха приветствуется, кроме нейрослоп-PR конечно 😎
#llm #tools
@positiveslack
Исходники за 10 лет работы и $200 миллионов инвестиций в открытом доступе
Помните стартап Esperanto, который разрабатывал чип с 1000+ RISC-V ядрами в составе сложной manycore системы и в итоге обанкротился?
Стартап Ainekko, как и обещал, после приобретения прав на интеллектуальную собственность Esperanto Technologies открыл исходный код и микроархитектурную документацию на часть их разработок. Более подробно о видении и дальнейших планах команды вы можете ознакомиться в их посте: «The Next Thousand Chips».
Сейчас доступен код так называемого CORE-ET (ядра ET-Minion), который фактически является энергоэффективным вычислительным узлом и содержит исходники кастомного векторного сопроцессора.
Подробнее про номенклатуру и архитектуру Esperanto можно прочитать в статье журнала Microprocessor Report.
Почему не открыли всё и сразу?
Дело в том, что оригинальный коммерческий код зачастую тесно переплетен с закрытыми проприетарными блоками от сторонних вендоров (Synopsys, UltraSoC, Movellus и др.). Юридически открыть эти модули невозможно. Именно поэтому управляющие ядра ET-Maxion пока остаются под вопросом, а команде сейчас приходится переписывать часть логики на SystemVerilog, заменяя проприетарный код.
Даже в таком виде релиз - это колоссальное событие. Индустриальные проекты такого масштаба почти никогда не становятся открытыми. Это редчайшая возможность для инженеров изучить настоящие микроархитектурные решения реального коммерческого SoC, с историей успешного tape-out (и не успешной моделью программирования), а не просто академического прототипа.
Ссылка на проект: https://github.com/openhwgroup/core-et
p.s. А позже мы подробнее обсудим микроархитектуру проекта, возможные причины провала стартапа и я с десяток раз похвалю verilator-compatible подход проекта.
Более 35 лет Arm продавала архитектурные лицензии и IP. Теперь произошло то, что все давно ждали и предсказывали: впервые за всю свою историю Arm выпускает собственный серверный чип - AGI CPU на базе 136 ядер Neoverse V3 (TSMC 3 nm).
И это не слайды и не анонс на уровне RTL прототипа: тейпаут уже состоялся и чип прошел внутреннюю валидацию.
Однако название AGI CPU - чистый маркетинг и кликбейт.
Ядра Neoverse V3 c векторными расширениями SVE2 не заменят GPU в обучении LLM.
Реальная роль такого процессора - быть инфраструктурным CPU для AI-систем: управлять ускорителями, оркестрировать задачи, работать с памятью, выполнять код, запускать сервисы, контейнеры и обеспечивать general-purpose вычисления для execution-heavy частей агентных систем.
В мире AI снова возникает потребность не только в ускорителях матричных вычислений, но и в эффективных CPU-ядрах и большой памяти для выполнения логики, кода, пайплайнов и других результатов работы агентов.
Это честная и важная работа, но называть ее AGI CPU - это «hypemaxxed branding» в чистом виде.
Эта роль для семейства Neoverse - не нова. В Европейской процессорной инициативе (EPI) ядра Neoverse V1 уже выполняют аналогичную функцию в чипе Rhea. Ядра Neoverse V1 играют роль хост-процессора, связанного с ускорителями на базе RISC-V - EPAC. Паттерн ровно тот же, что Arm сейчас продает под именем AGI CPU.
Главное событие здесь - это сдвиг бизнес-модели Arm. После нескольких конфликтов и лицензионных споров с партнёрами компания делает следующий шаг и начинает продавать не только архитектуру и IP-ядра, но и готовый кремний, напрямую заходя на территорию своих же клиентов.
Nvidia выпускает собственный Vera CPU на кастомных ARM-ядрах Olympus и теперь обнаруживает уже не IP, а реальный чип по соседству в серверной стойке в качестве прямого конкурента.
Смотреть на независимые бенчмарки, когда они наконец появятся, будет интересно. Пока у нас есть только цифры от самой Arm: заявленный прирост более чем в 2x на стойку относительно актуальных x86-систем, с честной сноской «based on estimates».
+1
Кстати, можете попробовать угадать, где скриншот классического 5-стадийника из учебника по цифровому дизайну и компьютерным архитектурам, а где Linux-capable ядро
И кстати прочитайте эту статью сами, вдруг этот канал уже давно ведёт AI-бот и набрасывает на классную и перспективную работу.
Bip bip bop bop 🤖🤖🤖
А был ли Linux? Мысли о новом "прорыве" в AI-проектировании процессоров и рынке труда
Вышла очередная статья о том, как AI-агент с нуля за 12 часов спроектировал процессор (статья: "Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU" ), получив на вход документ с техническим заданием всего на 219 слов.
Начну издалека. С одной стороны, я по-хорошему завидую нынешним студентам: появилось огромное количество открытых курсов и AI-инструментов, помогающих в обучении и практике круглосуточно. Стало намного проще осваивать смежные области. Например, вы уже разобрались в HDL, но никак не можете понять, почему возникает ошибка в Bash или Tcl-скрипте - тут AI-ассистент вас быстро выручит, и не придется искать ответы на руинах Stack Overflow.
С другой стороны, я совершенно не понимаю, как вчерашнему студенту теперь искать первую работу. Помню, как после магистратуры я написал простейшее однотактное (даже не конвейерное) RISC-V ядро, подготовил битстрим для ПЛИС, снял метрики вроде slack и area, а затем рассылал резюме, прикладывая ссылку на репозиторий. И это здорово помогало! Буквально избавляло от нервного этапа лайв-кодинга на интервью, когда нужно в онлайн-редакторе (а иногда и в Google Docs) писать очередное FIFO "по Каммингсу" или искать ошибку в FSM.
Сейчас же, если студент принесет мне такой же проект, первым делом возникнет вопрос: а кто автор? Студент или AI-агент? Базовые требования к выпускникам, по моим ощущениям, значительно выросли.
Да, учат сейчас лучше: если я на лабах по процессорным архитектурам делал ядро, которое программировалось буквально машинными кодами без ассемблера, то сейчас студенты работают сразу с индустриальным стандартом RISC-V и взрослой софтверной экосистемой.
Но ведь AI-агенты уже могут за 12 часов не только написать Verilog, но и параллельно подготовить скрипты для синтеза, написать констрейнты и проделать все остальное для RTL-маршрута вплоть до готового GDSII.
Или всё-таки не могут? В названии статьи явно указано «Linux-capable». Но если открыть и прочитать текст, окажется, что слово «Linux» встречается там ровно один раз (в самом заголовке). В статье нет ни слова про атомарное расширение, необходимое для поддержки Linux-машины, ни про имплементацию CSR. И, конечно, не приведено главного доказательства «Linux-capable» ядра - успешного бута ОС на FPGA-плате, выполнения условного ls -lh в терминале и чтения версии ядра. Не знаю, оставили ли авторы это на потом, но пока это выглядит как самый обычный кликбейт. Интересный проект подается под соусом очередной AI-сенсации, где нам обещают конкурента Intel Celeron 2011 года (на базе синтетического теста CoreMark) , а по факту показывают классический 5-стадийный конвейер, натренированный на десятках open-source ядер и, наверное, учебнике Харрисов.
При всем скепсисе, AI-агенты явно ускорят работу, особенно в процессах автоматизации рутины. Там, где у стартапов нет времени на написание документации, система из нескольких агентов может изучать код и генерировать на его основе подробную микроархитектурную документацию. Это кратно ускорит онбординг новых специалистов. Генерация простых скриптов для парсинга больших и неповоротливых синтез-репортов тоже сильно упрощает работу с PPA и STA.
Возможно, скоро инженеры действительно перестанут писать код руками, заменяя его промптами. Но я уверен: глубокое понимание PPA, трейдоффов при проектировании сложных систем, знание архитектуры и микроархитектуры всё так же останутся критически ценными навыками.
Вместо заключения - не бойтесь ИИ. В любой производственной цепочке всегда должен быть ответственный человек, который сможет проанализировать результат и сказать, валидно выполнил свою работу ИИ или нет. Агент может сгенерировать мегабайты кода и красивых отчетов, но именно инженер с критическим мышлением должен верифицировать результат, отлавливать галлюцинации и принимать финальное решение об отправке чипа в производство. К слову, даже создатели этого AI-агента прямо признают, что направлять работу таких систем по-прежнему должны опытные архитекторы-люди.
Tenstorrent Cuts 20 Cores From Already-Shipping "Blackhole" P150 Cards
Tenstorrent изменила конфигурацию уже проданных AI-ускорителей Blackhole P150: количество Tensix-ядер снижено со 140 до 120. Изменение применяется не только к новым картам, но и к уже проданным устройствам после обновления firmware v19.5+.
Согласно изменениям в репозитории прошивки, отключаются два столбца Tensix (по 10 ядер каждый). Это уменьшает размер 2D-сетки вычислительных ядер и фактически приводит её к размерности предыдущего поколения ускорителей.
В коммите также указано, что новые P150x используют Bin 3 silicon. Для приведения всех устройств к единой конфигурации firmware отключает эти столбцы и на ранее выпущенных картах.
При этом в firmware присутствует скрипт, позволяющий сохранить все столбцы активными, однако такая конфигурация объявлена неподдерживаемой и не гарантируется работа с будущими версиями прошивки.
Repost from Осцилляции WaveCut
+1
Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса.
И вот, Taalas (бывшая команда из Tenstorrent) выкатили то, чего я так ждал — настоящий Direct-to-Silicon.
Ребята не стали мелочиться и буквально «запекли» модель в кремний. Никакой внешней памяти, никакого HBM, никакой сложной упаковки. Веса модели и архитектура — это и есть сам чип.
Цифры выглядят дико: 17,000 токенов в секунду на Llama 3.1 8B.
Это на порядок быстрее текущей SOTA GPU, при этом чип стоит в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии.
Самое крутое, что это не просто красивые слайды для инвесторов. Железо уже существует, и его можно «потрогать» (ссылка на демо внизу).
Конечно, это ASIC, и тут есть нюанс: чип заточен под одну конкретную модель. Но Taalas продумали этот момент — они оставили поддержку LoRA-адаптеров и изменяемого контекстного окна. То есть это не совсем уж «кирпич», гибкость для файн-тюнинга остается.
Сейчас у них готов чип с Llama 8B (HC1). Весной обещают выкатить что-то среднеразмерное с ризонингом, а к зиме грозятся показать фронтир-модель на втором поколении кремния.
У меня голова идет кругом от мыслей к чему это может привести.
Ссылки:
• Анонс
• Демо (скорость реально впечатляет)
Там surfer релизнули 0.6.0
Всем обновляться 😁
https://gitlab.com/surfer-project/surfer/-/releases/v0.6.0
Новая рубрика: как проходить собеседования в semiconductor-компаниях.
Здесь будут собраны самые актуальные инсайды и бест-практисы, зная которые вы точно пройдёте собес в компанию вашей мечты.
Совет №1.
Если на собеседовании вы собираетесь читерить с AI-ассистентом, позаботьтесь о том, чтобы у вас была не игровая механическая клавиатура, каждый клик которой отчётливо улавливает микрофон.
Потому что иначе эту увлекательную историю интервьюер расскажет своим коллегам, затем HR, потом друзьям, ваше резюме отклонят, а легенда о кандидате, который «очень быстро думал и очень громко печатал», пойдёт гулять по блогам и профессиональным чатикам.
Новый сайт с упражнениями по Verilog
Формат заданий скорее напоминает упражнения по программированию, чем что-то близкое к реальным индустриальным кейсам, но это не умаляет их пользы.
Сайт позволяет поупражняться как с классическими HDL, так и поэкспериментировать с новомодными языками и HCL-подходами: SpinalHDL, Chisel, Clash, Amaranth, HardCaml и т.д.
Из интересного - есть таблицы лидеров, где решения сравниваются по частоте и площади. Метрики там не самые очевидные (измеряются в каких-то своих условных единицах), но как инструмент для сравнения подходов и мотивации к оптимизации - вполне себе хорошая идея.
Если смотреть на leaderboards, то Verilog все еще занимает топовые позиции по количеству отправленных решений.
В целом - неплохое дополнение к уже существующим платформам вроде QuickSilicon, особенно если хочется просто порешать RTL-задачи и поэкспериментировать с разными языками.
atopile - описываем схемы через код?
Как я понял - проект atopile предлагает описывать электрические схемы как код с модулями, параметрами ограничениями и автоматическими проверками генерируя netlist и проекты для KiCad.
Тул упрощает повторное использование блоков контроль ошибок и работу с системами контроля версий.
При этом atopile не занимается размещением и трассировкой платы и не автоматизирует высокоскоростной layout.
Инструмент выглядит прикольно, но насколько реально есть в этом инструменте потребность - расскажут господа топологи 👀
Ещё один процессорный IP-бизнес продан
Synopsys продаёт своё подразделение Processor IP Solutions (ARC / ARC-V, DSP, ASIP tools) компании GlobalFoundries.
Не так давно GF приобрели компанию MIPS.
Тренд последних лет: крупные EDA/IP-вендоры выходят из CPU-ядер, фокусируясь на инструментах и system IP, а foundry вроде GF собирают compute-IP под edge/AI и кастомный silicon.
Консолидация ускоряется, RISC-V становится базовым стандартом, а самостоятельный бизнес на CPU-ядрах остаётся жизнеспособным либо у крупных интеграторов, либо у компаний с глубокой нишевой экспертизой.
Вспомните примеры Ventana или Codasip, кто следующий?👀
Repost from positive slack
+7
How to render cloud FPGA useless
Очень крутой доклад на тему исследования возможных векторов атак на облачные плисины (типа AWS) через питание и прогрев.
tl;dr атакующий должен хирургически точно организовать нужное количество осцилляторов (ring oscillator) внутри дизайна, чтобы либо увести плату или инстанс в отказ, либо повредить/"состарить" конкретные пути в плисине. Обе атаки работают. В первом случае удалось сделать сотню инстансов недоступными на часы, а во втором удалось состарить некоторые пути так, что они стали медленнее на 50-70%.
Довольно много интересных деталей всего процесса с мемными комментариями докладчика.
Интересно, что базовые DRC в AWS пропускают такие "вредоносные" дизайны, поэтому исследователи даже предложили "щит" против своего же "меча".
Доклад с конфы 39c3.
#fpga
@positiveslack
Документальный ролик о самой сложной и важной инженерной машине в мире: EUV-литографической системе от ASML, которая позволяет выпускать самые передовые микрочипы.
Видео подробно объясняет, как работают EUV-литографические установки, из каких подсистем они состоят, почему их стоимость достигает сотен миллионов долларов и какие оптические и физические ограничения стоят за их конструкцией.
Меня удивило, что меньше чем за неделю видео уже набрало 10 миллионов просмотров!
Всем смотреть😎
Лекция о микроархитектуре x86-процессоров на примере Intel Skylake.
Разбираются базовые принципы работы современного out-of-order CPU: конвейер, декодирование x86-инструкций в микрооперации (µops), внеочередное исполнение, переименование регистров и аппаратные механизмы повышения производительности.
Лектор: Мэтт Годболт
Создатель Compiler Explorer, C++-разработчик и популяризатор низкоуровневых аспектов работы процессоров.
Всё думал, какой бы пост написать под конец года, чтобы добрать ещё 40 подписчиков и наконец-то закрыть отметку в 3000 на канале. Но потом понял, что специально писать «условный» пост с анонсом курса или лекции в эти даты - так себе идея.
Не уверен, что кто-то из вас сейчас захочет смотреть полуторачасовую лекцию по микроархитектуре Skylake или обсуждать очередной открытый курс от ETH Zürich. Так что давайте оставим это уже на после праздников☺️
К тому же куда приятнее поставить себе цель набрать 3000 читателей уже в следующем году - звучит вполне реалистично 😄
Я всё ещё не перестаю удивляться, как много людей интересуются такой узкой и довольно специализированной темой, о которой я пишу на канале. Это правда очень круто - спасибо, что читаете.
Отдельное большое спасибо за обратную связь. Особенно порадовала история одного читателя: он написал, что нашёл на канале много полезных и классных материалов, которые реально помогли ему при подготовке к собеседованию. Ради таких сообщений всё это и затевается🙃
В новом году, по традиции, желаю: чтобы slack в репортах был без минуса, чтобы в synthesis-lоgs не было combi-loop’ов, и чтобы RTL-щики честно писали SVA на свои блоки (хотя… этого, конечно, не будет).
А ну-ка все в комментарии поздравлять друг друга 🎄
С наступающим! 🤭
Nvidia заключила крупную сделку с ИИ-стартапом Groq примерно на $20 миллиардов, получив права на его технологии и часть активов, а также привлекая ключевых сотрудников.
Этот шаг позволит Nvidia интегрировать уникальную LPU-архитектуру для высокопроизводительного инференса нейросетевых моделей, одновременно устранив одного из заметных конкурентов на рынке.
Про архитектуру Groq я подробнее писал в этих постах.
При этом, если я верно уловил суть сделки, Groq сохранит независимость под руководством нового CEO и продолжит развивать облачную платформу GroqCloud.
Groq will continue to operate as an independent company with Simon Edwards stepping into the role of Chief Executive Officer.
Repost from positive slack
slang-server
Ну и закрою тему тулов в этом году новым LSP для SystemVerilog поверх Slang. Есть подозрение, что в будущем это может стать выбором по умолчанию для написания SV 🎧
Ликбез. LSP это та штука, что живёт в IDE и даёт редактору возможность делать переходы по символам,показывать хинты, делать автодополнение и другие вещи для нужного языка. Ну а Slang это просто наиболее полный и самый быстрый парсер SV (по заявлениям разработчиков).
В итоге в IDE получаем ту самую эргономику в написании SV, которая есть по умолчанию у программистов на языках высокого уровня. Все фичи перечислять долго, лучше посмотрите доклад или полистайте слайды.
Некоторые хайлайты:
▫️поддерживается neovim и vscode из коробки (последний пока в меньшей мере)
▫️индексация тысяч sv файлов на десятки мегабайт менее чем за секунду
▫️автодополнение, переходы по ссылкам, всплывающие хинты, раскрытие макросов
▫️иерархия, список модулей, поиск по инстансам
▫️интеграция с surfer для связывания кода и вейформ, трассировки driver/load и отображение текущих значений в коде (экспериментально)
Из будущих фич зацепило что будет больше хинтов, переименование символов (рефакторинг), более тесная интеграция с vscode и surfer, автофиксы и slang-format. Полноценный форматтер 🍒
Btw, сервер разработан в Hudson River Trading (там и автор slang работает кстати), а ещё кто-то говорил что HFTшники ничего полезного не делают 🫣
В соседнем чатике даже отзыв-сравнение есть:
Уже недели 3 пользуюсь этим LSP, фантастическая штука Из всего, что пробовал, мне этот больше всего нравится. У verible слабый препроцессор, на макросах сразу падает, пришлось вообще выключить. Svls не умеет делать symbol rename, да и линт что-то не понравился, уже не помню почему. Svlangserver в основном хорошее автодополнение, но фич немного, опять же нет symbol rename. Хочу попробовать еще verilog-mode, но для этого надо выучить emacs, так что как-нибудь потом.#tool @positiveslack
Я принес вам подарок под новый год 🤭
sv-pathfinder - это расширение для VS Code, предназначенное для навигации по проектам на SystemVerilog и трейсинга сигналов.
Расширение позволяет удобно исследовать иерархию дизайна, просматривать и переходить к модулям, инстансам, объявлениям сигналов и блокам generate, а также интегрируется с инструментом отображения временных диаграмм VaporView для пост-симуляционного дебага.
Наконец-то появился инструмент, где можно работать с value annotation прямо в VS Code, а не переключаться на условный DVE или Questa.
Все ещё нет такого важного функционала вроде trace driver или сравнения сигналов между двумя вейвформами, но это всё равно невероятно интересный и крутой проект, особенно для тех, кто хочет более удобный UX в сравнении с решениями от big3 😁
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
