ar
Feedback
Записки CPU designer'a

Записки CPU designer'a

الذهاب إلى القناة على Telegram

Всем привет. Меня зовут Николай. Работаю RTL design инженером, амбассадором в RISC-V International. В свободное время пишу о магии процессоростроения и цифровом дизайне.

إظهار المزيد
3 455
المشتركون
+124 ساعات
+17 أيام
+5430 أيام
أرشيف المشاركات
Repost from positive slack
Мечтают ли ИИ-агенты об анализе вейвформ? Мероприятие прошло. Было очень круто 🎧 Спасибо всем кто пришел, и с кем удалось пообщаться! Если вдруг упустили, то я рассказывал про CLI инструмент для анализа и работы с вейвформами, написанный специально для "рук" LLM-агентов. https://github.com/kleverhq/wavepeek Слайды в первом коменте к посту, ну а выступление есть на YouTube Жажду получить любую обратную связь, особенно отзывы по использованию в реальных задачах. Любая движуха приветствуется, кроме нейрослоп-PR конечно 😎 #llm #tools @positiveslack

Классный и актуальный доклад, рекомендую к просмотру 👀

Исходники за 10 лет работы и $200 миллионов инвестиций в открытом доступе Помните стартап Esperanto, который разрабатывал чип с 1000+ RISC-V ядрами в составе сложной manycore системы и в итоге обанкротился? Стартап Ainekko, как и обещал, после приобретения прав на интеллектуальную собственность Esperanto Technologies открыл исходный код и микроархитектурную документацию на часть их разработок. Более подробно о видении и дальнейших планах команды вы можете ознакомиться в их посте: «The Next Thousand Chips». Сейчас доступен код так называемого CORE-ET (ядра ET-Minion), который фактически является энергоэффективным вычислительным узлом и содержит исходники кастомного векторного сопроцессора. Подробнее про номенклатуру и архитектуру Esperanto можно прочитать в статье журнала Microprocessor Report. Почему не открыли всё и сразу? Дело в том, что оригинальный коммерческий код зачастую тесно переплетен с закрытыми проприетарными блоками от сторонних вендоров (Synopsys, UltraSoC, Movellus и др.). Юридически открыть эти модули невозможно. Именно поэтому управляющие ядра ET-Maxion пока остаются под вопросом, а команде сейчас приходится переписывать часть логики на SystemVerilog, заменяя проприетарный код. Даже в таком виде релиз - это колоссальное событие. Индустриальные проекты такого масштаба почти никогда не становятся открытыми. Это редчайшая возможность для инженеров изучить настоящие микроархитектурные решения реального коммерческого SoC, с историей успешного tape-out (и не успешной моделью программирования), а не просто академического прототипа. Ссылка на проект: https://github.com/openhwgroup/core-et p.s. А позже мы подробнее обсудим микроархитектуру проекта, возможные причины провала стартапа и я с десяток раз похвалю verilator-compatible подход проекта.

Более 35 лет Arm продавала архитектурные лицензии и IP. Теперь произошло то, что все давно ждали и предсказывали: впервые за
Более 35 лет Arm продавала архитектурные лицензии и IP. Теперь произошло то, что все давно ждали и предсказывали: впервые за всю свою историю Arm выпускает собственный серверный чип - AGI CPU на базе 136 ядер Neoverse V3 (TSMC 3 nm). И это не слайды и не анонс на уровне RTL прототипа: тейпаут уже состоялся и чип прошел внутреннюю валидацию. Однако название AGI CPU - чистый маркетинг и кликбейт. Ядра Neoverse V3 c векторными расширениями SVE2 не заменят GPU в обучении LLM. Реальная роль такого процессора - быть инфраструктурным CPU для AI-систем: управлять ускорителями, оркестрировать задачи, работать с памятью, выполнять код, запускать сервисы, контейнеры и обеспечивать general-purpose вычисления для execution-heavy частей агентных систем. В мире AI снова возникает потребность не только в ускорителях матричных вычислений, но и в эффективных CPU-ядрах и большой памяти для выполнения логики, кода, пайплайнов и других результатов работы агентов. Это честная и важная работа, но называть ее AGI CPU - это «hypemaxxed branding» в чистом виде. Эта роль для семейства Neoverse - не нова. В Европейской процессорной инициативе (EPI) ядра Neoverse V1 уже выполняют аналогичную функцию в чипе Rhea. Ядра Neoverse V1 играют роль хост-процессора, связанного с ускорителями на базе RISC-V - EPAC. Паттерн ровно тот же, что Arm сейчас продает под именем AGI CPU. Главное событие здесь - это сдвиг бизнес-модели Arm. После нескольких конфликтов и лицензионных споров с партнёрами компания делает следующий шаг и начинает продавать не только архитектуру и IP-ядра, но и готовый кремний, напрямую заходя на территорию своих же клиентов. Nvidia выпускает собственный Vera CPU на кастомных ARM-ядрах Olympus и теперь обнаруживает уже не IP, а реальный чип по соседству в серверной стойке в качестве прямого конкурента. Смотреть на независимые бенчмарки, когда они наконец появятся, будет интересно. Пока у нас есть только цифры от самой Arm: заявленный прирост более чем в 2x на стойку относительно актуальных x86-систем, с честной сноской «based on estimates».

Кстати, можете попробовать угадать, где скриншот классического 5-стадийника из учебника по цифровому дизайну и компьютерным а
+1
Кстати, можете попробовать угадать, где скриншот классического 5-стадийника из учебника по цифровому дизайну и компьютерным архитектурам, а где Linux-capable ядро И кстати прочитайте эту статью сами, вдруг этот канал уже давно ведёт AI-бот и набрасывает на классную и перспективную работу. Bip bip bop bop 🤖🤖🤖

А был ли Linux? Мысли о новом "прорыве" в AI-проектировании процессоров и рынке труда Вышла очередная статья о том, как AI-агент с нуля за 12 часов спроектировал процессор (статья: "Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU" ), получив на вход документ с техническим заданием всего на 219 слов. Начну издалека. С одной стороны, я по-хорошему завидую нынешним студентам: появилось огромное количество открытых курсов и AI-инструментов, помогающих в обучении и практике круглосуточно. Стало намного проще осваивать смежные области. Например, вы уже разобрались в HDL, но никак не можете понять, почему возникает ошибка в Bash или Tcl-скрипте - тут AI-ассистент вас быстро выручит, и не придется искать ответы на руинах Stack Overflow. С другой стороны, я совершенно не понимаю, как вчерашнему студенту теперь искать первую работу. Помню, как после магистратуры я написал простейшее однотактное (даже не конвейерное) RISC-V ядро, подготовил битстрим для ПЛИС, снял метрики вроде slack и area, а затем рассылал резюме, прикладывая ссылку на репозиторий. И это здорово помогало! Буквально избавляло от нервного этапа лайв-кодинга на интервью, когда нужно в онлайн-редакторе (а иногда и в Google Docs) писать очередное FIFO "по Каммингсу" или искать ошибку в FSM. Сейчас же, если студент принесет мне такой же проект, первым делом возникнет вопрос: а кто автор? Студент или AI-агент? Базовые требования к выпускникам, по моим ощущениям, значительно выросли. Да, учат сейчас лучше: если я на лабах по процессорным архитектурам делал ядро, которое программировалось буквально машинными кодами без ассемблера, то сейчас студенты работают сразу с индустриальным стандартом RISC-V и взрослой софтверной экосистемой. Но ведь AI-агенты уже могут за 12 часов не только написать Verilog, но и параллельно подготовить скрипты для синтеза, написать констрейнты и проделать все остальное для RTL-маршрута вплоть до готового GDSII. Или всё-таки не могут? В названии статьи явно указано «Linux-capable». Но если открыть и прочитать текст, окажется, что слово «Linux» встречается там ровно один раз (в самом заголовке). В статье нет ни слова про атомарное расширение, необходимое для поддержки Linux-машины, ни про имплементацию CSR. И, конечно, не приведено главного доказательства «Linux-capable» ядра - успешного бута ОС на FPGA-плате, выполнения условного ls -lh в терминале и чтения версии ядра. Не знаю, оставили ли авторы это на потом, но пока это выглядит как самый обычный кликбейт. Интересный проект подается под соусом очередной AI-сенсации, где нам обещают конкурента Intel Celeron 2011 года (на базе синтетического теста CoreMark) , а по факту показывают классический 5-стадийный конвейер, натренированный на десятках open-source ядер и, наверное, учебнике Харрисов. При всем скепсисе, AI-агенты явно ускорят работу, особенно в процессах автоматизации рутины. Там, где у стартапов нет времени на написание документации, система из нескольких агентов может изучать код и генерировать на его основе подробную микроархитектурную документацию. Это кратно ускорит онбординг новых специалистов. Генерация простых скриптов для парсинга больших и неповоротливых синтез-репортов тоже сильно упрощает работу с PPA и STA. Возможно, скоро инженеры действительно перестанут писать код руками, заменяя его промптами. Но я уверен: глубокое понимание PPA, трейдоффов при проектировании сложных систем, знание архитектуры и микроархитектуры всё так же останутся критически ценными навыками. Вместо заключения - не бойтесь ИИ. В любой производственной цепочке всегда должен быть ответственный человек, который сможет проанализировать результат и сказать, валидно выполнил свою работу ИИ или нет. Агент может сгенерировать мегабайты кода и красивых отчетов, но именно инженер с критическим мышлением должен верифицировать результат, отлавливать галлюцинации и принимать финальное решение об отправке чипа в производство. К слову, даже создатели этого AI-агента прямо признают, что направлять работу таких систем по-прежнему должны опытные архитекторы-люди.

Tenstorrent Cuts 20 Cores From Already-Shipping "Blackhole" P150 Cards Tenstorrent изменила конфигурацию уже проданных AI-ускорителей Blackhole P150: количество Tensix-ядер снижено со 140 до 120. Изменение применяется не только к новым картам, но и к уже проданным устройствам после обновления firmware v19.5+. Согласно изменениям в репозитории прошивки, отключаются два столбца Tensix (по 10 ядер каждый). Это уменьшает размер 2D-сетки вычислительных ядер и фактически приводит её к размерности предыдущего поколения ускорителей. В коммите также указано, что новые P150x используют Bin 3 silicon. Для приведения всех устройств к единой конфигурации firmware отключает эти столбцы и на ранее выпущенных картах. При этом в firmware присутствует скрипт, позволяющий сохранить все столбцы активными, однако такая конфигурация объявлена неподдерживаемой и не гарантируется работа с будущими версиями прошивки.

Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса. И вот, Taalas (бывшая ком
+1
Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса. И вот, Taalas (бывшая команда из Tenstorrent) выкатили то, чего я так ждал — настоящий Direct-to-Silicon. Ребята не стали мелочиться и буквально «запекли» модель в кремний. Никакой внешней памяти, никакого HBM, никакой сложной упаковки. Веса модели и архитектура — это и есть сам чип. Цифры выглядят дико: 17,000 токенов в секунду на Llama 3.1 8B. Это на порядок быстрее текущей SOTA GPU, при этом чип стоит в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии. Самое крутое, что это не просто красивые слайды для инвесторов. Железо уже существует, и его можно «потрогать» (ссылка на демо внизу). Конечно, это ASIC, и тут есть нюанс: чип заточен под одну конкретную модель. Но Taalas продумали этот момент — они оставили поддержку LoRA-адаптеров и изменяемого контекстного окна. То есть это не совсем уж «кирпич», гибкость для файн-тюнинга остается. Сейчас у них готов чип с Llama 8B (HC1). Весной обещают выкатить что-то среднеразмерное с ризонингом, а к зиме грозятся показать фронтир-модель на втором поколении кремния. У меня голова идет кругом от мыслей к чему это может привести. Ссылки: • АнонсДемо (скорость реально впечатляет)

Там surfer релизнули 0.6.0 Всем обновляться 😁 https://gitlab.com/surfer-project/surfer/-/releases/v0.6.0
Там surfer релизнули 0.6.0 Всем обновляться 😁 https://gitlab.com/surfer-project/surfer/-/releases/v0.6.0

Новая рубрика: как проходить собеседования в semiconductor-компаниях. Здесь будут собраны самые актуальные инсайды и бест-практисы, зная которые вы точно пройдёте собес в компанию вашей мечты. Совет №1. Если на собеседовании вы собираетесь читерить с AI-ассистентом, позаботьтесь о том, чтобы у вас была не игровая механическая клавиатура, каждый клик которой отчётливо улавливает микрофон. Потому что иначе эту увлекательную историю интервьюер расскажет своим коллегам, затем HR, потом друзьям, ваше резюме отклонят, а легенда о кандидате, который «очень быстро думал и очень громко печатал», пойдёт гулять по блогам и профессиональным чатикам.

Новый сайт с упражнениями по Verilog Формат заданий скорее напоминает упражнения по программированию, чем что-то близкое к ре
Новый сайт с упражнениями по Verilog Формат заданий скорее напоминает упражнения по программированию, чем что-то близкое к реальным индустриальным кейсам, но это не умаляет их пользы. Сайт позволяет поупражняться как с классическими HDL, так и поэкспериментировать с новомодными языками и HCL-подходами: SpinalHDL, Chisel, Clash, Amaranth, HardCaml и т.д. Из интересного - есть таблицы лидеров, где решения сравниваются по частоте и площади. Метрики там не самые очевидные (измеряются в каких-то своих условных единицах), но как инструмент для сравнения подходов и мотивации к оптимизации - вполне себе хорошая идея. Если смотреть на leaderboards, то Verilog все еще занимает топовые позиции по количеству отправленных решений. В целом - неплохое дополнение к уже существующим платформам вроде QuickSilicon, особенно если хочется просто порешать RTL-задачи и поэкспериментировать с разными языками.

atopile - описываем схемы через код? Как я понял - проект atopile предлагает описывать электрические схемы как код с модулями
atopile - описываем схемы через код? Как я понял - проект atopile предлагает описывать электрические схемы как код с модулями, параметрами ограничениями и автоматическими проверками генерируя netlist и проекты для KiCad. Тул упрощает повторное использование блоков контроль ошибок и работу с системами контроля версий. При этом atopile не занимается размещением и трассировкой платы и не автоматизирует высокоскоростной layout. Инструмент выглядит прикольно, но насколько реально есть в этом инструменте потребность - расскажут господа топологи 👀

Ещё один процессорный IP-бизнес продан Synopsys продаёт своё подразделение Processor IP Solutions (ARC / ARC-V, DSP, ASIP tools) компании GlobalFoundries. Не так давно GF приобрели компанию MIPS. Тренд последних лет: крупные EDA/IP-вендоры выходят из CPU-ядер, фокусируясь на инструментах и system IP, а foundry вроде GF собирают compute-IP под edge/AI и кастомный silicon. Консолидация ускоряется, RISC-V становится базовым стандартом, а самостоятельный бизнес на CPU-ядрах остаётся жизнеспособным либо у крупных интеграторов, либо у компаний с глубокой нишевой экспертизой. Вспомните примеры Ventana или Codasip, кто следующий?👀

Repost from positive slack
How to render cloud FPGA useless Очень крутой доклад на тему исследования возможных векторов атак на облачные плисины (типа A
+7
How to render cloud FPGA useless Очень крутой доклад на тему исследования возможных векторов атак на облачные плисины (типа AWS) через питание и прогрев. tl;dr атакующий должен хирургически точно организовать нужное количество осцилляторов (ring oscillator) внутри дизайна, чтобы либо увести плату или инстанс в отказ, либо повредить/"состарить" конкретные пути в плисине. Обе атаки работают. В первом случае удалось сделать сотню инстансов недоступными на часы, а во втором удалось состарить некоторые пути так, что они стали медленнее на 50-70%. Довольно много интересных деталей всего процесса с мемными комментариями докладчика. Интересно, что базовые DRC в AWS пропускают такие "вредоносные" дизайны, поэтому исследователи даже предложили "щит" против своего же "меча". Доклад с конфы 39c3. #fpga @positiveslack

Документальный ролик о самой сложной и важной инженерной машине в мире: EUV-литографической системе от ASML, которая позволяет выпускать самые передовые микрочипы. Видео подробно объясняет, как работают EUV-литографические установки, из каких подсистем они состоят, почему их стоимость достигает сотен миллионов долларов и какие оптические и физические ограничения стоят за их конструкцией. Меня удивило, что меньше чем за неделю видео уже набрало 10 миллионов просмотров! Всем смотреть😎

Лекция о микроархитектуре x86-процессоров на примере Intel Skylake. Разбираются базовые принципы работы современного out-of-o
Лекция о микроархитектуре x86-процессоров на примере Intel Skylake. Разбираются базовые принципы работы современного out-of-order CPU: конвейер, декодирование x86-инструкций в микрооперации (µops), внеочередное исполнение, переименование регистров и аппаратные механизмы повышения производительности. Лектор: Мэтт Годболт Создатель Compiler Explorer, C++-разработчик и популяризатор низкоуровневых аспектов работы процессоров.

Всё думал, какой бы пост написать под конец года, чтобы добрать ещё 40 подписчиков и наконец-то закрыть отметку в 3000 на кан
Всё думал, какой бы пост написать под конец года, чтобы добрать ещё 40 подписчиков и наконец-то закрыть отметку в 3000 на канале. Но потом понял, что специально писать «условный» пост с анонсом курса или лекции в эти даты - так себе идея. Не уверен, что кто-то из вас сейчас захочет смотреть полуторачасовую лекцию по микроархитектуре Skylake или обсуждать очередной открытый курс от ETH Zürich. Так что давайте оставим это уже на после праздников☺️ К тому же куда приятнее поставить себе цель набрать 3000 читателей уже в следующем году - звучит вполне реалистично 😄 Я всё ещё не перестаю удивляться, как много людей интересуются такой узкой и довольно специализированной темой, о которой я пишу на канале. Это правда очень круто - спасибо, что читаете. Отдельное большое спасибо за обратную связь. Особенно порадовала история одного читателя: он написал, что нашёл на канале много полезных и классных материалов, которые реально помогли ему при подготовке к собеседованию. Ради таких сообщений всё это и затевается🙃 В новом году, по традиции, желаю: чтобы slack в репортах был без минуса, чтобы в synthesis-lоgs не было combi-loop’ов, и чтобы RTL-щики честно писали SVA на свои блоки (хотя… этого, конечно, не будет). А ну-ка все в комментарии поздравлять друг друга 🎄 С наступающим! 🤭

Nvidia заключила крупную сделку с ИИ-стартапом Groq примерно на $20 миллиардов, получив права на его технологии и часть активов, а также привлекая ключевых сотрудников. Этот шаг позволит Nvidia интегрировать уникальную LPU-архитектуру для высокопроизводительного инференса нейросетевых моделей, одновременно устранив одного из заметных конкурентов на рынке. Про архитектуру Groq я подробнее писал в этих постах. При этом, если я верно уловил суть сделки, Groq сохранит независимость под руководством нового CEO и продолжит развивать облачную платформу GroqCloud.
Groq will continue to operate as an independent company with Simon Edwards stepping into the role of Chief Executive Officer.

Repost from positive slack
slang-server Ну и закрою тему тулов в этом году новым LSP для SystemVerilog поверх Slang. Есть подозрение, что в будущем это может стать выбором по умолчанию для написания SV 🎧 Ликбез. LSP это та штука, что живёт в IDE и даёт редактору возможность делать переходы по символам,показывать хинты, делать автодополнение и другие вещи для нужного языка. Ну а Slang это просто наиболее полный и самый быстрый парсер SV (по заявлениям разработчиков). В итоге в IDE получаем ту самую эргономику в написании SV, которая есть по умолчанию у программистов на языках высокого уровня. Все фичи перечислять долго, лучше посмотрите доклад или полистайте слайды. Некоторые хайлайты: ▫️поддерживается neovim и vscode из коробки (последний пока в меньшей мере) ▫️индексация тысяч sv файлов на десятки мегабайт менее чем за секунду ▫️автодополнение, переходы по ссылкам, всплывающие хинты, раскрытие макросов ▫️иерархия, список модулей, поиск по инстансам ▫️интеграция с surfer для связывания кода и вейформ, трассировки driver/load и отображение текущих значений в коде (экспериментально) Из будущих фич зацепило что будет больше хинтов, переименование символов (рефакторинг), более тесная интеграция с vscode и surfer, автофиксы и slang-format. Полноценный форматтер 🍒 Btw, сервер разработан в Hudson River Trading (там и автор slang работает кстати), а ещё кто-то говорил что HFTшники ничего полезного не делают 🫣 В соседнем чатике даже отзыв-сравнение есть:
Уже недели 3 пользуюсь этим LSP, фантастическая штука Из всего, что пробовал, мне этот больше всего нравится. У verible слабый препроцессор, на макросах сразу падает, пришлось вообще выключить. Svls не умеет делать symbol rename, да и линт что-то не понравился, уже не помню почему. Svlangserver в основном хорошее автодополнение, но фич немного, опять же нет symbol rename. Хочу попробовать еще verilog-mode, но для этого надо выучить emacs, так что как-нибудь потом.
#tool @positiveslack

Я принес вам подарок под новый год 🤭 sv-pathfinder - это расширение для VS Code, предназначенное для навигации по проектам н
Я принес вам подарок под новый год 🤭 sv-pathfinder - это расширение для VS Code, предназначенное для навигации по проектам на SystemVerilog и трейсинга сигналов. Расширение позволяет удобно исследовать иерархию дизайна, просматривать и переходить к модулям, инстансам, объявлениям сигналов и блокам generate, а также интегрируется с инструментом отображения временных диаграмм VaporView для пост-симуляционного дебага. Наконец-то появился инструмент, где можно работать с value annotation прямо в VS Code, а не переключаться на условный DVE или Questa. Все ещё нет такого важного функционала вроде trace driver или сравнения сигналов между двумя вейвформами, но это всё равно невероятно интересный и крутой проект, особенно для тех, кто хочет более удобный UX в сравнении с решениями от big3 😁