es
Feedback
Архитектор Данных

Архитектор Данных

Ir al canal en Telegram

Алексей, архитектор данных из ВК. Большие данные и облака. Для связи @alexbelozersky

Mostrar más
1 816
Suscriptores
+424 horas
+167 días
+5130 días
Archivo de publicaciones
Из Физтеха в бигтехи - 1 Вы знали, что на Физтехе учат высоким нагрузкам? В прошлом году я познакомился с Константином Ратвиным, сотрудником кафедры Банковских Информационных Технологий Физтеха. Оказывается, на кафедре делается много интересного в сотрудничестве с такими компаниями как Сбер, Тарантул Лабз, Постгрес Про и других. Мы взяли небольшое интервью о том, как кафедра взаимодействует с бигтехами, и какие интересные проекты студенты выполняют. Как Физтех в целом и ваша кафедра взаимодействует с компаниями? Все кафедры действуют независимо друг от друга, у каждой свои уникальные договоренности. Расскажу про мою кафедру Банковских Информационных Технологий (БИТ) при Сбербанк-Технологиях. У БИТ есть программы для бакалавриата и магистратуры. Основные направления: Машинное обучение и анализ данных и Высоконагруженные распределённые системы. Мы стараемся, чтобы наши студенты знакомились с продуктами компании СберТех и после окончания академических программ смогли проще адаптироваться в компании. Компании-вендоры могут привлекаться для чтения приглашенных лекций и демонстрации работы их продуктов. Например, есть тема в лекции, рассказать о распределенных СУБД. У нас в РФ есть продукт YDB. Почему бы не попросить вендора рассказать о ней на занятии? Или например рассказать о СУБД Redis. Преподаватель может рассказать какие-то общие факты. Возможно было бы здорово привлечь специалиста, который работает с этой СУБД довольно долго и может рассказать какие-то интересные жизненные примеры из разработки эксплуатации этой СУБД. Такое партнертво резко увеличивает вовлеченность студентов в дисциплину, т.к. знания при таком подходе самые актуальные и востребованные. В конце обучения все студенты пишут своих выпускные квалификационные работы (ВКР). Это самая сложная пора для научного руководителя. Надо придумать 100500 вариантов тем и затем студенты должны что-то выбрать и далее начинается тяжелый путь исследования и разработки. Каждый год составлять список уникальный тем задача крайне сложная. Но и это не самая большая проблема. Положа руку на сердце, почти все ВКР пишутся в отрыве от практических задач, «в стол». Но компании-вендоры могут сами предложить темы для исследования и проработки. И такой подход имеет смысл для компании, для сообщества, и значительно повышает мотивацию юного ученого, т.к. он видит, что его труд нужен еще кому-то кроме кафедры и научрука. Дипломный проект с компаниями - что это за формат, предполагает ли он стажировки? Как производится отбор на стажировки? Дипломный проект с вендором – это привилегия, а не стандартный формат. И как любую привилегию её нужно заслужить. Приведу пример с Tarantool Labs. Студент подает заявку на участие. Затем проходит 2 этапа собеседования. После чего принимается решение о его зачислении. Этапы не простые. В прошлом году из четырех заявок моих студентов одобрили только одну. В этой лаборатории студентам предлагаю темы потенциальных исследование. Студент выбирает её и затем ему назначается куратор. Далее этот куратор на протяжении месяцев ведет свою работу. По окончанию у студента есть реальный практических опыт работы с продуктом Tarantool и фактичски готовая ВКР. Это уникальное взаимодействие. Чаще всего мое взаимодействие с вендором сводится к выпрашиваю списка тем для исследований. Если студенту тема понравилась, то он начинает её самостоятельную проработку и может иногда задавать вопросу какому-нибудь специалисту от вендора и не более того. В любом случае это лучше, чем ничего. В следущих постах - три студенческих проекта: - встраивание векторного поиска в Apache Ignite - тесты детерминированного исполнения для СУБД Tarantool - генератор повреждений и метод восстановления данных из СУБД PostgreSQL (продолжение следует)

Если ты в топ вузе, то у тебя силилн возможностей уже начинать устраивать карьеру. Только не зевай.

Repost from Mikhail Tokovinin
Секрет успешных выступлений. На самой заре моей скромной бизнес-карьеры, я помню, как-то сидел где-то в 7 ряду какой-то бизнес-конференции, слушал очередной доклад, и меня распирало: «Почему он на сцене?! Спикер дурак, он все говорит не так! Там на сцене должен быть я» - ну вы понимаете... Когда же я сам стал выступать (а у меня тут есть некоторый опыт), я обратил внимание, что в седьмом ряду всегда сидит какой-то хрен, которого бомбит. Ему всё всегда не нравится, вы для него говорите всё не то и не так. Но есть и хорошая новость. Где-то во втором ряду всегда сидит позитивная дама, которая смеется на все твои шутки и которая в полном восторге от тебя и твоего выступления. Так вот. Секрет успешных публичных выступлений очень простой. Надо забить хер на хрена в седьмом ряду. Вы здесь, чтобы доставить радость даме во втором ряду - это ваш зритель и вы здесь для неё.

Чума XXI Века
Anonymous voting

Самозванцы Точно автор подметил. Кого представление ни прочитаешь, каждый - олимпийский чемпион - нобелевский лауреат - изобрел лекарство от рака - запустил спутник - написал 5 симфоний Все это вместе Чак, ты ли это? А потом собираются обсуждать, как им бороться с чумой 21 века - с синдромом самозванца. Смех да и только

Пошли алгоритмические промо на реактивацию оттока. Спокойно, ребята из X5, я не в оттоке, я просто в отпуск уехал.
Пошли алгоритмические промо на реактивацию оттока. Спокойно, ребята из X5, я не в оттоке, я просто в отпуск уехал.

Стадии карьеры 1. Офигеваешь от кринжа 2. Управляешь кринжом 3. Создаешь кринж

Очевидные результата АБ-тестирования ИИ-копилота на людях.
В июне (три дня назад) появилось уже нашумевшее исследование медиалаборатории MIT, заставившей состязаться людей, использовавших свой мозг, с людьми, использовавшими чатбот GPT. Из итогов: "Группа, которая писала эссе с использованием ChatGPT, представила чрезвычайно похожие друг на друга сочинения, в которых отсутствовала оригинальная мысль и которые опирались на одни и те же выражения и идеи. ЭЭГ выявили низкий уровень исполнительного контроля и вовлеченности внимания. А к третьему эссе многие из авторов просто дали ChatGPT промпт и заставили его сделать почти всю работу... После написания трех эссе испытуемым было предложено переписать одно из их предыдущих сочинений, но группе ChatGPT пришлось сделать это без инструмента. Группа, как оказалось, мало что запомнила из своих собственных эссе".
Узнано тут Как быть с кодом и архитектурой, написанной с помощью копилота и которые никто не понимает? А никак, никто никогда не понимает код и архитектуру 🙂

Безумству храбрых поем мы песнь Привет всем тем кто считает что достаточно сказать нейронке: «не ври, не выдумывай» - и она перестанет врать и выдумывать.

Repost from N/a
Да вот, кстати. История того как в крупных компаниях (и у нас тоже) совершили неудачный переход на GreenPlum стоит отдельного изучения. Одно сейчас ясно на 100% - GreenPlum не оправдал возложенных на него надежд. Возможно, с подобной задачей справился бы кластерный Postgres Pro. Но кто его знает. Одна из основных проблем ГП - отсутствие нормального механизма выделения и разделения ресурсов. Все падает в одну общую коммунальную очередь, и лучшее что с этим можно сделать - разделять выполнение потоков по времени. Вторая - удивительная способность ГП занимать буквально все выделенное ему пространство под логи и временные файлы. По идее, это должно ускорять его работу и улучшать стабильность, но скорее наоборот. Третья - в целом крайняя нестабильность работы ГП. У нас буквально целый департамент присматривает за ним в режиме 24/7, но все равно постоянно происходят какие-то аварии и что-то ломается. #dataengineering #greenplum

Как откликаться Следствие сломанного процесса найма. Нашли интересную позицию - идите на сайт работодателя, заходите в раздел вакансии / карьера и откликайтесь там. Пишите на почту hr@company.name, или в телеграм аккаунт рекрутеров. Это и раньше было полезно, а сейчас и просто необходимо чтобы не потонуть в резюме сгенеренных ИИ, а также просто грузчиках и маркетологах. В начале карьеры мне это сильно помогало. То ли это, то ли все-таки 2 диплома и раскачанный пет-проект 😂

Ойтишно-кадровое. Занимаюсь тут собеседованием специалистов на одну позицию. И как-то дело туговато в этом году идёт - то люди вообще из другой отрасли попадаются, то их квалификация не позволит вытянуть предполагаемый объём и сложность задач. Возникли вопросы к подборщику сначала, который HR - типа а как так? А она говорит, у неё после публикации вакансии примерно две тысячи откликов, причём далеко не все от программистов. Там и студенты, и продажники, и просто начинающие, а также чуть ли не врачи. И вот она сидит денно и нощно разгребает эти отклики. И они продолжают наваливаться. Ну, начали разбираться почему так. Как оказалось - кадровый портал "Всея Руси" не так давно изменил алгоритмы ранжирования резюме кандидатов. Важным фактором стала "активность" - то есть кандидат, желающий найти работу, должен как можно больше откликаться на вакансии, фактор активности выше, соответственно тот, кто откликается больше - в результатах поиска по специальности тоже будет выше. И нет, при этом соответствие опыта для опубликованной вакансии не проверяется :) Поэтому народ эту "фишку" просёк, и теперь просто откликается вообще на всё. Есть уже даже специальные автоматические скрипты - чтобы на новые вакансии можно было вообще бездумно реагировать. Неважно, что ты технолог химического производства какого, например. Можно откликнуться и на продавца, и на программиста, и на охранника, и на сварщика - чем больше, тем лучше. А уж "своя работа меня найдёт". HH похоже всё равно, кто там на что отклики отправляет, учитывается только метрика количественная, но не по соответствию. Ну, забавно, конечно. Найм у нас и так поломан более чем, а теперь его умудрились поломать и того больше. Но зато какая-нибудь метрика вроде MAU/DAU, важная для того, чтобы "продакт" в хх, это придумавший, получил премию - наверное на высоте. Ну, успехов им. Пламенный привет. И, конечно, улыбок, как тому деду Макару. @it_vatnik

Про KPI Как сломать процесс найма в стране, вкрутив неправильные KPI отдельно взятому продакту. Найм через HH сломан, подтвердят все кто в теме рекрутинга. (См репост) Когда я на почте служил ямщиком начинал карьеру аналитиком в ритейле, мы по крайней мере делали двух-ходовку. 1. Менеджер придумывает KPI 2. Вызывается кто-то из розницы и ему задается вопрос: как отреагирует средний директор магазина, увидев такой план. Поверьте, результат такой виртуальной обратной связи был крайне неочевидным. А предполагаемые последствия - почти противоположными.

Repost from Data Engineer
Архитектор данных своим постом подкинул идею написать про то, что разделило жизнь в роли «продающего эксперта» на До и После.
Архитектор данных своим постом подкинул идею написать про то, что разделило жизнь в роли «продающего эксперта» на До и После. В моем случае таким сепаратором стала книга Джеральда Вайнберга «Закон малинового варенья». Никто не сможет представить ее лучше самого автора: «Если вы консультант или когда-нибудь пользовались услугами консультанта, тогда эта книга для вас. Она рассчитана на широкую аудиторию, поскольку в настоящее время практически каждый является своего рода консультантом». А я просто приведу свои любимые цитаты из нее. Хорошо бы и книгу, конечно, перечитывать периодически, ибо сказанное в ней я регулярно забываю в повседневной жизни, получаю очередными граблями по голове и опять отправляюсь на штрафной круг…
«Любой, кто не озадачен и не сбит с толку современной действительностью, потерял связь с реальностью.» «Один из способов, используемых руководителями, чтобы избежать упоминания о том, что у них есть проблема, — назвать эту проблему «технической». «Найдите какую-нибудь систему, которая в чем-либо похожа на ту, которую вы проверяете, и используйте ее как источник идей. Био­логия, психология, инженерное дело, спорт, семейная жизнь, здо­ровье — все это возможные варианты. Системы не обязательно должны быть одинаковыми: вы ищете идеи, а не ответы.» «Если повнимательнее присмотреться к набору хитрых прие­мов консультанта, легко обнаружить, что лучшие из них не имеют ничего общего с их «специализацией и могут быть использованы консультантами в любой области деятельности.» «Чем лучше вы приспособлены к существующим условиям, тем сложнее вам будет адаптироваться к изменениям в будущем.»

Если у вас нет Хранилища Данных (КХД) Оно на самом деле есть. Оно на экселях и битриксах. Оно неудобное.

Кажется в агентных средах изобрели map-reduce 😂 - В системе ведущий агент анализирует запрос и создает подагентов, которые параллельно ищут информацию каждый по своему направлению. Это совсем другая логика работы с задачами, где заранее непонятно, какие шаги потребуются. - Архитектура построена по схеме “оркестратор-воркер”: ведущий планирует и делит задачи, подагенты ищут и фильтруют, дальше всё собирается и проходит через агент-цитировщик - Параллелизация ускоряет исследования в разы: ввод нескольких подагентов и параллельных инструментов сокращает время до 90%

Эксперт Так случилось, что я "продающий эксперт". Вот топ совет, который буквально изменил мое восприятие профессии на До и П
Эксперт Так случилось, что я "продающий эксперт". Вот топ совет, который буквально изменил мое восприятие профессии на До и После. Совет от Волка с Уолл-Стрит.

Последнее по порядку, но не по значению 6⃣ Без ИИ бюджетов не дадут!

Топ мыслей по итогам общения на South Hub - Data Edition 1⃣ Переезд по схеме (старое хд на Oracle, ms, whatever) - (Green plum) - (Lake house, Trino S3) повсеместно. Лейкхаус решает проблемы роста нагрузки, которую перестаёт вывозить ГП. 2⃣ Никто так и не знает ответ, кто должен нести ответственность за загрузку данных и качество данных. Источник или команда ХД. Дата контракты на бумаге красивы, на практике не работают. 3⃣ Покровительство высокого бизнеса при строительстве аналитики - определяющий фактор. Без него не получится. 4⃣ Продвинутые фичи современных каталогов данных такие как Time travel, версионирование датасетов, бранчевание данных гит-стайл нужны и востребованы. 5⃣ DBT отличный инструмент разработки хд при всех его ограничениях. Последнее по порядку, но не по значению 6⃣ Без ИИ бюджетов не дадут! Спасибо!