New Yorko Times

Юрий Кашницкий (Yorko, тут @yurycorn) – про машинное обучение, науку, галеры, матан, фэйлы и прочие интересности. https://www.linkedin.com/in/kashnitskiy

Ko'proq ko'rsatish

Rossiya63 588Rus67 228Toif belgilanmagan

Reklama postlari

7 866

Obunachilar

+1124 soatlar

+527 kunlar

+47230 kunlar

7 009

Post ko'rishlar

Ma'lumot yo'q24 soatlar

Ma'lumot yo'q48 soatlar

89.11%

Muloqot nisbati

Ma'lumot yo'q24 soatlar

Ma'lumot yo'q48 soatlar

Izohlarni

Ma'lumot yo'q7 kunlar

330 kunlar

Ma'lumot yo'q

Kuniga postlar

~ 252

Reaksiyalar

~ 34

Izohlari

~ 358

Qaytarishlar

Kanalning o'sishi
Post qamrovi
ER - jalb qilish nisbati

Ma'lumot yuklanmoqda...

Photo unavailableShow in Telegram

Собрал последние посты по собесы, гугл, кукуху и прочее в один [пост](https://vas3k.club/post/24878/). Для тех, кто тут все читал: из нового там только про интересный второй оффер на VP AI в стартап.

Hammasini ko'rsatish...

👍 52🔥 12👏 4❤ 3⚡ 1

Собесы с гуглом и подготовка #career #interviews В Гугл я зашел с реферала, наконец не заигнорили. По иронии, реферила меня героиня поста «она в Мистрале, а ты нет». То есть я ей помог уйти из гугла, а она мне помогла прийти в гугл. Гугл постепенно сошелся к формату 4-х собеседований (это раньше могло быть и по 15-20). У меня были следующие раунды: - leetcode + system design - Role-related knowledge - leadership & googleyness - General Cognitive Ability - “casual” беседа с менеджером В первом раунде литкод показался простым, а дизайн – сложным. Дизайн я гроккал основательно, по плану описанному в посте (к слову о том, что с собесами успех - это на 50% усилия и на 50% удача, все же ни к одной компании я не готовился так долго). У бигтеха можно попросить пару недель на подготовку, обычно к этому нормально относятся. И моки оказались очень полезны (спасибо Алексу и Сергею), особенно учитывая, что до этого я ни разу не проходил дизайн-интервью. Role-related knowledge - это про LLM и консалтинг, было немало вопросов о том, как описать LLM для клиентов, топ-менеджеров, инженеров. Технические вопросы показались не сложными (курса “Generative AI with LLMs” и своего опыта с LLM хватило), а вот для вопросов про бизнес-смекалку и консалтинг не помешала бы практика с бизнес-кейсами, как в big4 проверяют. Leadership & googleyness – это, считай, бихейв. Несмотря на то, что я сам менторю, я прошел 4 мока, узнавал, что именно хотят услышать при собесах на стафф позиции в гугле. Это было дико полезно, огромное спасибо Тане, Семену и Анне. По итогу я довольно основательно перелопатил свой story bank. Благо, на собесе не было вопросов с подвохом типа “tell me how you used data to modify your strategy”, было более-менее понятно по вопросу, о каких лидерских качествах речь и какие свои истории рассказывать. General Cognitive Ability – это open-ended вопросы в стиле “друг открыл магазин шоколада, посоветуй ему бизнес-план”. Тут есть четкий фреймворк, легко ботается. Мне очень помог вот этот ютуб канал (там же и про переговоры целый плэйлист). Дополнительно я брал консультацию с небольшим моком, где мне посоветовали говорить медленнее. Ну и “casual” беседа с менеджером – никакая не casual, надо рассматривать как бихейв. О жизни можно потом трепаться, как наймут, на собесе смотрят на сигналы, готовился как к бихейву, заготовил самые крепкие истории. В целом оцениваю вклад бихейва примерно в 80%. Ага, сам не ожидал, что с гуглом такое может быть. Но тут все же позиция в Sales трек, а не SWE, очень много с клиентами и топ-менеджерами надо будет общаться, поэтому и такой уклон. пс. текст согласован с эйчаром, в подробности про конкретные вопросы, переговоры, решения комиссии лезть не буду.

Hammasini ko'rsatish...

👍 121🔥 47👏 17❤ 10🙏 2🆒 2🤯 1

Photo unavailableShow in Telegram

Пшёл. Удачи. Не. Нет. Сорри. Нет. Давай завтра. Нет. Too much leadership. Нет. Welcome to Google! #career Ладно, что уж, раскрою карты, я нынче Staff GenAI Field Solution Architect в Google Cloud. Сказать, что я охренел от того, как закончилась серия собесов – ничего не сказать. Команда абсолютно новая, LLM-консалтинг, чисто прототипы, как мы любим: quick& dirty. Проекты по 4-6 недель будут, задача - показать, что GenAI оправдывает бизнес-надежды, продемонстрировать работающий прототип. Далее внедряют уже либо сами клиенты либо партнеры-консалтеры типа Accenture. Пока недель 6 комфортный онбординг: ботать, сертификации проходить, знакомиться. Отвечая на самый предсказуемый вопрос «чё? скока?»: 40 ч/нед.

Hammasini ko'rsatish...

🎉 506❤‍🔥 61🔥 53👍 23😁 12🍾 8❤ 7🥰 2👏 2🎄 2🙈 1

Собесы на Applied ML Scientist: крутые ресурсы #ml #interview #career По списку самых частых собесов отсюда. 1) Поведенческие Про поведенческие собесы и я уже рассказывал в самом начале, и Таню репостил. Тут главное – расписать story bank (не пожалеть на это времени) и пройти моки. - IGotAnOffer – блог со статьями от подбора вопросов на MLE в Мету до “Why Amazon?” и как рассказывать про свои фэйлы и конфликты - Если посидеть, спокойно послушать, почему все это важно – видео Jackson Gabbard - Гайд от interviewing.io – вольный пересказ Amazon Leadership Principles - И главное – моки и реальные собесы. Причем моки могут быть полезнее – тебе расскажут прям про подноготную, на реальных собесах еще поди получи внятную обратку. Я приставал напрямую к людям из желаемой компании, но есть и платформы: та же interviewing.io (помните кулстори про brilliant jerk, который сейчас в OpenAI?), еще слышал хорошие отзывы про Exponent. 2) Кодинг Казалось бы, что тут нового скажешь. Я тут тоже писал, как пстра освежить литкод. Neetcode roadmap и Leetcode Premium – это да. Но я повторюсь про моки. Live-coding это вообще непростое дело: надо думать, писать код, слушать и складно говорить. А все одновременно! Такое надо практиковать. Вот правда, люди не могут внятно озвучивать свой код - идет аа…эээ… ууу.. и прочие бабуинские хмыкания. Для моков по литкоду – тот же interviewing.io, но есть и вариант для простых ребят – pramp, там peer2peer. 3) ML в ширину - млкурс. Не, серьезно, я как тот дед, читающий свои учебники, перед собесами пролистываю mlcourse.ai. Bias-variance, бустинг vs бэггинг, где там в градиентном бустинге градиенты – все это до сих пор вовсю спрашивают (тот же Amazon на Applied Scientist). - По NLP есть курс-жемчужина – NLP For You Лены Войты. Плюс посты Jay Alammar про архитектуру трансформера. - У Дьяконова я подсмотрел вот эти конспекты + еще подборка Daily Dose of Data Science хороша. - Наконец, есть драфт книги Chip Huyen “Machine Learning Interviews”, там все от видов специализаций в ML до переговоров и списков вопросов по ML, кодингу и матану 4) ML в глубину Тут особо нечего посоветовать, оно из рабочего опыта все идет. Разве что можно эрудицию развивать чтением блогов а-ля ML in the Wild. У Evidently есть подборка из целых 300 штук (этот же совет и для ML дизайна ниже). Я читаю 2-3 блога о компании, куда собеседуюсь, и еще 2-5 – наиболее близких к описанию вакансии. 5) ML-кодинг Специально не готовился, так что все тот же совет – моки. 6) Рисеч-презентация Тут тоже каких-то ресурсов нет под рукой. Совет – уточнить у эйчара или HM, что хотят услышать: хардкор по теории, инженерии или еще что. Чтоб не словить “too much leadership”, как я. 6) ML дизайн Да, тут есть популярные книги, но реалистично, перед собесом - это не книга нужна. Из всех ресурсов я выделю вот эту репу. Там и шаблон из 9 пунктов, которому можно следовать (problem → metrics → data → etc). И типичные кейсы разбираются, уже форматированные по шаблону. 7) Домашнее задание Про take home сколько уже срачей только не было. Я не вставал в позу и 3 домашки делал. Одна просто классная была на instruction fine-tuning LLM, еще одна очень легкая, 3-я – наоборот, сложная, запорол. Могу оставить ссылку на наш командный пет с приложением по анализу тональности новостей о крипте. Как минимум, если в домашке надо будет задеплоить модельку, можно подсмотреть. 😍 System design Наконец, system design, не путать с ML-дизайном, собесы совершенно разные. System design я грокал с нуля, за пару недель, часов 30 наверное заложил. Я заботал все перечисленные ресурсы, от и до: - гайд все тех же interviewing.io - Primer (классика) - книга “System Design Interview” – страниц на 200, куча картинок и схем, быстро читается - курс Neetcode (платно, некоторые видео на ютубе есть) И 2 мок-собеса прошел со знакомыми, на одном меня дружелюбно и конструктивно растоптали, второй я уже прошел. Это все то, что именно мне помогло. Можно в коментах делиться своими ресурсами. Плюс я пару ссылок добавлю, когда компанию объявлю.

Hammasini ko'rsatish...

🔥 153👍 29❤ 14🍾 3❤‍🔥 2

Consensus: RAG поверх научных статей для ответов на бытовые вопросы #tips Посоветую-ка я вам вот такую штуку: Consensus.app. Это приложение по типу RAG поверх научных статей (прям как Эльсивир пилит, только b2c, для людей). Оно умеет взять Yes/No вопрос про науку, найти релевантные статьи и понять, какие из них утвердительно отвечают на вопрос, а какие - отрицательно. Скажем, интересно, как кофе влияет на умственную деятельность и здоровье. Фантазия у меня так себе, так что я написал промпт, чтоб он породил кучу таких вопросов.

You are a life coach giving advice on coffee and productivity. Generate scientific questions about coffee in our life that can be checked for truth based on a corpus of scientific papers. Examples: - Does coffee increase my productivity? - Is drinking too much coffee bad for my digestion? - Is coffee bad for my heart?

Дальше ручками вбиваем эти вопросы в Consensus (если чутка упороться, можно и агента сделать, чтоб дернул API Consensus) и собираем, сколько статей – За, сколько не определились, а сколько против. Получается примерно так: - Does coffee improve cognitive function and memory? – 67/17/17 (18 papers) - Are there long-term health effects of consuming high quantities of coffee daily? – 73/13/13 (15 papers) - Can coffee consumption reduce the risk of developing neurodegenerative diseases like Alzheimer's and Parkinson's? – 71/29/0 (17 papers) - Is there a correlation between coffee intake and improved physical performance during exercise? – 77/15/8 (13 papers) - Does coffee consumption negatively affect sleep patterns and overall sleep quality? – 69/12/19 (16 papers) - Does coffee have any impact on mental health conditions such as anxiety and depression? – 29/57/14 (14 papers) - Can coffee consumption lead to increased levels of cortisol and stress? – 83/0/17 (6 papers) - Is there a link between regular coffee consumption and a lower risk of certain types of cancer? – 74/5/21 (19 papers) - How does coffee affect metabolic rate and weight management? – 50/50/0 (6 papers) - What are the effects of coffee on blood sugar levels and the risk of developing type 2 diabetes? – 76/18/6 (17 papers) - Does coffee have any protective effects against liver diseases, including liver cancer and cirrhosis? – 80/15/5 (20 papers) - Is there a positive relationship between coffee consumption and cardiovascular health, including blood pressure and heart disease risk? – 87/13/0 (13 papers) Наконец, можно зашлифовать еще одним промптом, чтоб, например, отобрать все факты подтвержденные как минимум 10 статьями и сформировать на их основе складную историю. В бесплатной версии дают примерно с 12-15 вопросами поиграться. Проблема таких инструментов, что 9 евро/мес. за такое вряд ли будешь платить. Но поиграться и в нужный момент вспомнить про такую штуку – здорово.

Hammasini ko'rsatish...

🔥 75👍 10❤ 7🤔 4

Photo unavailableShow in Telegram

#shitpost Других вакансий в NL у нас для вас нет

Hammasini ko'rsatish...

🤣 93👍 7😁 6🥰 5🤝 5

Стата по 48 собесам на Applied ML Scientist #interviews #ml Кто не заметил, я тут недавно отмучился (см. #interviews #fails). Провел небольшой EDA своих собесов. По типу собеседований из 48 событий распределение такое: • Поведенческое - 13.5 • Кодинг – 8.5 • ML в ширину – 6 • ML в глубину – 5 • ML-кодинг – 4 • Рисеч-презентация – 4 • ML дизайн – 3.5 • Домашнее задание – 3 • System design – 0.5 Тут, конечно, надо оговориться, что поведенческие – это что угодно, от бесед за жизнь с менеджером (”ну, что делал?”) до амазоновских “tell me about a time you took an urgent decision without data”. Кодинг – не только пресловутый литкод, больше было даже другого: попарсить данные, посчитать CTR + из области scientific computing (оцени Пи, посчитай доверительный интервал бутстрепом). Еще меня немало спрашивали про лиды, то есть как я заходил на первый собес. Тут такая стата: • Реферал – 7 • Холодный отклик – 4 • Написал напрямую HM – 4 • Рекрутер/HM сам написал – 3 • ODS/Singularis – 2 По моему опыту, рефералы все еще работают, хотя на реддите конечно сетуют, что раньше было лучше. Холодный отклики у меня тоже иногда работали, и в целом поработать над резюме надо, но универсально это сложно советовать. Какие-либо борды кроме LinkedIn я почти не смотрел – попробовал пару, показалось мусором. Из креативного – иногда писал напрямую рекрутерам или нанимающим менеджерам, тут дело случая, где-то фаундер читал доклад у нас в компании – написал, в Вастрике есть борда, туда Реплика заглянула с вакансиями на фронтендеров, но написали “если не фронтендер, но хорош – пиши. обсудим”. В-общем, помимо скролинга ленты LinkedIn фантазию надо подключать. По источникам рефералов: хорошая экселька висит в синулярисе в career, вижу треды с рефералами в Blind и slack Rands – можно попробовать, но кажется, спрос на рефералы там огромен, а о предложении сложно судить. Хотел еще стату подбить по вопросам, что вообще спрашивали. Но я все-таки не все логировал. Из того что запомнилось: • кодинг на позиции Applied Science – в целом уровня изи, это порадовало, медиум всего один раз (с Яндексом), хард тоже один раз, но код не надо было писать (Нвидиа) • раза 4 на ML breadth спрашивали про p-value, это надо и зазубрить, и понимать • на ML breadth с уклоном в NLP почти все лезут в устройство трансформера и внимания • бихейв заковыристый только у Амазона. С другим бигтехом тоже было много поведенческих собесов, но ни разу вопросы на ставили в тупик. В большинстве случаев это все же “расскажи про проекты, которыми гордишься”, могут спросить еще про фэйл или конфликт • ни разу (!) меня не спросили про слабости. Показалось даже, что важность вопроса переоценена либо у меня bias и повезло с собеседующими В след посте пособираю ссылки на ресурсы, которые особенно помогли при подготовке

Hammasini ko'rsatish...

🔥 163👍 48❤ 11

Типичная Европа #random #life У нас в Гааге у бизнес-центра - канал, там ошиваются гуси-утки-лебеди. Чутка посрут на велодорожку - и обратно в камыши. Так и живут. А тут вдруг зачесалось любопытство, как у наших предков, - пошли к бизнес-центру. Ну окна зеркалят, на себя поглядеть интересно же. Переходят дорогу, ну что… пробка! Поскольку одна полоса, то пробка аж на пару кварталов. Все ждут, пока самый последний гусь-песдюк пройдёт, попутно и на дорогу выложит. Если это недостаточное описание Европы, то вот ещё новость: голландские полицейские бастуют, хотят больше пенсионных отчислений. С начала мая они не выписывают штрафы за мелкие нарушения. В частности, не работает автоматическое определение превышения скорости 🤣 ну пойду погоняю, а то ловлю обычно 70 евро за +4 км/ч - 54 когда можно 50. Какой русский не любит быстрой езды (кстати, за превышение общей суммы штрафов можно лишиться возможности получить нидерландский паспорт). Погоняем! Как я понял, за совокупление с теми самыми гусями штраф тоже не выпишут. Но это в следующей серии.

Hammasini ko'rsatish...

😁 88❤ 9👎 4🤓 2💋 1

Вакансия Senior DS manager @ Elsevier #career Этикет подсказывает, коль уходишь, помоги кого-то на свое место найти. И вот наконец официально: job description. Описание по классике слегка водянистое, так что отмечу основные моменты: - Локации: Амстердам и Лондон, из других локаций – очень маловероятно (по крайней мере, в NL есть закон, обязывающий сначала прошерстить локальный рынок, потом искать кандидатов извне); - Босс – VP DS (правда, VP не один, но эта DS команда – самая крупная в компании), скип – COO, то есть в иерархии Senior DS manager – это CEO минус 3. С CEO лично я не общался, а вот с COO – регулярно. Босс – очень классный, дружелюбный грек, жтвчик, всегда топит за команду, конфликтов у меня за 4 года вообще не было; - Хоть формально вакансия на менеджера, ищется техлид, и разница с Principal ML Scientist невелика: примерно 50/50 hands-on и менеджерская работа. Как техлид, будешь тащить небольшую команду, 3 прямых подчиненных, то есть уже как менеджер будешь с ними обсуждать карьерное развитие, цели на год и т.д.; - В отделе ~40 чел, из них около половины – subject matter experts, остальные DS, в каждом проекте примерно по 2-3 чел из DS на этапе рисеча, далее в зависимости от проекта можно довольно плотно работать в кросс-функц команде от пары месяцев вплоть даже до года - Работа очень творческая, чистый applied science, делать прототипы, работать с экспертами и разрабами, прорабатывать бизнес-кейсы с менеджерами, порой и с топами; - Кто читал канал, представляет, что примерно по проектам, они тоже топ, очень интересные, часто с огромным импактом. Вот пост, еще можно посмотреть все по тегу #projects. Отдельно я тут рассказывал про #research_integrity, прошлый пост – пересказ, этот проект тоже перепадет преемнику; - На эту позицию нужно сочетание академического и индустриального опыта, будут как и cutting-edge исследовательские штуки типа того же LLM-детектора, но также и рутина с большими коллекциями текстов и Spark. Собесы – 1) лайтовый кодинг, ML coding а-ля покрутить датасет, построить модель, провалидировать 2) ML system design 3) поведенческий с VP DS и COO; - По плюшкам хорошо, WLB, стоит отметить, что Эльсивир очень щедр с командировками, в том числе можно кататься на конференциям практически неограниченно. Я успел съездить в Вену на IJCAI, пару раз в Париж на SDG митапы, в ЮАРе и Афинах рассказывал про Research Integrity; - Компенсация – в целом по рынку, так что надо хорошо торговаться на входе. Дальнейшие повышения в Европе весьма унылы по деньгам. Про компенсацию меня не надо спрашивать, обещал боссу не раскрывать, но можно считать, что шаг №0 в подготовке – узнать вилки на эту позицию; - Весь негатив вокруг Эльсивира и заслуженная критика – это фактор, да, каждый сам принимает решение, для меня киллер-фичей стала возможность что-то менять изнутри, особенно проект по Research Integrity. Он набирает обороты, и тут импакт огромный, CEO лично следит за фродом в науке. Мы пропитчили расширение команды Publication Ethics в 5 раз, из недавнего – указали особенно стремные Special Issues журналов, с кучей фрода, политика компании меняется, таких Special Issues будет сильно меньше. Если чувствуете матч – кидайте мне CV на [email protected] с темой “Senior DS Manager: <Name> <Surname>”, можно с коротким интро. Реферал просить не надо, я уже все, сдался-расписался. Я субъективно отранжирую батч заявок и прокину VP DS (возможно, в 2 захода, вторник, пятница на след неделе).

Hammasini ko'rsatish...

👍 35❤ 13🆒 8🔥 6👏 2🤓 1

Про Эльсивир на конфе по Research Integrity #research_integrity Я тут в Афинах, ~~сувлаки точил~~ вещал про #research_integrity, бывалые читатели канала знают уже больше, чем можно было осветить за 10 мин. на топовой конференции по теме - World Conferences on Research Integrity. Выступал я сразу после Анны Абалкиной, «сыщика», постоянно находящего новый фрод в науке. В этот раз было про «угнанные» журналы, которые Scopus все еще индексирует. Было неловко, шутил. Вообще я напоследок готовлю препринт про все эти истории, как мы масштабировали научный антифрод, принеся туда Data Science. Статья еще будет проверяться лигалами и comms (тема щекотливая, а некоторые из публикуемых цифр могут даже влиять на стоки RELX), так что пока тут, в уютном кругу, краткий пересказ (как написал, понял, что сильно пересекается с этим постом, но пусть будет). Осенью 2022-го издатель Hindawi пострадал от массированной атаки от paper mills - организаций, с удовольствием опубликующих любой ваш вшивый рисеч за деньгу. Своего рода академ-дудос. Hindawi тогда отозвал 500 статей (впоследствии - 8к) и как раз тогда же я пришел в проект. Мы пообщались с Hindawi, поняли, куда примерно копать, и прогнали quick&dirty анализ нескольких тысяч статей. Смотрели всего на несколько признаков: слишком продуктивные ревьюеры, слишком быстрые рецензии на статьи, странные имейлы ревьюеров, tortured phrases (а-ля picture acknowledgment вместо image recognition) и т.д. Типичная мешанина из жупитер ноутбуков для одноразового ETL и анализа, но оказалось полезно - мы пометили также около 500 подозрительных статей и команда Research Integrity отозвала десятки из них. Был обнаружен Потенциал! Посмотрев на наш отчетик, я понял, что тут куда ни копни, найдешь тот или иной фрод. Начал общаться с экспертами, плодить идеи, писать более-менее нормальный код, думая про масштабирование, и привлекать коллег, топя за Research Integrity среди DS. Хорошо сработало брейнстормить с экспертами и делить с ними бэклог, благо, я сразу распознал главного «технаря среди этиков» (команда publication ethics) и уцепился за него. Часть фич была чисто на реализациюсего-то простого, а часть - прям исследования (где-то анализ соцсетей, где-то поиск LLM-фраз в статьях). Сейчас либа, хоть все еще прототип, но поднимает ~ 20 сигналов научного форда и анализирует до 1 млн. статей за раз. Киллер-фичей в сравнении с OS аналогами стали доп данные для дальнейшего ручного анализа. А то одно дело сказать «тут у статьи проблемы с пир-ревью», другое, показать все нужные данные по пир-ревью, имена-даты-объем и т.д. Подозрительных статей - примерно 1%, но представьте, вывалить «этикам» даже пару десятков тысяч и сказать «надо отозвать» - ну прям оверкил. Research Integrity по классике - это знания предметной области, анализ одной статьи за другой, и даже процесс отзыва статьи (retraction) очень медленный (как минимум, надо дать автору 2 недели на шанс оправдаться, даже когда по имейлу очевидно, что автор не ответит). В-общем, назревает революция в этой области. Далее я полез в политоту - рассказывал в компании всем, кто слушал бы, что репутация - это на длинной дистанции про деньги. Так что нужны инвестиции в Research Integrity (а заодно пссс, мне дайте разрабов, мы же дс, у нас лапки). Пошла типичная возня, у всех свои OKR… И так бы я и боролся еще месяцами, но тут издатели Wiley и MDPI теряют большие деньги из-за фрода, и менеджеры начинают постепенно чесаться. Суть проста: Clarivate, аналитическая команда Web Of Science, стала делать примерно то же, что и мы, но также помечать подозрительные журналы и, если те не смогли оправдаться, - выкидывать их из индекса WoS с обнулением импакт-фактора журнала. Wiley приобрела ранее того самого Hindawi (о чем точно пожалел), а MDPI давно славился своей подозрительно высокой скорость рецензирования и толерантным отношением к низкому качеству статей. В-общем, к концу 2023-го Wiley и MDPI потеряли по 30-40 млн. Мы тем временем достучались до CEO и получили много денег на проект. Команда research integrity выросла в 3 раза, и это только начало, DS тоже будет больше.

Hammasini ko'rsatish...

👍 58🔥 18❤ 2

Boshqa reja tanlang

Joriy rejangiz faqat 5 ta kanal uchun analitika imkoniyatini beradi. Ko'proq olish uchun, iltimos, boshqa reja tanlang.