Machine learning Interview

Відкрити в Telegram

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

Сітка:Machinelearning Росія21 928 Технології та додатки4 585...

📈 Аналітичний огляд Telegram-каналу Machine learning Interview

Канал Machine learning Interview (@machinelearning_interview) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 30 032 підписників, посідаючи 4 585 місце в категорії Технології та додатки та 21 928 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 30 032 підписників.

За останніми даними від 14 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на 41, а за останні 24 години на -8, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 20.73%. Протягом перших 24 годин після публікації контент зазвичай збирає 7.14% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 6 226 переглядів. Протягом першої доби публікація в середньому набирає 2 143 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 39.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як claude, llm, контекст, hermes, nvidia.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

Завдяки високій частоті оновлень (останні дані отримано 16 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

30 032

Підписники

-824 години

-97 днів

+4130 день

6 226

Перегляди допису

~ 2 14324 години

~ 2 55148 годин

20.73%

Коефіцієнт залучення

~ 1

Дописів на день

Ads index

beta

Архів дописів

30 035

📌Отличие рекуррентных нейронные сети от других методов машинного обучения? Назовите способы улучшения стандартных рекуррентных сетей? Рекуррентные нейронные сети (RNN) отличаются от других методов машинного обучения тем, что они способны обрабатывать серии событий во времени или последовательные логические цепочки. Рекуррентные нейронные сети могут использовать свою внутреннюю память для обработки последовательностей разной длины. RNN применимы в таких задачах как, например: распознавание рукописного текста, анализ текстов, распознавание речи и др. Кроме того, известно, что RNN являются полными по Тьюрингу, и поэтому имеют возможность имитировать произвольные программные процедуры. Но на практике это не всегда просто сделать. Рекуррентные нейронные сети хорошо справляются с задачами обучения на последовательностных данных и с задачами обучения с подкреплением, но очень ограничены в возможностях для решения задач, связанных с работой со структурами данных и переменными, а также хранением данных в течение длинных временных промежутков из-за отсутствия долгосрочной памяти. Одним из способов улучшения стандартных рекуррентных сетей для успешного решения алгоритмических задач является введение адресной памяти большого размера. В отличие от машины Тьюринга, нейронная машина Тьюринга (NTM) является полностью дифференцируемой моделью, которая может быть обучена модификациями метода градиентного спуска (например, RMSProp), что дает практический механизм для обучения программ на примерах. Модель NTM была предложена в 2014-ом году в работе. В этой работе не описаны подробно детали функционирования данной нейросетевой модели. Одной из задач выпускной квалификационной работы является предоставление детального описания работы нейронной машины Тьюринга. Основным фактором появления нейронных сетей с внешней памятью является изобретение дифференцируемых механизмов внимания. В 2016-ом году в работе была предложена усовершенствованная модель нейронной сети с внешней памятью под названием дифференцируемый нейронный компьютер. В ней также было лишь краткое описание принципов работы этой модели. В 2018-ом году в работе были предложены четыре модификации для дифференцируемого нейронного компьютера, которые позволяли улучшить качество решения задач, связанных с вопросно-ответными системами (QA tasks). Эти модификации были основаны на работах. На сегодняшний день очень высока актуальность создания новых рекуррентных нейросетевых моделей, способных хранить большие объёмы данных, а также успешно решать задачи, предъявляемые к вопросно-ответным системам (QA-задачи). К таким нейросетевым моделям предъявляются следующие требования: ▪наличие «долгосрочной» обучаемой памяти; ▪высокая скорость обучения; ▪устойчивость процесса обучения (процесс обучения не должен существенно зависеть от начальной инициализации); ▪прозрачность принятия решений моделью и интерпретируемость работы нейронной сети (попытка уйти от концепции «черного ящика»); способность решать QA-задачи; ▪модель должна содержать относительно небольшое количество обучаемых параметров; способность работать с переменными, а также со структурами данных (например, с графами), решать алгоритмические задачи. @machinelearning_interview

30 035

Как узнать больше об LLM? Large Language Models в последнее время стали слишком популярны, и многие строят свои ML-решения поверх таких LLM. Но не все знают, что злоумышленники могут делать инъекции через промты и нарушить работу модели или вообще сломать систему. Поэтому VK устраивает онлайн-семинар, где расскажет, какие могут быть опасности и как защитить решения, основанные на LLM. Регистрация по ссылке.

30 035

🚀Расскажите про архитектуры внедрения ML-пайплайна в real-time сервисы Подробнее остановимся на особенностях внедрения моделей в случае real-time предсказаний. 1. Монолит Кодовая база ML интегрирована в кодовую базу бэкэнда. Это требует тесного сотрудничества между ML-специалистами и владельцами кодовой базы бэкэнда. Процесс CI/CD замедляется из-за юнит-тестов сервиса машинного обучения, а размер модели и требования к вычислениям создают дополнительную нагрузку на серверы бэкэнда. Такой тип развертывания следует рассматривать только в том случае, если инференс модели очень легкий для запуска. 2. ML как один сервис Модель машинного обучения разворачивается на отдельном сервере, возможно, с использованием балансирования нагрузки в случае необходимости масштабирования. Этот подход позволяет ML-инженерам деплоить модель независимо от команд, ответственных за бизнес-сервис. Создание систем мониторинга и логирования будет намного проще. Структура кодовой базы будет более понятной. Модель может быть сложной, не нагружая остальную инфраструктуру. Обычно это самый простой способ развернуть модель с обеспечением масштабируемости, поддерживаемости и надежности. 3. Микросервисный подход Каждая часть пайплайна получает свой собственный сервис. Этот подход требует высокий уровень зрелости в области ML и MLOps. Такой подход может быть полезен, например, если компонент обработки данных используется несколькими моделями. Например, у нас может быть несколько моделей, которые ранжируют рекламу в разных поддоменах (реклама на Facebook, реклама в Instagram и т. д.). При этом они должны следовать одному и тому же процессу аукциона. Тогда эта часть пайплайна может быть обработна отдельным сервисом, отвечающим за аукцион. Важно использовать сервис для оркестрации, например, Kubernetes, для обработки возникающей сложности микросервисов. “Dependency Hell in Microservices and How to Avoid It“ @machinelearning_interview

30 035

Классная возможность для студентов-технарей продлить лето — Тинькофф приглашает на смену по машинному обучению в университете «Сириус». Всех, кто пройдет отбор (а набирают 20 человек), отвезут в Сочи из их города. Программа разделена на две части. С середины сентября участники прослушают онлайн-курс по ML. А очная смена пройдет в Сочи с 2 по 15 октября. В лучших традициях образовательных программ Тинькофф ребята будут учиться на прикладных задачах, о которых потом не стыдно будет рассказать в портфолио. Как попасть: отправить заявку и решить отборочные можно до 31 августа. С 1 сентября начнутся собеседования для тех, кто хорошо решит контест. Все подробности тут

30 035

📌 Расскажите про альтернативы ансамблированию при файнтюнинге моделей? Понятие «model soup»‎ было предложено в папере 2022 года «Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time», написанном в соавторстве Google Research, Meta AI Research и несколькими университетами. Для начала вспомним, как выглядит стандартный процесс обучения модели: мы обучаем модель с различными вариациями гиперпараметров, а затем выбираем лучшую из них, измерив качество на evaluation set. После этого все модели, кроме наилучшей, отправляются в корзину. Авторы статьи предлагают отказаться от такого расточительства и найти применение оставшимся моделям. Это можно сделать с помощью ансамблирования, например, бэггинга: усреднять logits всех моделей. Однако в таком случае время инференса ансамбля увеличивается пропорционально количеству вошедших в него моделей. Идея model soup заключается в том, чтобы усреднять не logits, а непосредственно веса моделей. В этом случае на инференсе мы запускаем лишь одну модель, и время не увеличивается. Сравнение с ансамблями Авторы приводят результаты тестирования бэггинга и различных рецептов «супов» при файнтюнинге модели CLIP ViT-B/32 на ImageNet. Accuracy оценивается как на тестовой выборке самого ImageNet, так и на distribution shift датасетах — ImageNet-V2, ImageNet-R, ImageNet-Sketch, ObjectNet, ImageNet-A. Функции потерь нейронных сетей не являются выпуклыми, и при их минимизации решение может сходиться к разным локальным минимумам. Так почему же усреднение весов в случае файнтюнинга приводит к адекватному решению? Ответ кроется в папере Google 2020 года «What is being transferred in transfer learning?». Его авторы приходят к выводу, что при файнтюнинге предобученных моделей решения всех моделей остаются в окрестности одного и того же локального минимума (авторы называют её «basin» — «впадина»). В то же время модели, обученные с нуля, даже если они инициализированы одинаково, таким свойством не обладают. Вдохновившись этим открытием, авторы model soup исследуют форму поверхности loss-функции и приходят к выводу, что среднее нескольких решений может лежать ближе к минимуму loss-функции, чем каждое из решений по отдельности. Среднее двух решений, полученных с помощью файнтюнинга, может находиться ближе к минимуму функции. Также можно заметить, что угол между решениями (обозначенный серыми стрелками на изображении выше) может влиять на точность среднего. Авторы предоставляют отдельное исследование данной зависимости и приходят к выводу, что чем ближе этот угол к 90°, тем больший выигрыш мы получаем при усреднении решений: В свою очередь на угол между решениями влияет то, какой гиперпараметр мы изменяем. На изображении выше видно, как влияет изменение random seed, learning rate и аугментаций. Подробнее. @machinelearning_interview

30 035

Освойте алгоритмы распознавания и генерации звука за 1,5 месяца 5 сентября стартует практический курс Нетологии — «Распознавание и генерация речи. Диалоговые системы» для тех, кто работает или хочет научиться работать с задачами по распознаванию и генерации звуков. Для обучения нужно знать классические методы машинного обучения, основы работы с нейросетями, NLP. Курс поможет разобраться в работе со звуком, обработке звуковых сигналов, транскрибации речи в текст. В программе 5 воркшопов, на котором вы реализуете 5 кейсов, один из которых — проект на основе ваших собственных данных. По нему вы получите личную консультацию эксперта из Сбера или JustAI. Курс ведут практикующие специалисты по ИИ и работе со звуком: • Илья Шигабеев, основатель сервиса по переозвучке видео Langswap.app • Артур Сапрыкин, NLP-разработчик, предприниматель, работал над созданием голосового робота, разрабатывал поиск аудио по фрагменту • Сергей Меньшов, ведущий специалист Nexgn.com, разработчик проектов Whisper и VOSK по распознаванию речи собеседника Изучить программу курса можно на сайте программы. Старт 5 сентября → https://netolo.gy/b3j8 Реклама. ООО «Нетология» LatgBsPqT

30 035

🚀 Расскажите про метод увеличения производительности обучения больших языковых моделей ReLoRA ? ReLoRA — это метод обучения больших языковых моделей-трансформеров с использованием матриц низкого ранга, который увеличивает производительность обучения. Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование памяти уменьшилось на 30%, а производительности обучения увеличилось на 52% по сравнению с обучением с полным рангом. Код доступен в открытом доступе на Github. Основная идея, лежащая в основе ReLoRA, заключается в разложении обновлений весов во время обучения на матрицы низкого ранга путем добавления новых обучаемых параметров к исходным весам модели. ReLoRA превзошла базовые методы обучения с низким рангом, такие как LoRA, на всех размерах моделей. ReLoRA использует несколько дополнительных техник во время обучения, чтобы увеличить эффективный ранг обновлений модели: Перезапуски обучения: После обучения матриц низкого ранга в течение нескольких шагов, ReLoRA объединяет низкоранговые факторы обратно с исходными весами модели. Это позволяет последующим низкоранговым факторам захватывать различные компоненты обновления весов. Сбросы оптимизатора: При повторном запуске обучения ReLoRA сбрасывает часть состояний оптимизатора Adam. Это предотвращает смещение новых низкоранговых факторов в сторону предыдущего пространства решений. Ступенчатое нарастание скорости обучения: При каждом перезапуске скорость обучения сбрасывается до нуля и плавно нарастает. Это стабилизирует процесс интеграции новых низкоранговых факторов в модель. Ключевая идея заключается в том, что каждый этап обучения низкого ранга будет ограничен низкомерным подпространством. Путем проведения нескольких перезапусков общее обновление модели на протяжении нескольких циклов может иметь более высокий ранг, чем любое отдельное обновление. Это позволяет ReLoRA выполнять обновления высокого ранга, одновременно обучая лишь небольшое количество параметров. Авторы оценили эффективность ReLoRA, предварительно обучив языковые модели трансформеров с до 350 миллионами параметров на датасете C4. Результаты показали, что ReLoRA достигла сравнимой перплексии с обычным полноранговым обучением трансформеров, и её эффективность улучшается с увеличением размера модели. Например, для модели с 350 миллионами параметров ReLoRA уменьшила количество обучаемых параметров на более чем 70%, сохраняя при этом конкурентоспособную перплексию: 22,48 против 20,40 соответсвенно. Эффективность метода существенно возрастает с увеличением размера модели. На модели с 350 миллионами параметров ReLoRA требовала всего 99 миллионов обучаемых параметров, что уменьшило количество обучаемых параметров на 70%. Анализ сингулярных значений обновлений весов показал, что ReLoRA качественно лучше аппроксимирует обновления с более высоким рангом при обучении с полным рангом, чем стандартные методы обучения с низким рангом, такие как LoRA. Это указывает на то, что ReLoRA способна выполнять обновления модели высокого ранга с помощью обучения с низким рангом. Разрыв в производительности между ReLoRA и обучением с полным рангом уменьшился с увеличением размеров моделей. Например, на модели с 60 миллионами параметров разрыв составлял более 5 пунктов перплексии, в то время как на модели с 350 миллионами параметров он уменьшился до менее чем 2 пунктов перплексии. Улучшения использования памяти и вычислительной эффективности существенно возрасли при оценке на модели с 1,3 миллиарда параметров. Оценки показали уменьшение использования памяти на 30% и повышение производительности обучения на 52% по сравнению с обучением с полным рангом. @machinelearning_interview

30 035

💻 Хочешь работать с масштабными цифровыми продуктами? Учись обрабатывать большие данные MLOps — все более популярный среди компаний способ повышения производительности и создания надежных моделей корпоративного уровня. ✅ Владение инструментами MLOps открывает новые карьерные горизонты специалистам ML, Data Scientist’ам и Software инженерам. 💪 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «MLOps» от OTUS.

Успей присоединиться к группе, курс стартует 31 августа!

✍️ ПРОЙТИ ТЕСТ: https://otus.pw/QFDU/ Нативная интеграция. Информация о продукте www.otus.ru

30 035

🖥 Как происходит обучение с нуля на собственных данных (LLM). Какую архитектуру выбрать для pre-training обучения? Такое обучение, которое ещё называется pre-training, решает задачу моделирования языка или, говоря проще, позволяет нашей модели выучить (насколько это возможно) язык, с которым она работает. Для этого обучение проходит в парадигме Masked Language Modeling, MLM (проходим по тексту, маскируем по очереди каждый токен и пытаемся по окружающим его токенам – контексту предсказать этот токен) и Next Sentence Prediction, NSP (предсказание по паре текстовых фрагментов, следуют они друг за другом или нет). Есть ещё также Casual Language Modeling, но MLM обычно используется чаще. На практике прибегнуть к процедуре pre-training может быть полезно, когда тексты, с которыми нужно работать, отличны от тех, на которых обучались общедоступные известные модели. Это может происходить в следующих случаях: •специфичный стиль текста, его структура (яркий пример – юридические тексты, договора, сметы), •наличие специфичных терминов (пример – медицинские тексты). На что стоит обратить внимание перед процедурой pre-training: •данные, с которыми вы работаете, может быть недостаточно для эффективного обучения модели, поэтому даже обладая хорошим потенциалом, они могут не обучиться и показывать такое же либо даже худшее качество по сравнению с бейзлайном; • хорошие эмбеддинги – это лишь один из этапов во всём пайплайне и вовсе не единственная точка роста. Поэтому если вы стоите перед выбором, стоит ли тратить ресурсы на pre-training, аренду видеокарт и т.д., возможно, стоит сначала сделать упор на другие вещи, например, на более качественный сбор/обработку/обогащение данных. Если решили идти по этому пути, то рабочим вариантом может быть следующий: взять веса общедоступной модели, обученной на таких текстах, как Википедия, затем обучить её на собственных текстах в парадигме MLM, дав возможность изучить тонкости именно ваших текстов. А затем снова дообучить в парадигме fine-tuning для решения целевой задачи. Можно взять классический Bert. Но c другой стороны, с его создания уже утекло много воды и появились более продвинутые архитектуры. Особенно заслуживают внимания следующие архитектуры. RoBERTa (A Robustly Optimized BERT Pre-training Approach) – это архитектура, основанная на BERT, но в которой оптимизировали параметры обучения, отказались от обучения в парадигме NSP и показали, что так качество будет выше. DeBERTa (Decoding-enhanced BERT with disentangled attention) – дословно BERT улучшенного декодирования с рассеянным вниманием. Это основанная на RoBERTa архитектура, в которой авторы дополнительно применили механизм кодирования слова двумя векторами (кодирующими его содержание и положение в тексте) и заменили выходной softmax-слоя усовершенствованным декодером. Вот пример успешного применения этой архитектуры. ELECTRA – архитектура (оригинальная статья), в которой отказались от обучения в парадигмах MLM и NSP и тренируют генератор и дискриминатор. Первая модель учится выборочно заменять токены в тексте, а вторая (которую и будем использовать после обучения) учится определять токены, которые были заменены, и таким образом осваивает структуру языка. Архитектура модели и её преимущества довольно подробно расписаны в статье Более эффективное предварительное обучение NLP моделей с ELECTRA. @machinelearning_interview

30 035

Действующий дата-инженер или планируете им стать? Хотите повысить квалификацию и перейти на новый карьерный уровень? Тогда выбирайте курс «Дата-инженер» от Слёрма! Он нацелен на практику, разбор реальных случаев и выполнение практических задач! А знаете почему еще мы рекомендуем пройти курс «Дата-инженер» в Слёрме? ✔️ Учим не только сбору данных, но и тому, как правильно интерпретировать их. ✔️ Научитесь строить дата-пайплайны и выстраивать эффективную работу дата-архитектуры ✔️ Будете уверенно разбираться в ландшафте инструментов для управления данными ✔️ Опытные спикеры-практики проведут за руку на через весь курс ✔️ На выходе выполните реальный проект на собственных данных 🤑 Дешевле, чем у других Старт потока 4 сентября! Запишитесь уже сейчас по выгодной цене!✨ 💬Все подробности по «Data-инженеру» вы можете узнать в нашем чат-боте. Здесь мы в подробностях расписали программу, рассказали о спикерах. Также в боте можно узнать об актуальных акциях и получить консультацию от менеджера курса: @slurm_data_engineer_bot

30 035

Однако некоторые типы данных защищены нормами права. В основном это касается личных данных — фамилий, паспортных данных, контактов, мест, предпочтений в шопинге, видеозаписей людей, политических мнений и так далее. Например, принятый в ЕС закон General Data Protection Regulation (GDPR) применим к любой информации, которую можно использовать для идентификации европейского гражданина. Кроме того, стоит помнить о том, что многие онлайн-сервисы запрещают скрейпинг. Airbnb не разрешает использовать «любых роботов, пауков, краулеров, скрейперов и других автоматизированных средств или процессов доступа или сбора данных и другого контента, а также любые иные способы взаимодействия с платформой Airbnb Platform для любых целей». Поэтому перед запуском веб-бота следует тщательно изучить правила пользования веб-сайтом. Также можно собирать данные при помощи веб-форм, современных чат-ботов и других инструментов, или автоматически собирать их с датчиков, IoT-устройств и систем терминалов оплаты. Но как бы то ни было, сбор данных и его методики не могут быть успешными без наличия места для хранения данных. @machinelearning_interview

30 035

📌Назовите способы и инструменты сбора данных В течение многих веков люди собирали данные вручную. Даже сегодня, в эпоху ChatGPT, мы всё ещё заполняем бумажные документы и вводим числа и слова в файл Excel для фиксации событий и наблюдений. Однако процессы, в которых задействованы бумажные документы и ручной ввод данных, длительны, трудоёмки и, что хуже сего, подвержены человеческим ошибкам. Ручной сбор данных всё ещё применим в мелких компаниях, но более крупные склонны отдавать на аутсорс эти монотонные и повторяющиеся задачи или максимально их автоматизировать. Ниже мы рассмотрим наиболее популярные методики упрощения сбора данных. Извлечение данных при помощи интерфейсов программирования приложений Application programming interface (API) — это слой ПО, позволяющий программам взаимодействовать друг с другом. Для прямого доступа к своим данным большинство современных платформ раскрывают публичные или приватные API. Благодаря API система может автоматически собирать интересующий вас контент. В отличие от веб-скрейпинга, подключения к API не представляют юридических трудностей, потому что их нельзя установить без разрешения источника данных, который может накладывать ограничения на количество запросов и типы доступного контента. Также он определяет формат данных, но чаще всего вам придётся иметь дело с файлами JSON, которые обычно используются в современных REST API. Оптическое распознавание символов Optical character recognition (OCR) — это технология, распознающая печатный или рукописный текст в отсканированных документах, изображениях PDF и других файлах, а затем преобразующая его в машиночитаемый электронный вид. Она позволяет не только быстро оцифровывать бумажные документы, но и извлекать ценный контент из различных документов, делая его доступным для дальнейшей обработки. Полнофункциональные системы наподобие ABBYY FineReader PDF и OCR-решения Google используют машинное обучение для анализа структуры документа и распознавания текста вне зависимости от его языка. Автоматизация процессов Robotic process automation (RPA) — это тип ПО, предназначенный для выполнения повторяющихся и монотонных повседневных операций, обычно выполняемых людьми. Среди прочего, RPA-боты способны выполнять некоторые действия, связанные со сбором данных, например, открывать электронные письма и вложения, собирать статистику в социальных сетях, извлекать данные из предварительно указанных полей в документах, считывать требуемые данные из баз данных и электронных таблиц, и так далее. Традиционные RPA-инструменты способны работать только со структурированными и слабоструктурированными данными. Когда необходимо обрабатывать неструктурированные данные (которые, как мы помним, составляют 80-90% потенциально полезного контента), требуются более сложные решения на основе ИИ. Интеллектуальная обработка документов Intelligent document processing (IDP) включает в себя: OCR для извлечения текста из сканов, RPA для выполнения монотонных манипуляций со структурированными и слабоструктурированными данными, и методики машинного обучения, в частности, компьютерное зрение и NLP, для классификации документов на основании текстов, изображений или визуальной структуры, извлечения значимой информации, очистки, упорядочивания и разметки неструктурированных данных с целью их подготовки для обучения моделей машинного обучения. IDP может использоваться для сбора и очистки данных из заявлений о страховых случаях, медицинских форм, счетов, договоров и других документов, минимизируя вмешательство человека. Веб-скрейпинг Веб-скрейпинг — это автоматизированный способ сбора, фильтрации и структурирования данных с веб-сайтов. Обычно веб-скрейперы или боты обходят множество веб-страниц, собирая цены, подробности о товарах, комментарии пользователей и многое другое. Стоит заметить, что не каждый вид веб-скрейпинга легален. Вы можете свободно скрейпить собственный веб-сайт и, в большинстве случаев, собирать публично доступные данные в Интернете (если они не скрыты за логином).

30 035

🔥С чего начать свой путь в Data Science? Прийти на открытый урок "Введение в Machine Learning" от OTUS, который пройдёт 17 августа в 20:00! Вебинар приурочен к старту онлайн-курса "Machine Learning" Что разберём на уроке: - Основные понятия и типы задач машинного обучения; - Общий подход к решению задач: Exploratory Data Analysis and Preprocessing -> Models and experiments -> Production. ⚡️Занятие подойдёт: - IT-специалисту, который хочет перейти в Data Science; - Начинающему Data Scientist и специалисту по машинному обучению, желающему углубиться в профессию; - Тому, кто самостоятельно изучает Data Science; - Тому, кто хочет войти в IT, но не знает, что выбрать. 👉Регистрируйтесь по ссылке, чтобы занять место: https://otus.pw/t2LD/

30 035

📌 Форматы данных и файлов. Расскажите о формате стерилизации MessagePack. MessagePack — это формат сериализации, который обеспечивает компактное бинарное представление структурированных данных. Он эффективнее и быстрее других форматов сериализации, таких как JSON, благодаря представлению в двоичном, а не в текстовом формате. MessagePack применяют в распределенных системах, микросервисах и хранилищах данных. Он поддерживается множеством языков программирования, в том числе C++, Python и Java. Его часто используют, чтобы передавать данные по сети или хранить их в компактном формате. Кроме того, MessagePack — это расширяемый формат, так что пользователи могут определять собственные типы и структуры. Обзор реализации Благодаря возможности добавлять и удалять ключи обеспечивается расширяемость с JSON. Его изначальная реализация — это заголовок, за которым следует объект MessagePack со структурой:

{
  "Versions": [
    {
      "Type": 0, // Type of version, object with data or delete marker.
      "V1Obj": { /* object data converted from previous versions */ },
      "V2Obj": {
          "VersionID": "",  // Version ID for delete marker
          "ModTime": "",    // Object delete marker modified time
          "PartNumbers": 0, // Part Numbers
          "PartETags": [],  // Part ETags
          "MetaSys": {}  // Custom metadata fields.
          // More metadata
      },
      "DelObj": {
          "VersionID": "", // Version ID for delete marker
          "ModTime": "",   // Object delete marker modified time
          "MetaSys": {}    // Delete marker metadata
      }
    }
  ]
}

Преобразования метаданных унаследованы от предыдущих версий, а новые версии включают V2Obj или DelObj в зависимости от активной операции при получении запросов на обновление. В сущности, когда нам нужно просто прочитать метаданные, можно остановить чтение файла, дочитав до их конца. Для получения обновлений нужно максимум два непрерывных чтения. Для этого меняется и представление на диске. Раньше все метаданные хранились как большой объект, содержащий все версии. Теперь мы пишем это следующим образом: ▪сигнатура с версией; ▪версия данных заголовка (целое число); ▪версия метаданных (целое число); ▪счетчик версий (целое число). @machinelearning_interview

30 035

❗️Один из важнейших инструментов MLOps — это MLFlow. ▶️ 10 августа в 20:00 мск в рамках онлайн-курса MLOps от OTUS пройдёт открытый урок «MLflow версии 2. Рецепты и пайплайны в машинном обучении». ✅ На открытом уроке вы узнаете: 🔹 О развитии MLFlow и о том, какие усовершенствования вошли в новые релизы (2.x) 🔹 О роли пайплайнов в организации процессов машинного обучения 🔹 Что такое MLFlow recipes и как их использовать для повышения эффективности работы DS 🧑‍💻 Спикером выступит преподаватель OTUS Данила Слепов. Он проектирует AI-системы, разрабатывает архитектуру MLOps платформ. 👉 РЕГИСТРАЦИЯ https://otus.pw/GIU9/ Нативная интеграция. Информация о продукте www.otus.ru

30 035

📌 Форматы файлов Big Data для озера данных. Расскажите о Apache Parquet и его реализации. Apache Parquet — это столбчатый формат хранения для обработки больших данных. Он активно используется в экосистеме Hadoop. Несмотря на снижение ее популярности, этот формат остается весьма распространенным — отчасти потому, что он все еще поддерживается ключевыми системами обработки данных, в том числе Apache Spark, Apache Flink и Apache Drill. Реализованный в Parquet способ организации данных оптимизирует их для столбчатых операций, таких как фильтрация и агрегирование. Чтобы хранить данные с высокой эффективностью, в Parquet используется сочетание приемов сжатия и кодирования. Формат позволяет создавать схемы, поддерживающие применение ограничений по типам данных и обработку с высокой скоростью. Parquet — популярное решение для хранения больших наборов и запросов к ним, поскольку в этом формате запросы выполняются быстро, а хранение и обработка — эффективно. Обзор реализации Эта схема (картинка) позволяет эффективно фиксировать метаданные, поддерживает эволюцию файлового формата и упрощает хранение. Алгоритмы сжатия Parquet снижают требования к объемам хранилища, позволяют быстрее извлекать данные и поддерживаются множеством фреймворков. Есть три типа метаданных: файла, столбца (фрагмента) и заголовка страницы. Для сериализации и десериализации структур метаданных в Parquet используется Thrift TCompactProtocol. 👇Напишите в комментариях, что вы знаете о формате ORC, (Optimized Row Columnar). @machinelearning_interview

30 035

Как интегрировать MLOps в производственные IT-процессы и зачем это делать? В новом эпизоде подкаста «Деньги любят техно», посвящённого Data Science, поднимаются основополагающие вопросы, касающиеся применения MLOps в бизнесе. Два эксперта из разных сфер, науки и бизнеса: Алексей Незнанов, к.т.н., старший научный сотрудник международной лаборатории интеллектуальных систем и структурного анализа НИУ ВШЭ и Юрий Карев, руководитель управления процессов и стандартов моделирования и машинного обучения ВТБ, рассматривают тему с разных сторон. И соглашаются в том, что начинать переход к MLOps нужно с вопросов управления данными для обеспечения качества данных. Послушать выпуск можно на любой популярной платформе.

30 035

❓ Вопросы для собеседования по Docker, к которым следует подготовиться в 2023 году Docker - это программный продукт, который программисты могут использовать для упаковки своего кода. 1. Что такое Docker? Работодатель может задать вам этот вопрос, чтобы оценить ваше базовое понимание и опыт использования программы. Глубокое знание этого инструмента может показать вашу способность применять его в различных программных приложениях. Вы можете ответить, дав определение Docker и рассказав о его важности. Пример: Docker - это платформа контейнеризации, которую программисты могут использовать для развертывания приложений в облачных вычислениях. Системные администраторы могут использовать платформу для масштабирования больших объемов данных в контейнерах и повышения эффективности работы приложений. • Docker можно использовать как файловую систему, в которой хранится все, что требуется для работы программы, например, код, зависимости и системные инструменты. Этот контейнер может позволить программистам запускать программное обеспечение на нескольких платформах без конфликтов зависимостей. 2. Чем контейнерные технологии отличаются от виртуализации гипервизоров? Работодатели могут задать этот вопрос, чтобы определить, понимаете ли вы преимущества использования Docker по сравнению с виртуализированными средами. Ваш ответ также может рассказать о вашем опыте использования гипервизоров для управления выполнением программ. В своем ответе вы можете сосредоточиться на определении двух технологий и объяснить особенности Docker, которые дают ему преимущества перед гипервизорами. Пример: Гипервизор - это программное обеспечение, которое позволяет пользователям создавать и запускать виртуальные машины. Docker - это платформа, которую можно использовать для упаковки программного обеспечения и запуска его в любой среде. Запуск приложения в Docker занимает меньше шагов, чем запуск в виртуальной среде. • Для виртуализации машин требуется целая гостевая операционная система, в то время как Docker содержит только приложение и его библиотеки. Поскольку для запуска Docker система может использовать меньшее количество шагов, контейнер развертывается быстрее, чем виртуализация гипервизора. 3. Как Docker повлиял на виртуализацию и облачные среды? 📌 Продолжение @DevOPSitsec

30 035

⚡️Маст-хэв список для программистов, каналы с последними книжными новинками, библиотеками, разбором кода и актуальной информацией, связанной с вашим языком программирования. Лучший способ получать свежие обновлении и следить за трендами в разработке. Машинное обучение: t.me/ai_machinelearning_big_data Python: t.me/pythonl C#: t.me/csharp_ci C/C++/ t.me/cpluspluc Data Science: t.me/data_analysis_ml Devops: t.me/devOPSitsec Go: t.me/Golang_google Базы данных: t.me/sqlhub Rust: t.me/rust_code Javascript: t.me/javascriptv React: t.me/react_tg PHP: t.me/phpshka Android: t.me/android_its Мобильная разработка: t.me/mobdevelop Linux: t.me/+A8jY79rcyKJlYWY6 Big Data: t.me/bigdatai Хакинг: t.me/linuxkalii Тестирование: https://t.me/+F9jPLmMFqq1kNTMy Java: t.me/javatg 💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy Папка машинное обучение: https://t.me/addlist/_FjtIq8qMhU0NTYy 📕 Бесплатные Книги для программистов: https://t.me/addlist/YZ0EI8Ya4OJjYzEy 🎞 YouTube канал: https://www.youtube.com/@uproger 😆ИТ-Мемы: t.me/memes_prog 🇬🇧Английский: t.me/english_forprogrammers

30 035

🚀 Расскажите что такое утечка данных в машинном обучении? В чём суть проблемы ? Из-за утечки данных может возникнуть неприятная ситуация: во время обучения модель выдаст нереалистично высокие показатели эффективности, а в реальных условиях будет работать совсем не так. Проще говоря, во время обучения модель запомнила информацию, к которой у неё не должно было быть доступа, и из-за этого метрики эффективности получились искусственно завышенными. Представьте, что вы готовитесь к экзамену по математике. Вы решаете много задач, чтобы получше натренироваться. И тут выясняете, что вопросы к экзамену случайно выложили в интернет. У вас есть доступ к этой критически важной информации и возможность всё решить. То есть вы начинаете учиться на датасете, который, по идее, должен был попасть к вам только на экзамене, и таким образом вы «запоминаете» паттерны. Результат? Вы вызубрили задачи «тестового датасета» и получили нереалистично высокую оценку за эту часть экзамена, но когда речь заходит о выполнении реальных задач… лучше даже не говорить, что будет. Утечка информации о целевой переменной Распознать утечку информации о целевой переменной — дело непростое. Представьте себе: вы создаёте модель, которая предсказывает, отменят ли клиенты ежемесячную подписку на ваш сервис, то есть их отток. На первый взгляд не кажется проблемой включение в модель «количества звонков клиента в службу поддержки». Ведь можно считать, что много звонков свидетельствует о высокой вероятности оттока клиентов. Но при пристальном рассмотрении выясняется, что «количество звонков в службу поддержки» — это следствие, а не причина ухода. Клиенты, которые уже решили отказаться от сервиса, просто звонят уладить оставшиеся вопросы, прежде чем окончательно отписаться. Так что эта информация будет недоступна на тот момент, когда нужно спрогнозировать, уйдёт клиент или нет. Иными словами, она известна нам только по клиентам, которые уже решили уйти. Если в состав признаков попадёт целевая переменная или любые прокси-метрики, которые можно прямо или косвенно извлечь из неё, это может привести к утечке данных. Контаминация обучающих и тестовых данных и утечка данных во время предварительной обработки Такое происходит, когда одни и те же этапы предварительной обработки данных применяются и к обучающему, и к тестовому датасетам. Например, возьмём этапы предварительной обработки: нормализацию признаков, оценку недостающих данных и удаление исключений. Здесь нужно убедиться, что мы не используем тестовый датасет для «обучения», как показано ниже. scaler = StandardScaler() scaler.fit(X_train) scaler.transform(X_train) scaler.transform(X_test) Мы заранее разделяем датасет на учебный и тестовый, чтобы можно было тренироваться только на обучающем датасете. Обратите внимание, что не нужно тренировать модель на целом датасете, включающем и обучающую, и тестовую выборку. Это приведёт к утечке данных, ведь модель будет тренироваться на данных, которую ей не нужно было показывать. Иными словами, тестовый датасете неизвестен ей на момент прогнозирования. Тренируйте модель на обучающих данных, выполняйте преобразования и с обучающими, и с тестовыми данными. Последствия утечки данных Модель показывает чрезвычайно высокую эффективность при обучении, а тестовый датасет даёт крайне низкие результаты — знакомая ситуация? Возможно, всё дело в утечке данных. Здесь ключевые слова это «чрезмерное обучение» и «неспособность генерализации». Модель натренировалась на шуме и нерелевантной информации, что привело к низкой эффективности при работе с реальным тестовым датасетом. В конечном счёте из-за неточной оценки модели вы получаете ненадёжные прогнозы. Это бессмысленная трата ресурсов! @machinelearning_interview