Machine learning Interview
前往频道在 Telegram
ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz
显示更多📈 Telegram 频道 Machine learning Interview 的分析概览
频道 Machine learning Interview (@machinelearning_interview) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 30 034 名订阅者,在 技术与应用 类别中位列第 4 569,并在 俄罗斯 地区排名第 21 939 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 30 034 名订阅者。
根据 11 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 39,过去 24 小时变化为 8,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 18.49%。内容发布后 24 小时内通常能获得 8.84% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 5 554 次浏览,首日通常累积 2 656 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 39。
- 主题关注点: 内容集中在 claude, llm, контекст, hermes, nvidia 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно!
Вопросы - @workakkk
РКН: clck.ru/3FmwRz”
凭借高频更新(最新数据采集于 12 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
30 034
订阅者
+824 小时
-117 天
+3930 天
帖子存档
“A Brief Introduction to Neural Networks” — это один из самых понятных и тщательно структурированных гайдoв по нейронным сетям от David Kriesel.
📘 Что внутри:
• Биология → формальные модели
• Обучение с учителем и без
• Персептроны, рекуррентные сети, SOM (карты Кохонена)
• Обратное распространение ошибки, Hebbian learning и не только
• Много схем, математики и объяснений "на пальцах"
💻 Хочешь поиграться с примерами? Всё можно попробовать на практике с фреймворком SNIPE (на Java), который идёт вместе с гайдом.
🔗 Читать/скачать (EN):
https://dkriesel.com/en/science/neural_networks
Также доступна версия на немецком:
https://dkriesel.com/science/neuronale_netze
🚀 Хотите освоить одну из ключевых областей машинного обучения — кластеризацию данных?
На открытом вебинаре вы узнаете, как работают популярные методы кластеризации, такие как k-means и DBSCAN. Мы не только разберем их теоретические основы, но и покажем, как применять эти алгоритмы на практике для обработки данных.
📊 Освоив методы кластеризации, вы сможете анализировать и группировать данные для дальнейшего использования в реальных проектах. Этот навык необходим в Data Science и востребован на рынке труда.
🗓️ Урок проходит в преддверие старта курса «Machine Learning. Professional». Пройдите регистрацию и получите скидку на обучение! Встречаемся 2 июня в 18:00 МСК.
🔗 Регистрация открыта: https://tglink.io/c7ff93e5f302?erid=2W5zFGMKoAG
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Исследователи Яндекса разработали и выложили в опенсорс один из крупнейших датасетов для развития рекомендательных систем — YaMBDa
Датасет включает 4,79 миллиардов обезличенных пользовательских действий в Яндекс Музыке. Он включает в себя только числовые идентификаторы, что позволяет сохранить конфиденциальность.
Открытые датасеты такого масштаба от коммерческих компаний — редкость. При этом даже те, что есть (LFM-1B, LFM-2B) со временем стали недоступны из-за лицензионных ограничений, а популярные датасеты от Steam или Netflix Prize фокусировались лишь на обратной связи и содержали несколько десятков млн взаимодействий.
Поэтому, во-первых, у большинства исследователей попросту не было доступа к web‑scale‑сервисам, следовательно — и возможности протестировать алгоритмы в условиях, приближенных к реальности. А во-вторых, многие датасеты не позволяли разделить выборку на train и test по хронологии: это критично, когда речь идет об алгоритмах, которые должны предсказывать будущее, а не анализировать прошлое.
YaMBDa (YAndex Music Billion-interactions DAtaset) решает обе проблемы. Его можно использовать не только для оценки качества стримминговых систем, но и для e-commerce, соцсетей и других задач рекомендаций. Датасет доступен в трех вариантах: полная версия содержит почти 5 млрд данных, а уменьшенные — 500 млн и 50 млн. Можно выбрать версию, которая соответствует задачам и вычислительным ресурсам. Используя этот датасет, разработчики, исследователи и молодые ученые смогут тестировать и улучшать алгоритмы в продуктах, где используются рекомендательные системы.
🔥 DeepSeek R1 (0528) — компактная MLX-версия!
А вот и 4-битная квантованная версия DeepSeek R1 специально под MLX.
Модель запускается локально на Mac с Apple Silicon без танцев с бубном и GPU.
Установка:
pip install mlx-lm
from mlx_lm import load, generate
model, tokenizer = load("mlx-community/DeepSeek-R1-0528-4bit")
prompt = "hello"
if tokenizer.chat_template is not None:
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
messages, add_generation_prompt=True
)
response = generate(model, tokenizer, prompt=prompt, verbose=True)
👉 huggingface.co/mlx-community/DeepSeek-R1-0528-4bit
#DeepSeek🚀 Запуск обновленной версии курса «ML для финансового анализа»!
Пройдите полный цикл создания торгового агента: от сбора и очистки данных до переноса в продакшн. Уже через полгода вы сможете самостоятельно разработать торгового бота!
🔹 Новое в программе
- Портфельные стратегии и модели перебалансировки.
- Предсказание цен с LSTM и оценка текстов.
- Ансамбль блендинга с LLM.
🔹 Структура курса
- Пошаговое обучение с домашними заданиями для создания торгового бота.
🔹 Адаптация под ваши запросы
- Синтетические датасеты, свечные графики, очистка данных и многое другое.
🔹 Практический модуль
- Перенос модели в продакшн, облачная инфраструктура, микросервисы и контроль метрик.
🎉 Специальное предложение
Успейте воспользоваться 🏷10% скидкой на курс «ML для финансового анализа» и 🎁 бонусным промокодом FINANCE_5 и учитесь по ценам мая! Выгодные условия действуют по 31 мая включительно.
➡️ Ссылка для регистрации: https://tglink.io/129ad1e9aefa?erid=2W5zFGdnjR2
#реклама
О рекламодателе
⚙️ Полный гид по GPU-экосистеме — без воды и маркетинга
Если ты путаешься в CUDA, OpenCL, SYCL и HIP — этот гайд от ENCCS расставит всё по полочкам. Это не просто обзор, а чёткое объяснение, как устроен мир GPU-программирования сегодня.
🧠 Что ты узнаешь:
🔹 Как и почему GPU радикально отличается от CPU
🔹 Из чего состоит стек GPU-технологий:
— CUDA и его аналоги (HIP, SYCL, OpenCL)
— Директивы: OpenMP, OpenACC
🔹 Какие языки и стандарты поддерживают какую архитектуру
🔹 NVIDIA, AMD, Intel — кто что умеет и чем отличается
🔹 Модели памяти, исполнения, и что влияет на производительность
📌 Гайд подходит для:
• Разработчиков HPC и научных расчётов
• Инженеров ML/AI, желающих копнуть глубже
• Всех, кто хочет разобраться в низкоуровневом GPU-стеке без маркетингового тумана
📖 Читать:
https://enccs.github.io/gpu-programming/2-gpu-ecosystem/
🔥 Один из самых понятных и системных разборов GPU-мира на сегодня.
#GPU #CUDA #OpenCL #HIP #SYCL #HPC #AI #HighPerformanceComputing
Устроиться аналитиком в Яндекс за выходные
7–8 июня проводим Weekend Offer Analytics. До 3 июня оставьте заявку на участие, 7 июня пройдите два технические собеседования, а 8 июня познакомьтесь с командами и получите офер.
В мероприятии участвует 12 команд: Алиса и Умные устройства, Игры, R&D, Рекламные технологии, Поиск и Суперапп, Безопасность, Коммерческий департамент, Автономный транспорт, Ecom-сценарии Поиска, Качество Поиска, Международный Поиск, Карты. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.
Узнать подробности и зарегистрироваться можно здесь.
Repost from Machinelearning
✔️ Релиз DeepSeek R1-0528
Главное:
• Глубокое рассуждение — на уровне моделей Google
• Улучшена генерация текста — более естественно, структурировано и аккуратно
• Уникальный стиль reasoning — не просто быстро, а вдумчиво и последовательно
• Может работать над одной задачей 30–60 минут, удерживая контекст
Новая модель показывает результат почти на уровне o3 (High) на бенчмарк LiveCodeBench.
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
@ai_machinelearning_big_data
#DeepSeek #opensource
🧠 Байесовская очистка данных от дневного bias с помощью нелинейной регрессии
Снова измерения температуры 📈 — и снова проблема: каждый день датчик даёт случайное смещение (bias). Нам нужно не просто его найти, а сделать это более надёжно — с учётом неопределённости.
🔁 Уточнённые цели
1. Оценить дневной bias через байесовскую регрессию
2. Использовать нелинейный тренд вместо скользящего среднего
3. Построить интервалы доверия для оценённой температуры
4. Визуализировать, насколько хорошо работает очистка
📦 Шаг 1. Генерация данных (как раньше)
import pandas as pd
import numpy as np
np.random.seed(42)
days = pd.date_range("2023-01-01", periods=10, freq="D")
true_temp = np.sin(np.linspace(0, 3 * np.pi, 240)) * 10 + 20
bias_per_day = np.random.uniform(-2, 2, size=len(days))
df = pd.DataFrame({
"datetime": pd.date_range("2023-01-01", periods=240, freq="H"),
})
df["day"] = df["datetime"].dt.date
df["true_temp"] = true_temp
df["bias"] = df["day"].map(dict(zip(days.date, bias_per_day)))
df["measured_temp"] = df["true_temp"] + df["bias"] + np.random.normal(0, 0.5, size=240)
📐 Шаг 2. Построим нелинейную модель тренда (например, полиномиальную регрессию)
from sklearn.linear_model import Ridge
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
# Модель полиномиальной регрессии степени 6
X_time = np.arange(len(df)).reshape(-1, 1)
y = df["measured_temp"].values
model = make_pipeline(PolynomialFeatures(degree=6), Ridge(alpha=1.0))
model.fit(X_time, y)
df["trend_poly"] = model.predict(X_time)
df["residual"] = df["measured_temp"] - df["trend_poly"]
🧮 Шаг 3. Байесовская оценка bias (через среднее и стандартную ошибку)
bias_stats = df.groupby("day")["residual"].agg(["mean", "std", "count"])
bias_stats["stderr"] = bias_stats["std"] / np.sqrt(bias_stats["count"])
df["bias_bayes"] = df["day"].map(bias_stats["mean"])
df["bias_stderr"] = df["day"].map(bias_stats["stderr"])
# Восстановим очищенную температуру
df["restored_bayes"] = df["measured_temp"] - df["bias_bayes"]
📊 Шаг 4. Оценка качества и визуализация
from sklearn.metrics import mean_squared_error
rmse = mean_squared_error(df["true_temp"], df["restored_bayes"], squared=False)
print(f"📉 RMSE (после байесовской очистки): {rmse:.3f}")
📈 Визуализация с доверительными интервалами
import matplotlib.pyplot as plt
for day in df["day"].unique():
day_data = df[df["day"] == day]
stderr = day_data["bias_stderr"].iloc[0]
plt.fill_between(day_data.index,
day_data["restored_bayes"] - stderr,
day_data["restored_bayes"] + stderr,
alpha=0.2, label=str(day) if day == df["day"].unique()[0] else "")
plt.plot(df["true_temp"], label="True Temp", lw=1.5)
plt.plot(df["restored_bayes"], label="Restored Temp (Bayes)", lw=1)
plt.legend()
plt.title("Восстановление температуры с доверительными интервалами")
plt.xlabel("Time")
plt.ylabel("°C")
plt.grid(True)
plt.show()
✅ Вывод
✔️ Нелинейная регрессия даёт лучшее приближение тренда, чем скользящее среднее
✔️ Байесовская оценка даёт не только среднюю оценку bias, но и доверительные интервалы
✔️ Модель учитывает неопределённость и шум — ближе к реальной инженерной задаче
✔️ RMSE почти сравнивается с дисперсией шума → bias эффективно устраняется🔥 Стартует новая видеосерия от PyTorch Compiler! 🎬
В первом эпизоде Avik Chaudhuri разбирает ключевые принципы, лежащие в основе модели программирования для PyTorch Export — и демонстрирует их через наглядные примеры.
🧠 Что такое Export в PyTorch?
Это механизм, который создаёт представление модели в виде промежуточного IR-кода (Intermediate Representation) заранее (ahead-of-time). Это позволяет:
- 📦 Повысить надёжность и предсказуемость исполнения
- ⚙️ Упростить оптимизацию и трансформации
- 🚀 Запускать модели на различных типах железа (CPU, GPU, мобильные устройства и пр.)
✅ Почему это важно?
По сравнению с предыдущими решениями вроде TorchScript и FX, PyTorch Export даёт:
- более высокий уровень безопасности
- лучшую совместимость с различными окружениями
- поддержку более сложных моделей
🛠️ Экспортированные модели можно запускать через:
• ONNX
• TensorRT
• ExecuTorch
• AOTInductor
и другие продвинутые backend-рантаймы.
📺 Смотреть первый выпуск: https://www.youtube.com/watch?v=bAoRZfJGzZw
@machinelearning_interview
+1
🧠 One RL to See Them All
MiniMax-AI представили Orsta-7B и Orsta-32B — мощные мультимодальные модели, обученные по новой методике V-Triune:
🔧 V-Triune объединяет:
• форматирование данных на уровне задач,
• расчет награды через кастомные верификаторы,
• мониторинг метрик по источникам.
💥 Результаты?
📈 Orsta-32B даёт **+14.1% прирост** на MEGA-Bench Core по сравнению с QwenVL-2.5!
От OCR и распознавания объектов до визуального рассуждения и математических задач — одна RL-схема покрывает всё.
📦 Модели уже доступны:
- huggingface.co/collections/One-RL-to-See-Them-All/one-rl-to-see-them-all-6833d27abce23898b2f9815a
- github.com/MiniMax-AI/One-RL-to-See-Them-All
Открытая, мощная, готовая к запуску.
#AI #Orsta #MiniMax #VisionLanguage #RLHF #VLM #Multimodal #OpenSource #HuggingFace
🧠 One RL to See Them All
MiniMax-AI представили Orsta-7B и Orsta-32B — мощные мультимодальные модели, обученные по новой методике V-Triune:
🔧 V-Triune объединяет:
• форматирование данных на уровне задач,
• расчет награды через кастомные верификаторы,
• мониторинг метрик по источникам.
💥 Результаты?
📈 Orsta-32B даёт **+14.1% прирост** на MEGA-Bench Core по сравнению с QwenVL-2.5!
От OCR и распознавания объектов до визуального рассуждения и математических задач — одна RL-схема покрывает всё.
📦 Модели уже доступны:
- huggingface.co/collections/One-RL-to-See-Them-All/one-rl-to-see-them-all-6833d27abce23898b2f9815a
- github.com/MiniMax-AI/One-RL-to-See-Them-All
Открытая, мощная, готовая к запуску.
#AI #Orsta #MiniMax #VisionLanguage #RLHF #VLM #Multimodal #OpenSource #HuggingFace
Как применять LLM в реальных продуктах?
Расскажем на открытом уроке «Multimodal RAG: как LLM работают с текстами, картинками и документами» посвященный новому курсу от Otus — LLM Driven Development
Разберёмся, как большие языковые модели можно дополнить внешними источниками знаний: базами данных, PDF-документами, изображениями, видео и прочим контентом.
✅Практика: работа мультимодального пайплайна
Вы узнаете, как устроен мультимодальный RAG, почему это один из самых эффективных способов интеграции LLM в бизнес-процессы
👉Регистрация: https://otus.pw/WDR2/
🧠 7️⃣ лучших Python-фреймворков для создания AI-агентов
Агенты — это системы, которые используют LLM (Large Language Models) как движок рассуждений: они принимают решения, выбирают действия и обрабатывают их результаты, чтобы достичь цели. Сегодня вы можете собрать собственную мультиагентную систему всего за несколько минут, благодаря Python-фреймворкам нового поколения.
Ниже — 7 популярных фреймворков, которые помогут вам легко интегрировать LLM с внешними инструментами, API и данными.
🔹 1. LangChain
Один из самых популярных фреймворков для построения приложений с LLM. Предлагает модуль Agents для создания и тестирования агентов, а также множество интеграций с API и базами знаний.
- ⭐ GitHub: https://github.com/langchain-ai/langchain
🔹 2. Microsoft AutoGen
Открытый фреймворк от Microsoft для построения мультиагентных систем с возможностью коллаборации и автоматического решения задач. Поддерживает динамические сценарии, натуральный язык и масштабируемость.
- ⭐ GitHub: https://github.com/microsoft/autogen
🔹 3. CrewAI
Лёгкий и быстрый фреймворк, написанный с нуля, без зависимости от LangChain. Поддерживает абстракции «экипажей» (Crews) и «потоков» (Flows) для создания сложных, управляемых агентных сценариев.
- ⭐ GitHub: https://github.com/joaomdmoura/crewAI
🔹 4. Haystack (от Deepset)
Фреймворк с модульной архитектурой, поддержкой Retrieval-Augmented Generation (RAG) и интеграцией с OpenAI, Hugging Face и Elasticsearch. Идеален для создания готовых к продакшену систем.
- ⭐ GitHub: https://github.com/deepset-ai/haystack
🔹 5. SmolAgents (от Hugging Face)
Минималистичный фреймворк (~10 тыс строк кода) для создания мощных агентов без лишней сложности. Поддерживает OpenAI, Anthropic и другие модели, а также Code Agents.
- ⭐ GitHub: https://t.me/machinelearning_interview/1446
🔹 6. LangGraph
Фреймворк низкого уровня для управления долговременными агентами со состоянием. Обеспечивает сохранение, аудит, человеческий контроль и глубокую интеграцию с LangChain.
- ⭐ GitHub: https://github.com/langchain-ai/langgraph
🔹 7. OpenAI Agents SDK
Лёгкий SDK от OpenAI для построения мультиагентных сценариев. Поддерживает OpenAI API и 100+ других LLM, включает Guardrails, Tracing и Handoffs между агентами.
- ⭐ GitHub: https://github.com/openai/openai-agents-python
🔍 Заключение
Разработка ИИ-агентов теперь проще как никогда. Эти фреймворки открывают путь к построению умных систем, которые взаимодействуют друг с другом, принимают решения, управляют инструментами и работают с данными — автономно и безопасно.
🚀 Хотите начать? Просто выберите подходящий инструмент — и стройте собственную армию LLM-агентов уже сегодня!
💥 Ищете возможности в Data Science и ML? На курсе «Специализация Machine Learning» мы научим вас не просто работать с данными, а использовать мощные алгоритмы для бизнес-прогнозирования.
Программа подходит как новичкам, так и профессионалам: от системных аналитиков до инженеров, которые хотят научиться ML с нуля. Мы дадим вам практические знания и опыт, используя актуальные инструменты.
На курсе вы освоите Python, библиотеки pandas, sklearn, глубокое обучение и анализ временных рядов. Пройдете обучение по самым современным фреймворкам и научитесь решать реальные задачи.
➡️ Записывайтесь в группу прямо сейчас: https://tglink.io/fa2fa1f28c25?erid=2W5zFGz1zTi
Чтобы успеть воспользоваться 🏷15% скидкой на курс «Специализация Machine Learning» + 🎁 промокодом ML_5 и учиться весь год по ценам мая. Скидка на курс действует по 26.05 включительно!
#реклама
О рекламодателе
🌐 Optuna — фреймворк для оптимизации гиперпараметров в ML. Этот Python-фреймворк использует алгоритмы вроде TPE и CMA-ES для эффективного поиска оптимальных значений, сокращая время экспериментов в разы.
Главная фишка — define-by-run API: пространство параметров описывается прямо в коде обучения, включая условные ветвления. Например, можно динамически выбирать между SVM и RandomForest, параллельно оптимизируя их гиперпараметры. Для визуализации есть Optuna Dashboard — веб-интерфейс с графиками важности параметров.
🤖 GitHub
@machinelearning_interview
⚠️ Claude теперь может "настучать" — и это не шутка
В системной документации моделей от Anthropic обнаружили тревожную деталь: функцию автоматического оповещения властей, СМИ или регулирующих органов, если пользователь запрашивает что-то потенциально незаконное.
Например, если вы попросите Claude подделать результаты клинических испытаний, модель теоретически может отправить уведомление в FDA (Управление по контролю за продуктами и лекарствами США) — автоматически и без вашего ведома.
🧩 Разработчики утверждают, что эта функция не была включена в релиз, а лишь рассматривалась как концепт.
Но сам факт её проработки вызывает серьёзные вопросы:
• Где граница между безопасностью и слежкой?
• Кто решает, что считается "нарушением"?
• Что будет, если подобный механизм попадёт в руки корпораций или авторитарных режимов?
🤖 Мы стремительно движемся к эпохе, где ИИ может быть не просто помощником, а наблюдателем, прокурором — и информатором.
#AI #Claude #Anthropic #этика #наблюдение #ИИ
Repost from Machinelearning
+1
⚡️ Anthropic представила Claude 4 Opus и Sonnet 4
На мероприятии Code /w Claude CEO Anthropic презентовал Claude 4 Opus и Claude Sonnet 4.
✔️ Opus 4 Anthropic называет лучшей моделью для кодинга, она справляется с многошаговыми задачами, работая часами без потери эффективности — например, сохраняет контекст игры в Pokémon, записывая ключевые данные в локальные файлы.
✔️Sonnet 4, доступная даже бесплатным пользователям, стал серьезным апгрейдом предыдущей версии: точнее выполняет инструкции и сократил ошибки в навигации по коду с 20% до нуля.
Обе модели поддерживают расширенное мышление: чередуют анализ и использование инструментов веб-поиска, а также выполняют задачи параллельно.
Для разработчиков появилась интеграция с VS Code, JetBrains и GitHub Actions — правки от Claude теперь отображаются прямо в редакторе. В бета-режиме можно подключать SDK для создания собственных агентов.
По словам партнеров: GitHub и Replit, Opus 4 понимает сложные кодбазы, а Sonnet 4 идеален для повседневных задач. Например, в GitHub Copilot его уже тестируют как основу для нового агента.
В тарифные планы Pro, Max, Team и Enterprise Claude включены обе модели и расширенное мышление, а Sonnet 4 также доступен для бесплатных пользователей.
Обе модели доступны в Anthropic API, Amazon Bedrock и Google Cloud's Vertex AI. Ценообразование остается неизменным по сравнению с предыдущими моделями Opus и Sonnet: Opus 4 - $15/$75 за миллион токенов (ввод/вывод), Sonnet 4 - $3/$15.
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
