Machine learning Interview

前往频道在 Telegram

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

显示更多

网络:Machinelearning 俄罗斯21 939 技术与应用4 569...

📈 Telegram 频道 Machine learning Interview 的分析概览

频道 Machine learning Interview (@machinelearning_interview) 俄语语言赛道中的是活跃参与者。目前社区聚集了 30 034 名订阅者，在 技术与应用 类别中位列第 4 569，并在 俄罗斯 地区排名第 21 939 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 30 034 名订阅者。

根据 11 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 39，过去 24 小时变化为 8，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 18.49%。内容发布后 24 小时内通常能获得 8.84% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 5 554 次浏览，首日通常累积 2 656 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 39。
主题关注点： 内容集中在 claude, llm, контекст, hermes, nvidia 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

凭借高频更新（最新数据采集于 12 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

30 034

订阅者

+824 小时

-117 天

+3930 天

5 554

帖子浏览量

~ 2 65624 小时

~ 3 84048 小时

18.49%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

30 036

“A Brief Introduction to Neural Networks” — это один из самых понятных и тщательно структурированных гайдoв по нейронным сетям от David Kriesel. 📘 Что внутри: • Биология → формальные модели • Обучение с учителем и без • Персептроны, рекуррентные сети, SOM (карты Кохонена) • Обратное распространение ошибки, Hebbian learning и не только • Много схем, математики и объяснений "на пальцах" 💻 Хочешь поиграться с примерами? Всё можно попробовать на практике с фреймворком SNIPE (на Java), который идёт вместе с гайдом. 🔗 Читать/скачать (EN): https://dkriesel.com/en/science/neural_networks Также доступна версия на немецком: https://dkriesel.com/science/neuronale_netze

30 036

🚀 Хотите освоить одну из ключевых областей машинного обучения — кластеризацию данных? На открытом вебинаре вы узнаете, как работают популярные методы кластеризации, такие как k-means и DBSCAN. Мы не только разберем их теоретические основы, но и покажем, как применять эти алгоритмы на практике для обработки данных. 📊 Освоив методы кластеризации, вы сможете анализировать и группировать данные для дальнейшего использования в реальных проектах. Этот навык необходим в Data Science и востребован на рынке труда. 🗓️ Урок проходит в преддверие старта курса «Machine Learning. Professional». Пройдите регистрацию и получите скидку на обучение! Встречаемся 2 июня в 18:00 МСК. 🔗 Регистрация открыта: https://tglink.io/c7ff93e5f302?erid=2W5zFGMKoAG Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

30 036

Исследователи Яндекса разработали и выложили в опенсорс один из крупнейших датасетов для развития рекомендательных систем — YaMBDa Датасет включает 4,79 миллиардов обезличенных пользовательских действий в Яндекс Музыке. Он включает в себя только числовые идентификаторы, что позволяет сохранить конфиденциальность. Открытые датасеты такого масштаба от коммерческих компаний — редкость. При этом даже те, что есть (LFM-1B, LFM-2B) со временем стали недоступны из-за лицензионных ограничений, а популярные датасеты от Steam или Netflix Prize фокусировались лишь на обратной связи и содержали несколько десятков млн взаимодействий. Поэтому, во-первых, у большинства исследователей попросту не было доступа к web‑scale‑сервисам, следовательно — и возможности протестировать алгоритмы в условиях, приближенных к реальности. А во-вторых, многие датасеты не позволяли разделить выборку на train и test по хронологии: это критично, когда речь идет об алгоритмах, которые должны предсказывать будущее, а не анализировать прошлое. YaMBDa (YAndex Music Billion-interactions DAtaset) решает обе проблемы. Его можно использовать не только для оценки качества стримминговых систем, но и для e-commerce, соцсетей и других задач рекомендаций. Датасет доступен в трех вариантах: полная версия содержит почти 5 млрд данных, а уменьшенные — 500 млн и 50 млн. Можно выбрать версию, которая соответствует задачам и вычислительным ресурсам. Используя этот датасет, разработчики, исследователи и молодые ученые смогут тестировать и улучшать алгоритмы в продуктах, где используются рекомендательные системы.

30 036

🔥 DeepSeek R1 (0528) — компактная MLX-версия! А вот и 4-битная квантованная версия DeepSeek R1 специально под MLX. Модель запускается локально на Mac с Apple Silicon без танцев с бубном и GPU. Установка: pip install mlx-lm

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/DeepSeek-R1-0528-4bit")

prompt = "hello"

if tokenizer.chat_template is not None:
    messages = [{"role": "user", "content": prompt}]
    prompt = tokenizer.apply_chat_template(
        messages, add_generation_prompt=True
    )

response = generate(model, tokenizer, prompt=prompt, verbose=True)

👉 huggingface.co/mlx-community/DeepSeek-R1-0528-4bit #DeepSeek

30 036

🚀 Запуск обновленной версии курса «ML для финансового анализа»! Пройдите полный цикл создания торгового агента: от сбора и очистки данных до переноса в продакшн. Уже через полгода вы сможете самостоятельно разработать торгового бота! 🔹 Новое в программе - Портфельные стратегии и модели перебалансировки. - Предсказание цен с LSTM и оценка текстов. - Ансамбль блендинга с LLM. 🔹 Структура курса - Пошаговое обучение с домашними заданиями для создания торгового бота. 🔹 Адаптация под ваши запросы - Синтетические датасеты, свечные графики, очистка данных и многое другое. 🔹 Практический модуль - Перенос модели в продакшн, облачная инфраструктура, микросервисы и контроль метрик. 🎉 Специальное предложение Успейте воспользоваться 🏷10% скидкой на курс «ML для финансового анализа» и 🎁 бонусным промокодом FINANCE_5 и учитесь по ценам мая! Выгодные условия действуют по 31 мая включительно. ➡️ Ссылка для регистрации: https://tglink.io/129ad1e9aefa?erid=2W5zFGdnjR2 #реклама О рекламодателе

30 036

⚙️ Полный гид по GPU-экосистеме — без воды и маркетинга Если ты путаешься в CUDA, OpenCL, SYCL и HIP — этот гайд от ENCCS расставит всё по полочкам. Это не просто обзор, а чёткое объяснение, как устроен мир GPU-программирования сегодня. 🧠 Что ты узнаешь: 🔹 Как и почему GPU радикально отличается от CPU 🔹 Из чего состоит стек GPU-технологий: — CUDA и его аналоги (HIP, SYCL, OpenCL) — Директивы: OpenMP, OpenACC 🔹 Какие языки и стандарты поддерживают какую архитектуру 🔹 NVIDIA, AMD, Intel — кто что умеет и чем отличается 🔹 Модели памяти, исполнения, и что влияет на производительность 📌 Гайд подходит для: • Разработчиков HPC и научных расчётов • Инженеров ML/AI, желающих копнуть глубже • Всех, кто хочет разобраться в низкоуровневом GPU-стеке без маркетингового тумана 📖 Читать: https://enccs.github.io/gpu-programming/2-gpu-ecosystem/ 🔥 Один из самых понятных и системных разборов GPU-мира на сегодня. #GPU #CUDA #OpenCL #HIP #SYCL #HPC #AI #HighPerformanceComputing

30 036

Устроиться аналитиком в Яндекс за выходные 7–8 июня проводим Weekend Offer Analytics. До 3 июня оставьте заявку на участие, 7 июня пройдите два технические собеседования, а 8 июня познакомьтесь с командами и получите офер. В мероприятии участвует 12 команд: Алиса и Умные устройства, Игры, R&D, Рекламные технологии, Поиск и Суперапп, Безопасность, Коммерческий департамент, Автономный транспорт, Ecom-сценарии Поиска, Качество Поиска, Международный Поиск, Карты. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным. Узнать подробности и зарегистрироваться можно здесь.

30 036

Repost from Machinelearning

✔️ Релиз DeepSeek R1-0528 Главное: • Глубокое рассуждение — на уровне моделей Google • Улучшена генерация текста — более естественно, структурировано и аккуратно • Уникальный стиль reasoning — не просто быстро, а вдумчиво и последовательно • Может работать над одной задачей 30–60 минут, удерживая контекст Новая модель показывает результат почти на уровне o3 (High) на бенчмарк LiveCodeBench. https://huggingface.co/deepseek-ai/DeepSeek-R1-0528 @ai_machinelearning_big_data #DeepSeek #opensource

30 036

🧠 Байесовская очистка данных от дневного bias с помощью нелинейной регрессии Снова измерения температуры 📈 — и снова проблема: каждый день датчик даёт случайное смещение (bias). Нам нужно не просто его найти, а сделать это более надёжно — с учётом неопределённости. 🔁 Уточнённые цели 1. Оценить дневной bias через байесовскую регрессию 2. Использовать нелинейный тренд вместо скользящего среднего 3. Построить интервалы доверия для оценённой температуры 4. Визуализировать, насколько хорошо работает очистка 📦 Шаг 1. Генерация данных (как раньше)


import pandas as pd
import numpy as np

np.random.seed(42)
days = pd.date_range("2023-01-01", periods=10, freq="D")
true_temp = np.sin(np.linspace(0, 3 * np.pi, 240)) * 10 + 20
bias_per_day = np.random.uniform(-2, 2, size=len(days))

df = pd.DataFrame({
    "datetime": pd.date_range("2023-01-01", periods=240, freq="H"),
})
df["day"] = df["datetime"].dt.date
df["true_temp"] = true_temp
df["bias"] = df["day"].map(dict(zip(days.date, bias_per_day)))
df["measured_temp"] = df["true_temp"] + df["bias"] + np.random.normal(0, 0.5, size=240)

📐 Шаг 2. Построим нелинейную модель тренда (например, полиномиальную регрессию)


from sklearn.linear_model import Ridge
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

# Модель полиномиальной регрессии степени 6
X_time = np.arange(len(df)).reshape(-1, 1)
y = df["measured_temp"].values

model = make_pipeline(PolynomialFeatures(degree=6), Ridge(alpha=1.0))
model.fit(X_time, y)

df["trend_poly"] = model.predict(X_time)
df["residual"] = df["measured_temp"] - df["trend_poly"]

🧮 Шаг 3. Байесовская оценка bias (через среднее и стандартную ошибку)


bias_stats = df.groupby("day")["residual"].agg(["mean", "std", "count"])
bias_stats["stderr"] = bias_stats["std"] / np.sqrt(bias_stats["count"])
df["bias_bayes"] = df["day"].map(bias_stats["mean"])
df["bias_stderr"] = df["day"].map(bias_stats["stderr"])

# Восстановим очищенную температуру
df["restored_bayes"] = df["measured_temp"] - df["bias_bayes"]

📊 Шаг 4. Оценка качества и визуализация


from sklearn.metrics import mean_squared_error
rmse = mean_squared_error(df["true_temp"], df["restored_bayes"], squared=False)
print(f"📉 RMSE (после байесовской очистки): {rmse:.3f}")

📈 Визуализация с доверительными интервалами


import matplotlib.pyplot as plt

for day in df["day"].unique():
    day_data = df[df["day"] == day]
    stderr = day_data["bias_stderr"].iloc[0]
    
    plt.fill_between(day_data.index, 
                     day_data["restored_bayes"] - stderr,
                     day_data["restored_bayes"] + stderr,
                     alpha=0.2, label=str(day) if day == df["day"].unique()[0] else "")

plt.plot(df["true_temp"], label="True Temp", lw=1.5)
plt.plot(df["restored_bayes"], label="Restored Temp (Bayes)", lw=1)
plt.legend()
plt.title("Восстановление температуры с доверительными интервалами")
plt.xlabel("Time")
plt.ylabel("°C")
plt.grid(True)
plt.show()

✅ Вывод ✔️ Нелинейная регрессия даёт лучшее приближение тренда, чем скользящее среднее ✔️ Байесовская оценка даёт не только среднюю оценку bias, но и доверительные интервалы ✔️ Модель учитывает неопределённость и шум — ближе к реальной инженерной задаче ✔️ RMSE почти сравнивается с дисперсией шума → bias эффективно устраняется

30 036

🔥 Стартует новая видеосерия от PyTorch Compiler! 🎬 В первом эпизоде Avik Chaudhuri разбирает ключевые принципы, лежащие в основе модели программирования для PyTorch Export — и демонстрирует их через наглядные примеры. 🧠 Что такое Export в PyTorch? Это механизм, который создаёт представление модели в виде промежуточного IR-кода (Intermediate Representation) заранее (ahead-of-time). Это позволяет: - 📦 Повысить надёжность и предсказуемость исполнения - ⚙️ Упростить оптимизацию и трансформации - 🚀 Запускать модели на различных типах железа (CPU, GPU, мобильные устройства и пр.) ✅ Почему это важно? По сравнению с предыдущими решениями вроде TorchScript и FX, PyTorch Export даёт: - более высокий уровень безопасности - лучшую совместимость с различными окружениями - поддержку более сложных моделей 🛠️ Экспортированные модели можно запускать через: • ONNX • TensorRT • ExecuTorch • AOTInductor и другие продвинутые backend-рантаймы. 📺 Смотреть первый выпуск: https://www.youtube.com/watch?v=bAoRZfJGzZw @machinelearning_interview

30 036

🧠 One RL to See Them All MiniMax-AI представили Orsta-7B и Orsta-32B — мощные мультимодальные модели, обученные по новой методике V-Triune: 🔧 V-Triune объединяет: • форматирование данных на уровне задач, • расчет награды через кастомные верификаторы, • мониторинг метрик по источникам. 💥 Результаты? 📈 Orsta-32B даёт **+14.1% прирост** на MEGA-Bench Core по сравнению с QwenVL-2.5! От OCR и распознавания объектов до визуального рассуждения и математических задач — одна RL-схема покрывает всё. 📦 Модели уже доступны: - huggingface.co/collections/One-RL-to-See-Them-All/one-rl-to-see-them-all-6833d27abce23898b2f9815a - github.com/MiniMax-AI/One-RL-to-See-Them-All Открытая, мощная, готовая к запуску. #AI #Orsta #MiniMax #VisionLanguage #RLHF #VLM #Multimodal #OpenSource #HuggingFace

30 036

Как применять LLM в реальных продуктах? Расскажем на открытом уроке «Multimodal RAG: как LLM работают с текстами, картинками и документами» посвященный новому курсу от Otus — LLM Driven Development Разберёмся, как большие языковые модели можно дополнить внешними источниками знаний: базами данных, PDF-документами, изображениями, видео и прочим контентом. ✅Практика: работа мультимодального пайплайна Вы узнаете, как устроен мультимодальный RAG, почему это один из самых эффективных способов интеграции LLM в бизнес-процессы 👉Регистрация: https://otus.pw/WDR2/

30 036

🧠 7️⃣ лучших Python-фреймворков для создания AI-агентов Агенты — это системы, которые используют LLM (Large Language Models) как движок рассуждений: они принимают решения, выбирают действия и обрабатывают их результаты, чтобы достичь цели. Сегодня вы можете собрать собственную мультиагентную систему всего за несколько минут, благодаря Python-фреймворкам нового поколения. Ниже — 7 популярных фреймворков, которые помогут вам легко интегрировать LLM с внешними инструментами, API и данными. 🔹 1. LangChain Один из самых популярных фреймворков для построения приложений с LLM. Предлагает модуль Agents для создания и тестирования агентов, а также множество интеграций с API и базами знаний. - ⭐ GitHub: https://github.com/langchain-ai/langchain 🔹 2. Microsoft AutoGen Открытый фреймворк от Microsoft для построения мультиагентных систем с возможностью коллаборации и автоматического решения задач. Поддерживает динамические сценарии, натуральный язык и масштабируемость. - ⭐ GitHub: https://github.com/microsoft/autogen 🔹 3. CrewAI Лёгкий и быстрый фреймворк, написанный с нуля, без зависимости от LangChain. Поддерживает абстракции «экипажей» (Crews) и «потоков» (Flows) для создания сложных, управляемых агентных сценариев. - ⭐ GitHub: https://github.com/joaomdmoura/crewAI 🔹 4. Haystack (от Deepset) Фреймворк с модульной архитектурой, поддержкой Retrieval-Augmented Generation (RAG) и интеграцией с OpenAI, Hugging Face и Elasticsearch. Идеален для создания готовых к продакшену систем. - ⭐ GitHub: https://github.com/deepset-ai/haystack 🔹 5. SmolAgents (от Hugging Face) Минималистичный фреймворк (~10 тыс строк кода) для создания мощных агентов без лишней сложности. Поддерживает OpenAI, Anthropic и другие модели, а также Code Agents. - ⭐ GitHub: https://t.me/machinelearning_interview/1446 🔹 6. LangGraph Фреймворк низкого уровня для управления долговременными агентами со состоянием. Обеспечивает сохранение, аудит, человеческий контроль и глубокую интеграцию с LangChain. - ⭐ GitHub: https://github.com/langchain-ai/langgraph 🔹 7. OpenAI Agents SDK Лёгкий SDK от OpenAI для построения мультиагентных сценариев. Поддерживает OpenAI API и 100+ других LLM, включает Guardrails, Tracing и Handoffs между агентами. - ⭐ GitHub: https://github.com/openai/openai-agents-python 🔍 Заключение Разработка ИИ-агентов теперь проще как никогда. Эти фреймворки открывают путь к построению умных систем, которые взаимодействуют друг с другом, принимают решения, управляют инструментами и работают с данными — автономно и безопасно. 🚀 Хотите начать? Просто выберите подходящий инструмент — и стройте собственную армию LLM-агентов уже сегодня!

30 036

💥 Ищете возможности в Data Science и ML? На курсе «Специализация Machine Learning» мы научим вас не просто работать с данными, а использовать мощные алгоритмы для бизнес-прогнозирования. Программа подходит как новичкам, так и профессионалам: от системных аналитиков до инженеров, которые хотят научиться ML с нуля. Мы дадим вам практические знания и опыт, используя актуальные инструменты. На курсе вы освоите Python, библиотеки pandas, sklearn, глубокое обучение и анализ временных рядов. Пройдете обучение по самым современным фреймворкам и научитесь решать реальные задачи. ➡️ Записывайтесь в группу прямо сейчас: https://tglink.io/fa2fa1f28c25?erid=2W5zFGz1zTi Чтобы успеть воспользоваться 🏷15% скидкой на курс «Специализация Machine Learning» + 🎁 промокодом ML_5 и учиться весь год по ценам мая. Скидка на курс действует по 26.05 включительно! #реклама О рекламодателе

30 036

🌐 Optuna — фреймворк для оптимизации гиперпараметров в ML. Этот Python-фреймворк использует алгоритмы вроде TPE и CMA-ES для эффективного поиска оптимальных значений, сокращая время экспериментов в разы. Главная фишка — define-by-run API: пространство параметров описывается прямо в коде обучения, включая условные ветвления. Например, можно динамически выбирать между SVM и RandomForest, параллельно оптимизируя их гиперпараметры. Для визуализации есть Optuna Dashboard — веб-интерфейс с графиками важности параметров. 🤖 GitHub @machinelearning_interview

30 036

⚠️ Claude теперь может "настучать" — и это не шутка В системной документации моделей от Anthropic обнаружили тревожную деталь: функцию автоматического оповещения властей, СМИ или регулирующих органов, если пользователь запрашивает что-то потенциально незаконное. Например, если вы попросите Claude подделать результаты клинических испытаний, модель теоретически может отправить уведомление в FDA (Управление по контролю за продуктами и лекарствами США) — автоматически и без вашего ведома. 🧩 Разработчики утверждают, что эта функция не была включена в релиз, а лишь рассматривалась как концепт. Но сам факт её проработки вызывает серьёзные вопросы: • Где граница между безопасностью и слежкой? • Кто решает, что считается "нарушением"? • Что будет, если подобный механизм попадёт в руки корпораций или авторитарных режимов? 🤖 Мы стремительно движемся к эпохе, где ИИ может быть не просто помощником, а наблюдателем, прокурором — и информатором. #AI #Claude #Anthropic #этика #наблюдение #ИИ

30 036

Repost from Machinelearning

⚡️ Anthropic представила Claude 4 Opus и Sonnet 4 На мероприятии Code /w Claude CEO Anthropic презентовал Claude 4 Opus и Claude Sonnet 4. ✔️ Opus 4 Anthropic называет лучшей моделью для кодинга, она справляется с многошаговыми задачами, работая часами без потери эффективности — например, сохраняет контекст игры в Pokémon, записывая ключевые данные в локальные файлы. ✔️Sonnet 4, доступная даже бесплатным пользователям, стал серьезным апгрейдом предыдущей версии: точнее выполняет инструкции и сократил ошибки в навигации по коду с 20% до нуля. Обе модели поддерживают расширенное мышление: чередуют анализ и использование инструментов веб-поиска, а также выполняют задачи параллельно. Для разработчиков появилась интеграция с VS Code, JetBrains и GitHub Actions — правки от Claude теперь отображаются прямо в редакторе. В бета-режиме можно подключать SDK для создания собственных агентов. По словам партнеров: GitHub и Replit, Opus 4 понимает сложные кодбазы, а Sonnet 4 идеален для повседневных задач. Например, в GitHub Copilot его уже тестируют как основу для нового агента. В тарифные планы Pro, Max, Team и Enterprise Claude включены обе модели и расширенное мышление, а Sonnet 4 также доступен для бесплатных пользователей. Обе модели доступны в Anthropic API, Amazon Bedrock и Google Cloud's Vertex AI. Ценообразование остается неизменным по сравнению с предыдущими моделями Opus и Sonnet: Opus 4 - $15/$75 за миллион токенов (ввод/вывод), Sonnet 4 - $3/$15.