Математика Дата саентиста
前往频道在 Telegram
@workakkk - админ @data_analysis_ml - ds https://gosuslugi.ru/snet/67b55bb01a1c5a6fb6ecc946
显示更多📈 Telegram 频道 Математика Дата саентиста 的分析概览
频道 Математика Дата саентиста (@data_math) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 14 053 名订阅者,在 技术与应用 类别中位列第 9 190,并在 俄罗斯 地区排名第 47 377 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 14 053 名订阅者。
根据 18 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -62,过去 24 小时变化为 0,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 17.87%。内容发布后 24 小时内通常能获得 6.96% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 2 511 次浏览,首日通常累积 978 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 53。
- 主题关注点: 内容集中在 llm, программирование, параметр, визуализация, stepik 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“@workakkk - админ
@data_analysis_ml - ds
https://gosuslugi.ru/snet/67b55bb01a1c5a6fb6ecc946”
凭借高频更新(最新数据采集于 19 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
14 053
订阅者
无数据24 小时
-47 天
-6230 天
帖子存档
Прокачивайте скилы на релевантных бизнес-задачах с помощью Яндекс Практикума. Наставники из Яндекса и других крупных компаний помогут со сложными темами, а ревьюеры дадут обратную связь.
Как всё устроено:
1️⃣ Учитесь где и когда удобно
Обучение разбито на спринты по несколько недель, а график позволяет совмещать учёбу с другими делами.
2️⃣ Практика с первого дня
Учимся на примерах из работы и используем популярные рабочие инструменты.
3️⃣ Задачи из реальных сфер
На курсе будут проекты из разных сфер бизнеса, чтобы вы набрались опыта и сразу же применяли новые знания.
Прежде чем платить, любой курс можно попробовать и убедиться, что он вам подходит.
Вот несколько наших курсов:
✅ Инженер данных
✅ Инженер машинного обучения
✅ SQL для работы с данными и аналитики
✅ SQL для разработки
Получите скидку 20% после прохождения первой темы любого курса. Она бесплатная🔥
Repost from Анализ данных (Data analysis)
🔥 Видео от университета Стэнфорда о создании больших языковых моделей!
💡 Это видео — краткий обзор создания модели, подобной ChatGPT, охватывающий как предварительное обучение модели, так и последующее обучение (SFT/RLHF).
В видео рассматриваются общие практики сбора данных, алгоритмы и методы оценки модели.
🕞 Продолжительность: 1:44:30
🔗 Ссылка: *клик*
@data_analysis_ml
+5
Обучаем IT-специалистов и берём в команду ⚡️
Лучшим участникам предложим оффер в Т1 — крупнейшую по выручке ИТ-компанию страны по версии RAEX и CNews Analytics 2023🔝.
Зачем участвовать?
🔹 Уникальный рыночный опыт. Т1 одни из первых на рынке, кто внедряет технологии для управления данными.
🔹 Попасть в число лучших. Проекты Т1 ежегодно получают лучшие награды на ИТ-конкурсах: Global CIO, Национальная банковская премия и др.
🔹 Поддержка. Тебя ждёт команда опытных профессионалов, которые помогут расти и развиваться.
Выбирай:
📁 аналитик платформы данных (DWH)
🖥 разработчик платформы данных (DWH)
От тебя нужен только опыт работы от 6 месяцев в проектах разработки хранилищ данных и желание попасть в команду Т1.
⏰ Быстрое обучение: 1 месяц
📱 Гибкий формат: онлайн по вечерам (от 8 часов в неделю на вебинары и практику)
Подавай заявку до 5 ноября!
#реклама
О рекламодателе
🖥 kalmangrad — это Python-библиотека для вычисления гладких производных произвольного порядка для временных рядов с нерегулярными интервалами. Она использует байесовскую фильтрацию, что делает её устойчивой к шумам по сравнению с классическими методами численного дифференцирования
⭐️ Библиотека полезна для оценки производных в таких областях, как обработка сигналов и системы управления, и поддерживает вычисление производных вплоть до заданного порядка
🖥 GitHub
@data_math
🤙 Число Грэма на пальцах
Как только ребенок (а это происходит где–то года в три–четыре) понимает, что все числа делятся на три группы "один, два и много", он тут же пытается выяснить: насколько много бывает много, чем много отличается от очень много, и может ли оказаться так много, что больше не бывает. Наверняка вы играли с родителями в интересную (для того возраста) игру, кто назовет самое большее число, и если предок был не глупее пятиклассника, то он всегда выигрывал, на каждый "миллион" отвечая "два миллиона", а на "миллиард" — "два миллиарда" или "миллиард плюс один".
Уже к первому классу школы каждый знает — чисел бесконечное множество, они никогда не заканчиваются и самого большого числа не бывает. К любому миллиону триллионов миллиардов всегда можно сказать "плюс один" и остаться в выигрыше. А чуточку позже приходит (должно прийти!) понимание, что длинные строки цифр сами по себе ничего не значат. Все эти триллионы миллиардов только тогда имеют смысл, когда служат представлением какого–то количества предметов или же описывают некое явление. Выдумать длиннющее число, которое ничего из себя не представляет, кроме набора долгозвучащих цифр, нет никакого труда, их итак бесконечное количество. Наука, в какой–то образной мере, занимается тем, что выискивает в этой необозримой бездне совершенно конкретные комбинации цифр, присовокупляя к некому физическому явлению, например скорости света, числу Авогадро или постоянной Планка.
Представьте, насколько огромными могут быть числа! Вот несколько примеров невероятно больших чисел:
10^51 — это количество атомов на Земле.
10^80 — примерно столько существует элементарных частиц во всей видимой Вселенной.
10^90 — примерно столько существует фотонов во всей видимой Вселенной. Это число превышает количество элементарных частиц почти в 10 миллиардов раз.
10^100 — это гугол. Хотя это число не имеет физического смысла, оно звучит красиво и кругло. В 1998 году компания, которая поставила перед собой шутливую цель проиндексировать гугол ссылок, назвалась Google.
10^122 — это количество протонов, необходимое для заполнения всей видимой Вселенной до предела.
10^185 — это объем видимой Вселенной в планковских объемах. Планковский объем — это куб размером 10^-35 метров, наименьший известный науке размер. Скорее всего, как и у Вселенной, существуют еще более мелкие объекты, но ученые пока не нашли для них внятных формул, ограничиваясь лишь предположениями.
Но даже эти числа далеко не предел. Настоящие гиганты, такие как число Грэма, все еще ждут своего часа.
⭐️ Читать подробнее
@data_math
Яндекс Игры пришли к нам с запросом:
SELECT *
FROM subscribers
WHERE channel_name = 'data_math'
AND technical_skills IN ('SQL', 'Airflow', 'MapReduce', 'DataLens')
AND data_driven_approach = true
AND analytical_mindset = true
AND years_of_experience >= 2
AND fit = true;
Ребята ищут аналитика в свою команду. Яндекс Игры посещают более 40 млн пользователей в месяц, поэтому можно проверять кучу гипотез на крупных выборках и экспериментировать.
ВАЖНО. Проверенные гипотезы не пойдут «в стол», а будут помогать команде принимать взвешенные решения и влиять на развитие продукта.
Если у тебя есть опыт работы с продуктами, аналитический склад ума и необходимые навыки, — это отличный шанс быстро вырасти и прокачаться на интересных задачах.
Описание вакансии здесь, но лучше сразу пишите рекрутеру и договаривайтесь о собеседовании: @danny_md1Repost from Machinelearning
+3
🌟 SegVLAD: метод визуального распознавания мест.
SegVLAD - метод для решения задач визуального распознавания мест (VPR) в условиях значительных изменений ракурса. SegVLAD использует сегментацию изображений, разделяя их на значимые объекты ("вещи"). Вместо того, чтобы кодировать все изображение целиком, как это делают традиционные методы VPR, SegVLAD кодирует и ищет соответствия на уровне отдельных сегментов.
Основа архитектуры SegVLAD - набор перекрывающихся подграфов сегментов SuperSegments. Подграфы создаются путем расширения окрестности каждого сегмента, учитывая информацию о соседних сегментах, полученную с помощью триангуляции Делоне.
Для каждого SuperSegment вычисляется дескриптор с использованием метода VLAD (Vector of Locally Aggregated Descriptors).
VLAD агрегирует локальные дескрипторы пикселей, полученные с помощью предварительно обученного DINOv2, который способен извлекать высокоуровневые признаки, инвариантные к различным условиям съемки.
SegVLAD обучался на наборах данных, включающих как уличные, так и внутренние среды: Pitts30k, AmsterTime, Mapillary Street Level Sequences (MSLS), SF-XL, Revisted Oxford5K, Revisited Paris6k, Baidu Mall, 17Places, InsideOut и VPAir.
Тесты SegVLAD показали, что метод превосходит современные VPR, особенно на датасетах с большими изменениями точки обзора. SegVLAD является универсальным и может быть использован с различными методами сегментации изображений и кодировщиками признаков.
Проект программной реализации метода SegVLAD - Revisit Anything.
▶️Локальный запуск с набором данных 17 places из датасета AnyLock (~ 32GB) и моделями SAM+DINO:
⚠️ Перед запуском подготовьте данные датасета согласно структуре и укажите путь к данным в
place_rec_global_config.py/
# Шаг1 - выбор метода (DINO/SAM):
python place_rec_SAM_DINO.py --dataset <> --method DINO/SAM
# Шаг2 - генерация VLAD cluster center (опционально):
python vlad_c_centers_pt_gen.py --dataset <>
# Шаг 3 - извлечение PCA:
place_rec_global_any_dataset_pca_extraction.py --dataset <> --experiment <> --vocab-vlad <domain/map>
# Шаг 4 - запуск SegVLAD:
place_rec_main.py --dataset <> --experiment <> --vocab-vlad <domain/map> --save_results <True/False>
📌Лицензирование : BSD-3-Clause license.
🟡Страница проекта
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #SAM #DINO #VPR #SegVLADКакая ошибка при использовании метрик – самая опасная ?
Когда мы «молимся» на одни показатели, но игнорируем другие: те, которые не укладываются в нашу картину успеха. Такой перекос опасен для компании: будут страдать и сотрудники, и результаты их работы.
Хотите узнать, как пользоваться метриками, чтобы улучшать процессы, а не просто давить на команду?
Приходите на открытый вебинар «Метрики для оценки работы и производительности команды»
Будет интересно: менеджерам в IT, scrum-мастерам, agile-тренерам, руководителям и тимлидам в отделах разработки.
Вы научитесь:
- усовершенствовать оценку производительности команд
- оптимизировать процессы разработки
- внедрять и развивать метрики в agile и scrum-командах
- соблюдать баланс метрик
- повышать производительность не в ущерб качеству
Спикер: Ирина Метансина – проект-менеджер, agile-практик, бизнес-аналитик с 10-летним опытом в проектном управлении.
17 октября, 19:00 МСК, Бесплатно
Какая ошибка при использовании метрик – самая опасная ?
Когда мы «молимся» на одни показатели, но игнорируем другие: те, которые не укладываются в нашу картину успеха. Такой перекос опасен для компании: будут страдать и сотрудники, и результаты их работы.
Хотите узнать, как пользоваться метриками, чтобы улучшать процессы, а не просто давить на команду?
Приходите на открытый вебинар «Метрики для оценки работы и производительности команды»
Будет интересно: менеджерам в IT, scrum-мастерам, agile-тренерам, руководителям и тимлидам в отделах разработки.
Вы научитесь:
- усовершенствовать оценку производительности команд
- оптимизировать процессы разработки
- внедрять и развивать метрики в agile и scrum-командах
- соблюдать баланс метрик
- повышать производительность не в ущерб качеству
Спикер: Ирина Метансина – проект-менеджер, agile-практик, бизнес-аналитик с 10-летним опытом в проектном управлении.
17 октября, 19:00 МСК, Бесплатно
Записаться на событие - https://otus.pw/uWUM/?erid=LjN8K5QX6
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
👩💻 tensor.h — представляет собой минималистичную библиотеку для работы с тензорами на языке C. Основной задачей является выполнение математических операций с многомерными массивами без сложных зависимостей.
Те́нзор (от лат. tensus, «напряжённый») — объект линейной алгебры, линейно преобразующий элементы одного линейного пространства в элементы другого. Частными случаями тензоров являются скаляры, векторы, билинейные формы и т. п.
💡 В README содержится подробное руководство, где описаны примеры использования и базовые операции с тензорами, что облегчает начальную настройку и работу с библиотекой. Это делает её удобной для численных вычислений и задач машинного обучения.
▪️Github
@data_math
⚡Разбираем специфику области NLP и задачи, которые можно решать с помощью NLP-методов на открытом уроке в OTUS!
🔥23 октября в 18.00 мск. приглашаем на бесплатный вебинар "Современные применения Natural Language Processing", на котором разберем:
- основные направления области Natural Language Processing;
- что делает эту область одной из самых востребованных в Data Science сегодня;
- какие задачи сегодня решают с помощью методов NLP и что стоит за успехами в этой области.
👉Регистрация. Вступительный тест https://otus.pw/29W2/?erid=LjN8JuKcf
Спикер: Мария Тихонова, Senior Data Scientist, преподаватель ВШЭ, Otus Certified Educator
Вебинар приурочен к старту курса Natural Language Processing (NLP). На курсе изучаются современные подходы и модели, которые на данный момент являются стандартом в области.
#реклама
О рекламодателе
RamdaJS
1. Функциональное программирование с RamdaJS. Основы и блок Математики
2. Обработка строк в RamdaJS и поток вызова функций
3. Методы объектов в RamdaJS и пара полезных функций
4. Логические операции в RamdaJS
5. Функции первой необходимости в RamdaJS
6. Трансдюсеры в RamdaJS - скидка на дорогие операции
7. Линзы в RamdaJS как абстракция по работе со структурами данных
#video #js
https://www.youtube.com/watch?v=XkNynJBruKY&list=PLiZoB8JBsdzkqsILPvz5jw2-OJ5rw6ukH
Бесплатный вебинар по созданию отчётов в Power BI
Многие аналитики сталкиваются с проблемой создания отчётов ради отчётов. В результате: неверные выводы и, как следствие, потери для бизнеса
На вебинаре вы превратите плохой отчёт в наглядный и полезный для бизнеса с помощью Power BI — топового инструмента для визуализации данных
Спикер Мария Гришина, ведущий BI-аналитик в ООО Салаир (РЖД) и автор тг-канала «Power BI Design», расскажет о том, как:
▶️ упростить читабельность дашборда и сократить время на его чтение
▶️ правильно разбить информацию на блоки и выстроить архитектуру UX/UI-отчета
▶️ применять передовые практики дизайна дашбордов
Кому будет полезно?
✔️ Новичкам, которые хотят углубиться в аналитику
✔️ Начинающим аналитикам, которые хотят подсмотреть классные фишки
Начало 15 октября 19:00 по Мск
Регистрируйтесь по ссылке
Repost from Machinelearning
+2
🌟 OpenMathInstruct-2: математический датасет и набор моделей от NVIDIA.
OpenMathInstruct-2 состоит из 14 млн. пар "вопрос-решение" (примерно 600 тысяч уникальных вопросов) и является одним из крупнейших общедоступных наборов данных для обучения LLM в математике.
Набор данных создан на основе Llama-3.1-405B-Instruct путем синтеза решений для существующих вопросов из наборов данных MATH и GSM8K и генерации новых задач и решений.
Результаты абляционных экспериментов, которые проводились для поиска оптимальных параметров синтеза, показали, что:
🟢формат решения имеет значение, причем чрезмерно подробные решения негативно сказываются на производительности модели;
🟢данные, сгенерированные сильной моделью-учителем, превосходят по качеству данные, полученные от более слабой модели;
🟢процесс обучения устойчив к наличию до 20% решений низкого качества;
🟢разнообразие вопросов имеет решающее значение для масштабирования данных.
Итоговые данные, включенные в датасет прошли тщательную деконтаминацию с использованием конвейера
lm-sys и ручной проверки на поиск дубликатов с тестовыми наборами данных.
OpenMathInstruct-2 показал высокую эффективность при обучении LLM.
Модель Llama3.1-8B-Base, обученная на OpenMathInstruct-2, превзошла Llama3.1-8B-Instruct на 15,9% по точности на наборе данных MATH, а OpenMath2-Llama3.1-70B обошла Llama3.1-70B-Instruct на 3,9%.
Датасет выпущен в 3-х размерностях: полный набор (примерно 7.5 GB) и уменьшенные версии train_1M (640 Mb), train_2M (1.3 Gb) и train_5M (3.1 Gb).
▶️ Модели, дообученные на этом датасете:
🟠OpenMath2-Llama3.1-70B, в формате Nemo, квантованные версии GGUF (от 3-bit до 8-bit);
🟠OpenMath2-Llama3.1-8B, в формате Nemo, квантованные версии GGUF (от 2-bit до 8-bit).
📌Лицензирование датасета : CC-BY-4.0 License.
📌Лицензирование моделей: Llama 3.1 Community License.
🟡Набор моделей
🟡Arxiv
🟡Датасет
@ai_machinelearning_big_data
#AI #ML #LLM #MATH #NVIDIA #Dataset👩💻 Great Great Numbers (GGN) — это простая библиотека на C для работы с целыми числами произвольной длины. Она поддерживает арифметические операции (сложение, вычитание, умножение и деление) над числами, которые превышают стандартные типы данных.
🌟 GGN позволяет работать со знаковыми числами, выполнять инициализацию больших чисел с помощью строк и предоставляет утилиты для вывода и сравнения. Библиотека ориентирована на разработчиков, которым необходима работа с большими числами в приложениях на C
🔐 Лицензия: MIT
▪️GitHub
@data_math
Привет! Это команда МТС. Мы запустили набор на 3 поток Школы аналитиков данных МТС!
Обучение проходит в онлайн-формате и длится 10 месяцев. Преподаватели — эксперты нашего центра Big Data. Вы научитесь писать на Python, прокачаетесь в математике, основах машинного обучения, ML Ops, Spark и прочих вещах, без которых не выйдет работать в Data Science. Также у студентов будет возможность попасть на стажировку в МТС.
Ждем тех, кто любит учиться, хочет попасть в комьюнити единомышленников, и, конечно, развиваться в анализе данных и ML.
Обучение бесплатное, но места ограничены - чтобы попасть, необходимо подать заявку до 20 октября и выполнить вступительное задание. Старт обучения - 7 ноября!
Подробности по ссылке, ждём тебя!
Реклама. Информация о рекламодателе.
Теория вероятностей Учеб. для вузов. - 3-е изд.
А.В. Печинкин, О.И. Тескин, Г.М. Цветкова и др. (2004)
Несмотря на большое количество учебных руководств по теории вероятностей, в том числе появившихся и в последние годы, в настоящее время отсутствует учебник, предназначенный для технических университетов с усиленной математической подготовкой. Отличительной особенностью данной книги является взвешенное сочетание математической строгости изложения основ теории вероятностей с прикладной направленностью задач и примеров, иллюстрирующих теоретические положения. Каждую главу книги завершает набор большого числа контрольных вопросов, типовых примеров и задач для самостоятельного решения.
Содержание учебника соответствует курсу лекций, который авторы читают в МГТУ им. Н.Э.Баумана.
Для студентов технических университетов. Может быть полезен преподавателям и аспирантам.
@data_math
DBT – мессия, блажь или реальность дата-инженера?
8 октября приглашаем вас на бесплатный вебинар от учебного центра Слёрм! Встретимся с опытными специалистами из мира big data, чтобы обсудить:
👉🏻 Как управлять жизненным циклом данных в мире победившего Modern Data Stack?
👉🏻 Могут ли современные инструменты преобразить процесс Data Governance и сделать его простым и быстрым?
👉🏻 Как разные компании и команды применяют dbt для решения задач Data Governance?
Эксперты встречи:
— Евгений Ермаков, руководитель платформы данных Tоlоkа.аi
— Николай Марков, Data Platform Lead в Altenar, спикер курсов Слёрма и ментор проекта «Где дата, Коль?»
📌 Когда: 8 октября в 19:00 мск
📌 Занять место на вебинаре — через бота.
erid: LjN8KG3v9
Repost from Анализ данных (Data analysis)
♠️ Бесплатный курс от MIT: Теория и Аналитика покера
В этом курсе от MIT подробно рассматривается теория покера, математика покера и применение покерной аналитики в управлении инвестициями и трейдинге.
▪️Материалы Курса
@data_analysis_ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
