Математика Дата саентиста

Открыть в Telegram

@workakkk - админ @data_analysis_ml - ds https://gosuslugi.ru/snet/67b55bb01a1c5a6fb6ecc946

Больше

Сеть:Machinelearning Россия47 377 Технологии и приложения9 190...

📈 Аналитический обзор Telegram-канала Математика Дата саентиста

Канал Математика Дата саентиста (@data_math) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 14 053 подписчиков, занимая 9 190 место в категории Технологии и приложения и 47 377 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 14 053 подписчиков.

Согласно последним данным от 18 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -62, а за последние 24 часа — 0, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 17.87%. В первые 24 часа после публикации контент обычно набирает 6.96% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 2 511 просмотров. В течение первых суток публикация набирает 978 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 53.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, программирование, параметр, визуализация, stepik.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“@workakkk - админ @data_analysis_ml - ds https://gosuslugi.ru/snet/67b55bb01a1c5a6fb6ecc946”

Благодаря высокой частоте обновлений (последние данные получены 19 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

14 053

Подписчики

Нет данных24 часа

-47 дней

-6230 день

2 511

Просмотры поста

~ 97824 часа

~ 1 17948 часов

17.87%

Коэффициент вовлеченности

Нет данных

Постов в день

Ads index

beta

Архив постов

14 053

Repost from Machinelearning

🌟 EXAONE 3.5: Набор инструктивных моделей от LG AI. LG AI Research опубликовала 3 новые инструктивные двуязычные (английский и корейский) модели EXAONE 3.5 с контекстным окном в 32 тыс. токенов: 🟠2.4B – компактная модель для использования на устройствах;, 🟠7.8B – универсальная модель; 🟢32B – высокопроизводительная модель для задач, требующих максимальной эффективности. Разработчики EXAONE 3.5 улучшили эффективность обучения моделей. На этапе предварительного обучения из наборов данных удалялись дубликаты и личная информация, что позволило повысить качество ответов моделей и оптимизировать использование ресурсов. На этапе постобработки применялись методы SFT и DPO, чтобы улучшить способность моделей понимать инструкции и предпочтения пользователей. Для повышения надежности оценки производительности EXAONE 3.5 был проведен тщательный процесс деконтаминации. Метод деконтаминации был взят из глобальной модели, а его эффективность оценивалась путем многократного сравнения обучающих данных с тестовыми наборами данных. К каждой модели, LG AI выпустил квантованные версии в форматах AWQ и GGUF. ⚠️ EXAONE 3.5 - инструктивные модели, поэтому рекомендуется использовать системные промпты, представленные в примере кода инференса. ▶️Пример инференса EXAONE-3.5-7.8B-Instruct на Transformers:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "%Prompt%" 

messages = [
    {"role": "system", "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

output = model.generate(
    input_ids.to("cuda"),
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=128,
    do_sample=False,
)
print(tokenizer.decode(output[0]))

📌Лицензирование: EXAONE AI Model License. 🟡Статья 🟡Набор моделей 🟡Demo 7.8B 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #EXAONE #LG

14 053

IT-инженеры — объединяйтесь! 🤝 Мы собрали огромную базу прикладной информации для IT-инженеров. Выбирайте, что вам интересно: — Полупроводники — Высоконагруженные системы — Связь и космос — Промышленный дизайн — Нейроморфные технологии — Индустрия 4.0 — Печатные платы — Технологии мира музыки 📌 Статьи, лекции, подкасты, кейсы из инженерной практики и тематические гайды в одном месте @ultimate_engineer

14 053

Repost from Machinelearning

🌟 The Well: Масштабная коллекция физических симуляций для машинного обучения. The Well – коллекция датасетов для машинного обучения, содержащая 15 ТБ данных численного моделирования различных физических систем. Коллекция состоит из 16 наборов данных из областей: биологии, гидродинамики, акустики, магнитогидродинамики, внегалактических субстанций и взрывы сверхновых. Данные представлены в унифицированном формате HDF5, организованном в соответствии с общей спецификацией. Они сгенерированы на равномерных сетках и дискретизированы с постоянным временным шагом. Файлы HDF5 содержат все доступные переменные состояния и пространственно-изменяющиеся коэффициенты в виде массивов NumPy в формате одинарной точности fp32. Доступны скалярные, векторные и тензорные поля, учитывая их различные свойства преобразования. Каждый файл данных случайным образом разделен на обучающую, тестовую и валидационную выборки в соотношении 8:1:1. Детальное описание каждого набора данных представлено в таблицах, где указаны координатная система, разрешение снимков, количество временных шагов в траектории, общее количество траекторий в наборе данных, размер набора данных, время выполнения симуляций и используемое оборудование. The Well предоставляет класс the_well для Python, который позволяет загружать и использовать данные в процессе обучения моделей. Для удобства большинство наборов размещены на Hugging Face, что позволяет получать данные напрямую через интернет. ▶️ Установка и пример использования c HF:

# Create new venv
python -m venv path/to/env
source path/to/env/activate/bin

# Instal from repo
git clone https://github.com/PolymathicAI/the_well
cd the_well
pip install .

# Streaming from Hugging Face
from the_well.data import WellDataset
from torch.utils.data import DataLoader

trainset = WellDataset(
    well_base_path="hf://datasets/polymathic-ai/",
    well_dataset_name="active_matter",
    well_split_name="train",
)
train_loader = DataLoader(trainset)

for batch in train_loader:
    ...

📌Лицензирование кода : BSD-3-Clause License. 📌Лицензирование датасетов : CC-BY-4.0 License. 🟡Страница проекта 🟡Коллекция на HF 🟡Demo 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Dataset #TheWell

14 053

🎓 Парадоксы теории вероятностей Лекции: ВМК МГУ. Ульянов В.В. 👉источник @data_math

14 053

🔥17 декабря в 20.00 мск приглашаем на открытый урок "Алгоритмы с подкреплением в стохастических играх" курса Reinforcement Learning, на котором: - Вспомним о теории игр и равновесии Нэша; - Поговорим о том какие алгоритмы обучения с подкреплением применимы к стохастическим играм; - Реализуем один из них в коде и обучим наших агентов взаимодействовать друг с другом. Участники вебинара получат ноутбук с кодом практического примера реализации алгоритма и поймут как запустить его в игровой среде. 👉Регистрация: https://clck.ru/3Ep2Fs?erid=LjN8KGnTh Встречаемся в преддверии старта курса «Reinforcement Learning» в OTUS. Обучение позволит применять алгоритмы RL для решения разнообразных задач в реальном мире, включая игровую индустрию, робототехнику, управление энергетическими системами и управление финансовым портфелем. Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

14 053

🎓 Конспекты курса Гарвардского университета "Продвинутый комплексный анализ" PDF: https://people.math.harvard.edu/~ctm/papers/home/text/class/harvard/213a/course.pdf @data_math

14 053

📊 Игры хаоса. Фракталы Насколько красивым и упорядоченным может быть хаос! Как нарисовать целый лес деревьев и растений, используя пару правил? Теория хаоса, фракталы, аттракторы и подкрученные игровые кости – все это в новом переводе ролика от Numberphile. @data_math

14 053

Как готовить данные для анализа с помощью ETL? Чтобы освоить основы инжиниринга данных регистрируйтесь на бесплатный вебинар от Simulative 💬 Спикер Даниил Джепаров, lead analytics engineer в Сравни.ру, расскажет о том, как извлекать данные из разных источников, а затем преобразовывать и загружать их в хранилище. Вы узнаете: 🟡 Что такое ETL и как он работает 🟡 Какие есть различия между пакетной и потоковой обработкой 🟡 Какие виды документации используют в дата-проектах 🟡 Как оценивать и поддерживать высокое качество данных 🟡 Как мониторить ETL-процессы В конце вебинара вас ждет бонус от спикера — дорожная карта для аналитиков и инженеров с планом развития на middle-позицию 🎁 Встречаемся 4 декабря в 19:00 по мск. Успейте присоединиться по ссылке.

14 053

Конспекты курса "Математический анализ 1 для отличников" PDF: https://math.uwaterloo.ca/~baforres/UCM137/CourseNotes/Forrest_M137CN.pdf @data_math

14 053

Repost from Machinelearning

🌟 OLMo 2: Новое поколение полностью открытых языковых моделей. OLMo 2 - серия открытых языковых моделей, созданная для развития науки о языковых моделях . Модели OLMo 2 доступны в вариантах 7B и 13B параметров и обучены на массиве данных объемом 5 трлн. токенов. Они демонстрируют производительность, сопоставимую или превосходящую аналогичные по размеру полностью открытые модели на английских академических тестах. Разработчики OLMo 2 уделили особое внимание стабильности обучения, используя методы RMSNorm, QK-Norm, Z-loss регуляризация и улучшенная инициализация. Обучение проводилось в 2 этапа. На первом этапе модели обучались на датасете OLMo-Mix-1124 (3,9 трлн. токенов). На втором этапе использовался специально подобранный набор данных Dolmino-Mix-1124 (843 млрд. токенов), состоящий из веб-данных, материалов из академических источников, форумов вопросов и ответов, инструкций и математических задачников. Для объединения моделей, обученных на разных подмножествах данных, применялся метод "model souping". Для оценки OLMo 2 была разработана система OLMES (Open Language Modeling Evaluation System) из 20 тестов для измерения способностей модели. OLMo 2 превзошел предыдущую версию OLMo 0424 по всем задачам и показал высокую эффективность по сравнению с другими открытыми моделями. ▶️Набор моделей OLMo 2: 🟢Базовые модели: OLMo-2-1124-7B и OLMo-2-1124-13B 🟠GGUF-версии: OLMo-2-1124-7B-GGUF и OLMo-2-1124-13B-GGUF 🟢Инструктивные версии: OLMo-2-1124-7B-Instruct и OLMo-2-1124-13B-Instruct 🟠DPO-версии: OLMo-2-1124-7B-DPO и OLMo-2-1124-13B-DPO 🟠SFT-версии: OLMo-2-1124-7B-SFT и OLMo-2-1124-13B-SFT 🟠Reward Model - версия OLMo-2-1124-7B-RM ▶️Пример инференса OLMo-2-7B c HF Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-1124-7B")
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-2-1124-7B")
message = ["Language modeling is "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
# optional verifying cuda
# inputs = {k: v.to('cuda') for k,v in inputs.items()}
# olmo = olmo.to('cuda')
response = olmo.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])

📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Набор моделей 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #OLMo2

14 053

❓Зачем программисту нужна математика? Многие считают, что если предметная область не требует знаний математики, то она не нужна. Тем не менее существуют много фундаментальных ограничений, прямо вытекающих из математической теории, которые оказывают непосредственное влияние на код. ✅ Приглашаем вас на открытый урок «Распространенные заблуждения в программировании или чем может помочь математика» Покажем как математика позволяет давать ответы на запутанные вопросы и улучшать понимание программирования и качество кода. Урок посвящен курсу «Математика для программистов» от Otus — лучшие практики, после изучения которых вы сможете быстрее изучать новые языки программирования и фреймворки. 👉 Регистрация: https://clck.ru/3Ehjm5?erid=LjN8KGtAh Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

14 053

🎓 Бесплатный курс. "Введение в компьютерное мышление и науку о данных" Массачусетского технологического института ▪Слайды: https://ocw.mit.edu/courses/6-0002-introduction-to-computational-thinking-and-data-science-fall-2016/pages/lecture-slides-and-files/ ▪Видео: https://ocw.mit.edu/courses/6-0002-introduction-to-computational-thinking-and-data-science-fall-2016/video_galleries/lecture-videos/ @data_math

14 053

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь: МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data C++ t.me/cpluspluc Python: t.me/pythonl Linux: t.me/linuxacademiya Хакинг: t.me/linuxkalii Devops: t.me/DevOPSitsec АНАЛИЗ Данных: t.me/data_analysis_ml Javascript: t.me/javascriptv C#: t.me/csharp_ci Java: t.me/javatg Базы данных: t.me/sqlhub Python собеседования: t.me/python_job_interview Мобильная разработка: t.me/mobdevelop Docker: t.me/DevopsDocker Golang: t.me/golang_interview React: t.me/react_tg Rust: t.me/rust_code ИИ: t.me/vistehno PHP: t.me/phpshka Android: t.me/android_its Frontend: t.me/front Big Data: t.me/bigdatai Собеседования МЛ: t.me/machinelearning_interview МАТЕМАТИКА: t.me/data_math Kubernets: t.me/kubernetc Разработка игр: https://t.me/gamedev 💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy 😆ИТ-Мемы: t.me/memes_prog 🇬🇧Английский: t.me/english_forprogrammers 🧠ИИ: t.me/vistehno 🎓954ГБ ОПЕНСОРС КУРСОВ: @courses 📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy

14 053

Конспект лекции Гонконгского университета прикладной линейной алгебры и дифференциальных уравнений 📌 Лекции @data_math

14 053

Repost from Machinelearning

✔️ Ключевые тенденции генеративного ИИ в розничной торговле 2025 года по версии Amazon. В 2025 году ожидается дальнейшее развитие GenAI в ритейле: виртуальные помощники по покупкам, гиперперсонализация и виртуальные примерочные. Виртуальные помощники помогают покупателям с выбором товаров, используя разговорный поиск. Гиперперсонализация, сочетающая ML с GenAI, создает индивидуальные предложения для покупателя, основываясь на истории покупок, данных о товарах и сторонних данных о клиентах. Виртуальные примерочные позволяют "примерить" товары: одежду или мебель, с помощью моделей ИИ, повышая их уверенность в покупке. aws.amazon.com ✔️ Сценарии популярных сериалов использовались для обучения ИИ. Более 139 000 сценариев фильмов и сериалов, среди которых "Клан Сопрано", "Во все тяжкие", "Симпсоны" и "Твин Пикс", были использованы для обучения моделей ИИ. Датасеты, используемые Apple, Anthropic и Nvidia, содержат сценарии всех фильмов, номинированных на премию "Оскар" с 1950 по 2016 год. В набор данных также входят диалоги, написанные для церемоний вручения премии "Золотой глобус" и "Оскар". Многие сценаристы возмущены тем, что их работы были использованы для обучения ИИ, опасаясь, что это приведет к их замене в будущем. movieweb.com ✔️ Только 28% ЦОД готовы к внедрению ИИ. Omnia Strategy Group (OSG) опубликовала отчет о готовности к ИИ, согласно которому только 28% центров обработки данных готовы к внедрению рабочих нагрузок ИИ и предоставлению соответствующих услуг на высоком уровне производительности. Нехватка GPU и высокопроизводительных CPU, недостаточная мощность электросети и ограниченная внутренняя инфраструктура распределения электроэнергии являются одними из основных препятствий. Также проблемой является недостаточная мощность систем охлаждения, нехватка пространства для внедрения жидкостного охлаждения, а также отсутствие внутренних экспертов по ИИ. Несмотря на эти проблемы, 86% предприятий считают, что ИИ изменит глобальную цифровую инфраструктуру, и многие стремятся внедрить ИИ любыми возможными способами. workwithomnia.com ✔️ Spotify интегрируется с Gemini от Google. Spotify объявила о поддержке расширений Gemini от Google, эта интеграция позволит пользователям искать и воспроизводить музыку с помощью голосовых команд на естественном языке. Расширение доступно для совместимых устройств Android. Gemini может воспроизводить музыку по названию песни, имени исполнителя, альбома, плейлиста или для определенного вида деятельности. Если у пользователя уже подключен другой музыкальный сервис, например, YouTube Music, ему необходимо будет указать голосом или текстом, какой сервис должен использовать Gemini. После этого ИИ-ассистент будет по умолчанию использовать последний выбранный сервис. Интеграция доступна только на английском языке и не работает в Google Messages, веб-приложении Gemini или приложении Gemini для iOS. theverge.com ✔️ Исследователи Knostic обнаружили уязвимости в больших языковых моделях. Knostic Inc., разрабатывающая средства контроля доступа к LLM, выявили новую категорию уязвимостей в LLM, которые могут быть использованы злоумышленниками для обхода защитных механизмов и извлечения конфиденциальной информации. Уязвимости, получившие название #noRAGrets, представляют собой два типа атак, которые способны полностью обойти защитные механизмы модели с помощью атаки вида "race condition-like", затрагивая модели ChatGPT и Microsoft Copilot для Microsoft 365. Race condition-like используют особенности времени выполнения операций внутри системы для манипулирования или обхода цензорных механизмов, вызывая непреднамеренное или несанкционированное поведение. Найденные методы, по словам Knostic, выводят джейлбрейк на новый уровень, используя методы синхронизации, позволяющие атакам полностью обходить защитные механизмы и манипулировать внутренней активностью LLM. siliconangle.com @ai_machinelearning_big_data #news #ai #ml

14 053

🎓Как находить мотивацию для обучения и с лёгкостью усваивать новый материал? Расскажет онлайн-тест Яндекс Образования!🚀 В этом тесте нет неправильных ответов — только возможность найти свой уникальный подход к обучению! 💡 Тест пригодится всем, кто чему-то учится или просто стремится к саморазвитию, — школьникам, студентам, взрослым и не только! Благодаря тесту вы: - получите персональные рекомендации, как адаптировать любые учебные процессы под себя; - узнаете, как эффективнее достигать образовательных целей и вдохновляться новыми знаниями; - сможете точнее подбирать программы обучения и лучше организовывать самостоятельную работу. Готовы открыть новые горизонты в учёбе? Тогда начните проходить тест прямо сейчас!

14 053

〰️ Анимация: Производные и интегралы синуса и косинуса образуют единичную окружность http://geogebra.org/u/daniel+mentrard

14 053

✔️ DeepSeek представила модель, превосходящую OpenAI-o1. Компания DeepSeek выпустила R1-Lite-Preview — новую большую языковую модель, ориентированную на рассуждения. Модель, доступная только через веб-чат DeepSeek Chat и демонстрирует производительность, близкую, а в некоторых случаях и превосходящую, модель OpenAI o1-preview по результатам тестов AIME (American Invitational Mathematics Examination) и MATH. R1-Lite-Preview использует метод «цепочки рассуждений», показывая пользователю этапы своего "мыслительного" процесса. Компания планирует в будущем выпустить R1 с открытым исходным кодом. На данный момент подробной технической информации о модели пока нет, однако разработчики обещают вскоре опубликовать как веса модели, так и доступ к API. В настоящее время доступны лишь показатели производительности и графики масштабируемости. Как и в случае с OpenAI, эффективность работы DeepSeek увеличивается пропорционально длине цепочки логических выводов. Кроме того, в отличие от o1, в чате отображаются полные цепочки рассуждений без со venturebeat.com

14 053

⚡️ Прими участие в хакатоне Т1 2024 в Москве и поборись за призовой фонд в 1 200 000 рублей! Когда: 26-29 ноября 2024 Формат: гибридный Призовой фонд: 1 200 000 рублей 🔥 Хакатон Т1 2024 создан для тебя, если ты: – Выпускник вуза или молодой специалист; – Студент старших курсов технических вузов; – Специалист по frontend или backend-разработке, системный аналитик, AI-специалист. ❗️На хакатоне тебе будут предложены 2 кейса: 1. Хаб: объединение данных пользователя в золотую запись. Создайте методику, которая поможет найти "золотую запись" в большом наборе данных, используя признаки актуальности, частоты и полноты. 2. Окно знаний: цифровой ассистент базы знаний. Создайте платформу, которая позволит пользователям разрабатывать окна взаимодействия с ассистентом, интегрируя собственные базы знаний. ▶️ Регистрация открыта! Успей зарегистрироваться до 24 ноября, 23:59 МСК по ссылке.

14 053

🔥 Крутая шпаргалка по машинному обучению! В этой шпаргалке представлен весь мир машинного обучения. На ней выделены следующие ключевые направления: ⭐ Регрессия: OLS, SVM, Random Forest ⭐ Классификация: Naive Bayes, Decision Tree, нейронные сети ⭐ Кластеризация: K-Means, DBSCAN ⭐ Компьютерное зрение: CNN, YOLO, GANs ⭐ NLP/LLM: GPT, BERT, Word2Vec ⭐ Рекомендательные системы, прогнозирование