Математика Дата саентиста
前往频道在 Telegram
@workakkk - админ @data_analysis_ml - ds https://gosuslugi.ru/snet/67b55bb01a1c5a6fb6ecc946
显示更多📈 Telegram 频道 Математика Дата саентиста 的分析概览
频道 Математика Дата саентиста (@data_math) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 14 053 名订阅者,在 技术与应用 类别中位列第 9 190,并在 俄罗斯 地区排名第 47 377 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 14 053 名订阅者。
根据 18 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -62,过去 24 小时变化为 0,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 17.87%。内容发布后 24 小时内通常能获得 6.96% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 2 511 次浏览,首日通常累积 978 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 53。
- 主题关注点: 内容集中在 llm, программирование, параметр, визуализация, stepik 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“@workakkk - админ
@data_analysis_ml - ds
https://gosuslugi.ru/snet/67b55bb01a1c5a6fb6ecc946”
凭借高频更新(最新数据采集于 19 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
14 053
订阅者
无数据24 小时
-47 天
-6230 天
帖子存档
Repost from Machinelearning
🌟 EXAONE 3.5: Набор инструктивных моделей от LG AI.
LG AI Research опубликовала 3 новые инструктивные двуязычные (английский и корейский) модели EXAONE 3.5 с контекстным окном в 32 тыс. токенов:
🟠2.4B – компактная модель для использования на устройствах;,
🟠7.8B – универсальная модель;
🟢32B – высокопроизводительная модель для задач, требующих максимальной эффективности.
Разработчики EXAONE 3.5 улучшили эффективность обучения моделей. На этапе предварительного обучения из наборов данных удалялись дубликаты и личная информация, что позволило повысить качество ответов моделей и оптимизировать использование ресурсов. На этапе постобработки применялись методы SFT и DPO, чтобы улучшить способность моделей понимать инструкции и предпочтения пользователей.
Для повышения надежности оценки производительности EXAONE 3.5 был проведен тщательный процесс деконтаминации. Метод деконтаминации был взят из глобальной модели, а его эффективность оценивалась путем многократного сравнения обучающих данных с тестовыми наборами данных.
К каждой модели, LG AI выпустил квантованные версии в форматах AWQ и GGUF.
⚠️ EXAONE 3.5 - инструктивные модели, поэтому рекомендуется использовать системные промпты, представленные в примере кода инференса.
▶️Пример инференса EXAONE-3.5-7.8B-Instruct на Transformers:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "%Prompt%"
messages = [
{"role": "system", "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
output = model.generate(
input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=128,
do_sample=False,
)
print(tokenizer.decode(output[0]))
📌Лицензирование: EXAONE AI Model License.
🟡Статья
🟡Набор моделей
🟡Demo 7.8B
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #EXAONE #LGIT-инженеры — объединяйтесь! 🤝
Мы собрали огромную базу прикладной информации для IT-инженеров.
Выбирайте, что вам интересно:
— Полупроводники
— Высоконагруженные системы
— Связь и космос
— Промышленный дизайн
— Нейроморфные технологии
— Индустрия 4.0
— Печатные платы
— Технологии мира музыки
📌 Статьи, лекции, подкасты, кейсы из инженерной практики и тематические гайды в одном месте @ultimate_engineer
Repost from Machinelearning
+4
🌟 The Well: Масштабная коллекция физических симуляций для машинного обучения.
The Well – коллекция датасетов для машинного обучения, содержащая 15 ТБ данных численного моделирования различных физических систем. Коллекция состоит из 16 наборов данных из областей: биологии, гидродинамики, акустики, магнитогидродинамики, внегалактических субстанций и взрывы сверхновых.
Данные представлены в унифицированном формате HDF5, организованном в соответствии с общей спецификацией. Они сгенерированы на равномерных сетках и дискретизированы с постоянным временным шагом.
Файлы HDF5 содержат все доступные переменные состояния и пространственно-изменяющиеся коэффициенты в виде массивов NumPy в формате одинарной точности fp32. Доступны скалярные, векторные и тензорные поля, учитывая их различные свойства преобразования.
Каждый файл данных случайным образом разделен на обучающую, тестовую и валидационную выборки в соотношении 8:1:1. Детальное описание каждого набора данных представлено в таблицах, где указаны координатная система, разрешение снимков, количество временных шагов в траектории, общее количество траекторий в наборе данных, размер набора данных, время выполнения симуляций и используемое оборудование.
The Well предоставляет класс
the_well для Python, который позволяет загружать и использовать данные в процессе обучения моделей. Для удобства большинство наборов размещены на Hugging Face, что позволяет получать данные напрямую через интернет.
▶️ Установка и пример использования c HF:
# Create new venv
python -m venv path/to/env
source path/to/env/activate/bin
# Instal from repo
git clone https://github.com/PolymathicAI/the_well
cd the_well
pip install .
# Streaming from Hugging Face
from the_well.data import WellDataset
from torch.utils.data import DataLoader
trainset = WellDataset(
well_base_path="hf://datasets/polymathic-ai/",
well_dataset_name="active_matter",
well_split_name="train",
)
train_loader = DataLoader(trainset)
for batch in train_loader:
...
📌Лицензирование кода : BSD-3-Clause License.
📌Лицензирование датасетов : CC-BY-4.0 License.
🟡Страница проекта
🟡Коллекция на HF
🟡Demo
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Dataset #TheWell🎓 Парадоксы теории вероятностей
Лекции: ВМК МГУ. Ульянов В.В.
👉источник
@data_math
🔥17 декабря в 20.00 мск приглашаем на открытый урок "Алгоритмы с подкреплением в стохастических играх" курса Reinforcement Learning, на котором:
- Вспомним о теории игр и равновесии Нэша;
- Поговорим о том какие алгоритмы обучения с подкреплением применимы к стохастическим играм;
- Реализуем один из них в коде и обучим наших агентов взаимодействовать друг с другом.
Участники вебинара получат ноутбук с кодом практического примера реализации алгоритма и поймут как запустить его в игровой среде.
👉Регистрация: https://clck.ru/3Ep2Fs?erid=LjN8KGnTh
Встречаемся в преддверии старта курса «Reinforcement Learning» в OTUS.
Обучение позволит применять алгоритмы RL для решения разнообразных задач в реальном мире, включая игровую индустрию, робототехнику, управление энергетическими системами и управление финансовым портфелем.
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🎓 Конспекты курса Гарвардского университета "Продвинутый комплексный анализ"
PDF: https://people.math.harvard.edu/~ctm/papers/home/text/class/harvard/213a/course.pdf
@data_math
📊 Игры хаоса. Фракталы
Насколько красивым и упорядоченным может быть хаос! Как нарисовать целый лес деревьев и растений, используя пару правил?
Теория хаоса, фракталы, аттракторы и подкрученные игровые кости – все это в новом переводе ролика от Numberphile.
@data_math
Как готовить данные для анализа с помощью ETL?
Чтобы освоить основы инжиниринга данных регистрируйтесь на бесплатный вебинар от Simulative 💬
Спикер Даниил Джепаров, lead analytics engineer в Сравни.ру, расскажет о том, как извлекать данные из разных источников, а затем преобразовывать и загружать их в хранилище.
Вы узнаете:
🟡 Что такое ETL и как он работает
🟡 Какие есть различия между пакетной и потоковой обработкой
🟡 Какие виды документации используют в дата-проектах
🟡 Как оценивать и поддерживать высокое качество данных
🟡 Как мониторить ETL-процессы
В конце вебинара вас ждет бонус от спикера — дорожная карта для аналитиков и инженеров с планом развития на middle-позицию 🎁
Встречаемся 4 декабря в 19:00 по мск. Успейте присоединиться по ссылке.
Конспекты курса "Математический анализ 1 для отличников"
PDF: https://math.uwaterloo.ca/~baforres/UCM137/CourseNotes/Forrest_M137CN.pdf
@data_math
Repost from Machinelearning
+3
🌟 OLMo 2: Новое поколение полностью открытых языковых моделей.
OLMo 2 - серия открытых языковых моделей, созданная для развития науки о языковых моделях .
Модели OLMo 2 доступны в вариантах 7B и 13B параметров и обучены на массиве данных объемом 5 трлн. токенов. Они демонстрируют производительность, сопоставимую или превосходящую аналогичные по размеру полностью открытые модели на английских академических тестах.
Разработчики OLMo 2 уделили особое внимание стабильности обучения, используя методы RMSNorm, QK-Norm, Z-loss регуляризация и улучшенная инициализация.
Обучение проводилось в 2 этапа. На первом этапе модели обучались на датасете OLMo-Mix-1124 (3,9 трлн. токенов). На втором этапе использовался специально подобранный набор данных Dolmino-Mix-1124 (843 млрд. токенов), состоящий из веб-данных, материалов из академических источников, форумов вопросов и ответов, инструкций и математических задачников. Для объединения моделей, обученных на разных подмножествах данных, применялся метод "model souping".
Для оценки OLMo 2 была разработана система OLMES (Open Language Modeling Evaluation System) из 20 тестов для измерения способностей модели. OLMo 2 превзошел предыдущую версию OLMo 0424 по всем задачам и показал высокую эффективность по сравнению с другими открытыми моделями.
▶️Набор моделей OLMo 2:
🟢Базовые модели: OLMo-2-1124-7B и OLMo-2-1124-13B
🟠GGUF-версии: OLMo-2-1124-7B-GGUF и OLMo-2-1124-13B-GGUF
🟢Инструктивные версии: OLMo-2-1124-7B-Instruct и OLMo-2-1124-13B-Instruct
🟠DPO-версии: OLMo-2-1124-7B-DPO и OLMo-2-1124-13B-DPO
🟠SFT-версии: OLMo-2-1124-7B-SFT и OLMo-2-1124-13B-SFT
🟠Reward Model - версия OLMo-2-1124-7B-RM
▶️Пример инференса OLMo-2-7B c HF Transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-1124-7B")
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-2-1124-7B")
message = ["Language modeling is "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
# optional verifying cuda
# inputs = {k: v.to('cuda') for k,v in inputs.items()}
# olmo = olmo.to('cuda')
response = olmo.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #OLMo2❓Зачем программисту нужна математика?
Многие считают, что если предметная область не требует знаний математики, то она не нужна. Тем не менее существуют много фундаментальных ограничений, прямо вытекающих из математической теории, которые оказывают непосредственное влияние на код.
✅ Приглашаем вас на открытый урок «Распространенные заблуждения в программировании или чем может помочь математика»
Покажем как математика позволяет давать ответы на запутанные вопросы и улучшать понимание программирования и качество кода.
Урок посвящен курсу «Математика для программистов» от Otus — лучшие практики, после изучения которых вы сможете быстрее изучать новые языки программирования и фреймворки.
👉 Регистрация: https://clck.ru/3Ehjm5?erid=LjN8KGtAh
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🎓 Бесплатный курс. "Введение в компьютерное мышление и науку о данных" Массачусетского технологического института
▪Слайды: https://ocw.mit.edu/courses/6-0002-introduction-to-computational-thinking-and-data-science-fall-2016/pages/lecture-slides-and-files/
▪Видео: https://ocw.mit.edu/courses/6-0002-introduction-to-computational-thinking-and-data-science-fall-2016/video_galleries/lecture-videos/
@data_math
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/golang_interview
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy
Конспект лекции Гонконгского университета прикладной линейной алгебры и дифференциальных уравнений
📌 Лекции
@data_math
Repost from Machinelearning
✔️ Ключевые тенденции генеративного ИИ в розничной торговле 2025 года по версии Amazon.
В 2025 году ожидается дальнейшее развитие GenAI в ритейле: виртуальные помощники по покупкам, гиперперсонализация и виртуальные примерочные.
Виртуальные помощники помогают покупателям с выбором товаров, используя разговорный поиск. Гиперперсонализация, сочетающая ML с GenAI, создает индивидуальные предложения для покупателя, основываясь на истории покупок, данных о товарах и сторонних данных о клиентах. Виртуальные примерочные позволяют "примерить" товары: одежду или мебель, с помощью моделей ИИ, повышая их уверенность в покупке.
aws.amazon.com
✔️ Сценарии популярных сериалов использовались для обучения ИИ.
Более 139 000 сценариев фильмов и сериалов, среди которых "Клан Сопрано", "Во все тяжкие", "Симпсоны" и "Твин Пикс", были использованы для обучения моделей ИИ. Датасеты, используемые Apple, Anthropic и Nvidia, содержат сценарии всех фильмов, номинированных на премию "Оскар" с 1950 по 2016 год.
В набор данных также входят диалоги, написанные для церемоний вручения премии "Золотой глобус" и "Оскар". Многие сценаристы возмущены тем, что их работы были использованы для обучения ИИ, опасаясь, что это приведет к их замене в будущем.
movieweb.com
✔️ Только 28% ЦОД готовы к внедрению ИИ.
Omnia Strategy Group (OSG) опубликовала отчет о готовности к ИИ, согласно которому только 28% центров обработки данных готовы к внедрению рабочих нагрузок ИИ и предоставлению соответствующих услуг на высоком уровне производительности.
Нехватка GPU и высокопроизводительных CPU, недостаточная мощность электросети и ограниченная внутренняя инфраструктура распределения электроэнергии являются одними из основных препятствий. Также проблемой является недостаточная мощность систем охлаждения, нехватка пространства для внедрения жидкостного охлаждения, а также отсутствие внутренних экспертов по ИИ.
Несмотря на эти проблемы, 86% предприятий считают, что ИИ изменит глобальную цифровую инфраструктуру, и многие стремятся внедрить ИИ любыми возможными способами.
workwithomnia.com
✔️ Spotify интегрируется с Gemini от Google.
Spotify объявила о поддержке расширений Gemini от Google, эта интеграция позволит пользователям искать и воспроизводить музыку с помощью голосовых команд на естественном языке. Расширение доступно для совместимых устройств Android.
Gemini может воспроизводить музыку по названию песни, имени исполнителя, альбома, плейлиста или для определенного вида деятельности. Если у пользователя уже подключен другой музыкальный сервис, например, YouTube Music, ему необходимо будет указать голосом или текстом, какой сервис должен использовать Gemini. После этого ИИ-ассистент будет по умолчанию использовать последний выбранный сервис. Интеграция доступна только на английском языке и не работает в Google Messages, веб-приложении Gemini или приложении Gemini для iOS.
theverge.com
✔️ Исследователи Knostic обнаружили уязвимости в больших языковых моделях.
Knostic Inc., разрабатывающая средства контроля доступа к LLM, выявили новую категорию уязвимостей в LLM, которые могут быть использованы злоумышленниками для обхода защитных механизмов и извлечения конфиденциальной информации.
Уязвимости, получившие название
#noRAGrets, представляют собой два типа атак, которые способны полностью обойти защитные механизмы модели с помощью атаки вида "race condition-like", затрагивая модели ChatGPT и Microsoft Copilot для Microsoft 365.
Race condition-like используют особенности времени выполнения операций внутри системы для манипулирования или обхода цензорных механизмов, вызывая непреднамеренное или несанкционированное поведение. Найденные методы, по словам Knostic, выводят джейлбрейк на новый уровень, используя методы синхронизации, позволяющие атакам полностью обходить защитные механизмы и манипулировать внутренней активностью LLM.
siliconangle.com
@ai_machinelearning_big_data
#news #ai #ml🎓Как находить мотивацию для обучения и с лёгкостью усваивать новый материал? Расскажет онлайн-тест Яндекс Образования!🚀
В этом тесте нет неправильных ответов — только возможность найти свой уникальный подход к обучению! 💡 Тест пригодится всем, кто чему-то учится или просто стремится к саморазвитию, — школьникам, студентам, взрослым и не только!
Благодаря тесту вы:
- получите персональные рекомендации, как адаптировать любые учебные процессы под себя;
- узнаете, как эффективнее достигать образовательных целей и вдохновляться новыми знаниями;
- сможете точнее подбирать программы обучения и лучше организовывать самостоятельную работу.
Готовы открыть новые горизонты в учёбе? Тогда начните проходить тест прямо сейчас!
〰️ Анимация: Производные и интегралы синуса и косинуса образуют единичную окружность
http://geogebra.org/u/daniel+mentrard
✔️ DeepSeek представила модель, превосходящую OpenAI-o1.
Компания DeepSeek выпустила R1-Lite-Preview — новую большую языковую модель, ориентированную на рассуждения. Модель, доступная только через веб-чат DeepSeek Chat и демонстрирует производительность, близкую, а в некоторых случаях и превосходящую, модель OpenAI o1-preview по результатам тестов AIME (American Invitational Mathematics Examination) и MATH.
R1-Lite-Preview использует метод «цепочки рассуждений», показывая пользователю этапы своего "мыслительного" процесса. Компания планирует в будущем выпустить R1 с открытым исходным кодом.
На данный момент подробной технической информации о модели пока нет, однако разработчики обещают вскоре опубликовать как веса модели, так и доступ к API. В настоящее время доступны лишь показатели производительности и графики масштабируемости. Как и в случае с OpenAI, эффективность работы DeepSeek увеличивается пропорционально длине цепочки логических выводов. Кроме того, в отличие от o1, в чате отображаются полные цепочки рассуждений без со
venturebeat.com
⚡️ Прими участие в хакатоне Т1 2024 в Москве и поборись за призовой фонд в 1 200 000 рублей!
Когда: 26-29 ноября 2024
Формат: гибридный
Призовой фонд: 1 200 000 рублей
🔥 Хакатон Т1 2024 создан для тебя, если ты:
– Выпускник вуза или молодой специалист;
– Студент старших курсов технических вузов;
– Специалист по frontend или backend-разработке, системный аналитик, AI-специалист.
❗️На хакатоне тебе будут предложены 2 кейса:
1. Хаб: объединение данных пользователя в золотую запись. Создайте методику, которая поможет найти "золотую запись" в большом наборе данных, используя признаки актуальности, частоты и полноты.
2. Окно знаний: цифровой ассистент базы знаний. Создайте платформу, которая позволит пользователям разрабатывать окна взаимодействия с ассистентом, интегрируя собственные базы знаний.
▶️ Регистрация открыта! Успей зарегистрироваться до 24 ноября, 23:59 МСК по ссылке.
🔥 Крутая шпаргалка по машинному обучению!
В этой шпаргалке представлен весь мир машинного обучения. На ней выделены следующие ключевые направления:
⭐ Регрессия: OLS, SVM, Random Forest
⭐ Классификация: Naive Bayes, Decision Tree, нейронные сети
⭐ Кластеризация: K-Means, DBSCAN
⭐ Компьютерное зрение: CNN, YOLO, GANs
⭐ NLP/LLM: GPT, BERT, Word2Vec
⭐ Рекомендательные системы, прогнозирование
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
