Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 212 名订阅者,在 技术与应用 类别中位列第 2 666,并在 俄罗斯 地区排名第 12 538 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 212 名订阅者。
根据 18 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 10,过去 24 小时变化为 7,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.77%。内容发布后 24 小时内通常能获得 6.56% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 404 次浏览,首日通常累积 3 295 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 19 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 212
订阅者
+724 小时
+227 天
+1030 天
帖子存档
⭐️А вы знали, что можно легко преобразовать репозиторий GitHub для работы с LLM?
В мире современных технологий, где искусственный интеллект и машинное обучение становятся всё более распространёнными, важно уметь эффективно использовать доступные инструменты.
Одним из таких инструментов является возможность работы с репозиториями на GitHub для обучения и взаимодействия с языковыми моделями (LLM).
👾👾Как это сделать?
Если вы хотите адаптировать репозиторий GitHub для работы с LLM, вам нужно лишь внести небольшое изменение в URL.
Вместо стандартного адреса с «hub» замените его на «ingest».
Это простое действие позволит вам интегрировать данные из репозитория в ваши модели, что значительно упростит процесс обработки и анализа информации.
🤖Пример
Предположим, у вас есть URL репозитория:
https://github.com/username/repository
Чтобы преобразовать его для работы с LLM, просто замените «hub» на «ingest»:
https://gitingest.com/username/repository
Теперь вы можете использовать этот новый адрес для загрузки данных и обучения вашей модели.
👍🏻👍🏻👍🏻
@data_analysis_ml+2
✔️ ИИ от DeepMind превосходит золотых медалистов Международной математической олимпиады в решении задач по геометрии. ИИ AlphaGeometry2, улучшенная версия системы AlphaGeometry, превзошла среднего золотого медалиста в решении задач по геометрии на международном математическом конкурсе.
DeepMind утверждает, что их ИИ может решить 84% всех олимпиадных задач по геометрии за последние 25 лет. AlphaGeometry2 состоит из языковой модели из семейства Gemini и "символьного движка".
Модель Gemini помогает символьному движку, который использует математические правила для вывода решений задач, приходить к возможным доказательствам для целевой теоремы. AlphaGeometry2 считает проблему "решенной", когда приходит к доказательству, которое объединяет предположения Gemini с принципами символьного движка.
DeepMind создала свои собственные синтетические данные для обучения AlphaGeometry2, сгенерировав более 300 миллионов теорем и доказательств различной сложности.
🔗 techcrunch.com
Repost from Machinelearning
✔️ Mistral AI обновила Le Chat: быстрый инференс, мобильные приложения и новые тарифы.
Главное в обновлении - новая функция "Flash Answers", которая генерирует ответы со скоростью до 1000 слов в секунду. Mistral AI утверждает, что это делает Le Chat самым быстрым AI-ассистентом на данный момент.
Обновление включает в себя интерпретатор кода с возможностью его запуска, возможность научного анализа статей и создание визуализаций. За генерацию изображений в сервисе отвечает модель Flux Ultra от Black Forest Labs.
Mistral также презентовал новую структуру ценообразования с 4 тарифными планами: бесплатный базовый план, план Pro за $14.99 в месяц, план Team за $24.99 в месяц на пользователя и план Enterprise с индивидуальным ценообразованием для крупных организаций. Le Chat теперь доступен на iOS и Android.
mistral.ai
✔️ OpenAI планирует выпуск устройства на базе ChatGPT.
OpenAI подтвердила разработку потребительского устройства на базе ChatGPT. По словам Сэма Альтмана, компания планирует разрабатывать его в сотрудничестве с несколькими компаниями, предполагая, что голосовой ввод станет основным способом взаимодействия.
Поскольку над дизайном работает Джони Айв, бывший дизайнер Apple, ожидается, что устройство будет обладать привлекательным внешним видом. Конфиденциальность также является ключевым моментом, особенно если устройство будет оснащено камерами и микрофонами.
techradar.com
✔️ Google смягчает ограничения на использование ИИ в оборонных контрактах.
Google пересмотрела свои этические принципы в отношении ИИ, отменив прежний запрет на использование его в оружии и системах наблюдения. Компания объясняет это решение растущей глобальной конкуренцией за лидерство в сфере ИИ. В новой редакции принципов акцент делается на человеческом контроле и тестировании, чтобы обеспечить соответствие международному праву и правам человека и минимизировать непреднамеренные или вредные последствия.
Другие крупные ИИ-вендоры - OpenAI, Anthropic и Microsoft уже начали сотрудничество с оборонными подрядчиками или предоставляют свои технологии американским военным.
washingtonpost.com
✔️ Microsoft представила методы низкобитного квантования для развертывания LLM на периферийных устройствах.
Методы, предложенные Microsoft - это: компилятор типов данных Ladder, библиотека T-MAC mpGEMM и аппаратная архитектура LUT Tensor Core.
Ladder преобразует неподдерживаемые форматы данных в аппаратно-совместимые представления, библиотека T-MAC mpGEMM оптимизирует вычисления смешанной точности, используя метод на основе таблицы поиска (LUT), а архитектура LUT Tensor Core представляет собой специализированный ускоритель, предназначенный для низкобитного квантования.
Их совокупность позволяет LLM эффективно работать на широком спектре оборудования, от ноутбуков до маломощных IoT-устройств. В тестах библиотека T-MAC достигла 48 токенов в секунду для модели 3B BitNet-b1.58 на Surface Laptop 7 и 11 токенов в секунду на Raspberry Pi 5.
microsoft.com
✔️ Inspira Technologies разработала датчик оксигенации на базе ИИ.
Израильская компания Inspira Technologies OXY анонсировала интеграцию кислородного индикатора нового поколения в свою технологию HYLA на базе искусственного интеллекта, которая изменит неотложную помощь, обеспечив мониторинг оксигенации тканей в реальном времени без традиционного забора крови. Индикатор на базе ИИ предназначен для непрерывного мониторинга уровня кислорода для раннего выявления гипоксии и других респираторных осложнений.
Сейчас датчики HYLA проходят клиническую проверку в медицинском центре Sheba, и Inspira ожидает, что вскоре будут опубликованы предварительные результаты, а подача в FDA для получения разрешения регулирующих органов ожидается во второй половине 2025 года.
prnewswire.com
✔️ SMOL-GPT
Простая реализация PyTorch для обучения вашего собственного LLM с нуля. Репозитория создан для образовательных целей изучения больших языковых моделей на практике.
Github
✔️ SYNTHETIC-1: новый крупнейший синтетический датасет, состоящий из 1,4 млн задач, охватывающих математику, код, науку.
Dataset
#news #ai #ml
Хочешь обучить нейронку, но не хватает локальных мощностей? На новую видеокарту не хватает денег? Зачем покупать, когда можно арендовать!
immers.cloud — это облачный сервис, предоставляющий доступ к мощным видеокартам для самых различных задач.
💰 Экономия: тарифы от 23 рублей/час, оплата только за фактическое время использования
⚡️ Быстрый старт: видеокарты и серверы готовы к работе за пару минут
📈 Гибкость и масштабирование до любой конфигурации: 11 видеокарт на выбор
🔧 Удобство:готовые образы для ML задач, чтобы не тратить время на настройку
🎁 Подготовили приятный бонус для тебя: +20% к пополнению баланса
🐼 Pandas умирает медленной и мучительной смертью.
Это самая популярная в мире библиотека обработки данных, но она медленная, и многие библиотеки значительно превзошли ее.
Проблема альтернатив Pandas в том, что никто не хочет изучать новый API.
Давайте посмотрим правде в глаза: люди не будут переносить свои проекты, га другие фреймворки, без особой причины.
Я уже давно работаю с FireDucks 🦆
Эта библиотека в разы быстрее Pandas, и вам не придется менять код старых проектов для перехода на нее.
Вы можете изменить *одну* строку кода и весь остальной код будет работать на FireDucks :
import fireducks.pandas as pd
Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:
python $ python -mfireducks.imhook yourfile[.]pyFireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API. Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks. FireDucks побеждает с отрывом. ⛓️Здесь находится репозиторий FireDucks на GitHub: https://github.com/fireducks-dev/fireducks ⛓️Если вы хотите пощупать либу, откройте этот пример: https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo ⛓️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот: https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb ⛓️И наконец, бенчмарки, с которыми стоит ознакомиться: https://fireducks-dev.github.io/docs/benchmarks/ @pythonl #fireducks #Pandas #dataanalysis #datascience #python #opensource
📱 Гайд: Как правильно пользоваться думающими ИИ
В этом гайде рассказывается о тонкостях работы с современными ИИ-моделями, которые способны «думать». Автор делится практическими советами, как взаимодействовать с такими системами, чтобы извлекать максимум пользы из их возможностей.
Что вы узнаете?
— Как правильно формулировать запросы для получения точных и полезных ответов.
— Ошибки, которых стоит избегать при работе с ИИ.
— Подходы к оптимизации взаимодействия с «думающими» моделями.
⛓️ Ссылка на гайд
@data_analysis_ml
Приглашаем аналитиков на дружескую встречу в Яндексе!
15 февраля в штаб-квартире Яндекса «Красная Роза» команды Алисы и Автономного Транспорта поделятся своим опытом и расскажут:
- Как живет аналитика в Алисе, Умных Устройствах и умном доме
- Как устроена аналитика технологий в Автономном Транспорте и в роботе-доставщике
После основной части можно будет отправиться на экскурсию по офису, пройти диагностику навыков и задать все интересующие вопросы.
➡️Мы ждем аналитиков с опытом на Python от 3 лет. Успейте зарегистрироваться до 13 февраля!
До встречи!
🤖 Как гуманоидные роботы могут общаться не используя слов?
🚀 Новые исследования в области взаимодействия человека и робота!
Как человекоподобные роботы могут общаться не только словами? Фреймворк EMOTION использует большие языковые модели (LLM) для динамической генерации выразительных жестов, улучшая невербальную коммуникацию роботов.
EMOTION способен принимать фидбек от людей для совершенствования коммуникации (EMOTION++)
📜 Читайте полный текст статьи: https://arxiv.org/abs/2410.23234
🎬 Видео: https://machinelearning.apple.com/research/emotion-expressive-motion
⭐️ Simple GRPO
Вы можете запустить GRPO (Group Relative Policy Optimization - основной алгоритм Deepseek r1), для моделей на 8b параметров на GPU стоимостью 10 долл/ч.
4xH100 достаточно для тренировки Llama 3.1 8b и алгоритм прекрасно работает.
▪ Код: https://github.com/minosvasilias/simple_grpo
@data_analysis_ml
#gpro #deepseek #reasoning
Repost from Machinelearning
⚡️ Обновления от Google для семейства моделей Gemini:
- На Арене Gemini-2.0-Pro занимает 1-е место во всех категориях
- Gemini-2.0-Flash- 3-место в Кодине, математике и категории «Hard Prompts»
- Gemini-2.0-Flash топ-3 в категориях
- Gemini 2.0 Flash-Lite в топ-10 по всем категориям.
Доступ:
-Gemini 2.0 Flash теперь дотсупна всем.
-Gemini 2.0 Pro Experimental доступна в AI Studio и Vertex AI
-Gemini 2.0 Flash-Lite доступна части пользователей
https://developers.googleblog.com/en/gemini-2-family-expands/
@ai_machinelearning_big_data
#Gemini #google #deepmind #Gemini2
🖥 pytorch-cpp-cuda-starter
Cтартовый пакет работы с Pytorch на C/C++ с поддержкой CUDA.
▪ Github
#cpp #python #cuda #nvidia #opensource
✔ Spaces: The AI App Directory
Магазин приложений AI на HF
Выложено примерно 400 тыс. приложений, это лучшее место для поиска нужных вам ИИ-интсрументов.
Разработчики могут создавать приложения, пользователи могут тестировать их и находить новые приложения с помощью поиска на основе искусственного интеллекта.
https://huggingface.co/spaces
#hf #ai #spaces #aiapps #ml
⚡️ Китай наносит новый удар. 🔥
ByteDance выпустила OmniHuman-1, модель для создания реалистичных видео на основе одного изображения.
OmniHuman-1 - работает на основе диффузионного преобразования, которая генерирует высокореалистичные видео на основе изображения и аудио/видео.
В модели реализовано обучение с учетом всех условий окружения, что позволяет масштабировать генерацию, создавать связанные с движением и значительно повысить реалистичность жестов и движений тела.
В отличие от предыдущих моделей, ограниченных лицевой или статичной анимацией тела, OmniHuman-1 поддерживает различные соотношения сторон, сложные взаимодействия человека и объектов вокруг.
Она превосходит существующие методы по реалистичности, достигая высокой точности синхронизации губ, точности жестов и выразительности лица.
→ Модель построена на архитектуре DiT (Diffusion Transformer), поддерживает мультимодальность.
→ Превосходит конкурентов (например, Loopy, CyberHost, DiffTED) по точности синхронизации губ (5,255 против 4,814), FVD (15,906 против 16,134) и выразительности жестов, при этом поддерживая различные пропорции тела в одной модели.
https://huggingface.co/papers/2502.01061
⚡️ OpenDeepResearcher
Реализация ИИ-ресерчера, который непрерывно ищет информацию по запросу пользователя, пока система не убедится, что собрала все необходимые данные.
Для этого он использует несколько сервисов:
- SERPAPI: Для выполнения поиска в Google.
- Jina: Для получения и извлечения содержимого веб-страниц.
- OpenRouter (модель по умолчанию: anthropic/claude-3.5-haiku): Взаимодействует с LLM для генерации поисковых запросов, оценки релевантности страниц и извлечения контекста.
Функции
- Итеративный цикл исследования: Система итеративно уточняет свои поисковые запросы.
- Асинхронная обработка: Поиск, парсинг веб-страниц и оценка контекста, - выполняются параллельно для повышения скорости.
- Фильтрация дубликатов: Агрегирует и дедуплицирует ссылки в каждом цикле, проверяя, что одна и та же ссылка не будет обработана дважды.
▪ Github
@data_analysis_ml
Repost from Machinelearning
✔️ Защитный щит Anthropic против взлома LLM.
Anthropic разработала новый метод защиты LLM от джейлбрейк-атак, который не исправляет сами модели, а блокирует попытки взлома, не допуская нежелательных ответов.
Для создания защитного экрана компания сгенерировала датасет вопросов и ответов и перевела их на несколько языков, переписала в стиле запросов, которые используются хакерами.
Чтобы проверить эффективности экрана, Anthropic провела конкурс, где 183 участника более 3000 часов пытались обмануть Claude, но никто не смог получить ответ на более чем на 5 из 10 запрещенных вопросов. Затем провели второй тест, где 10 000 джейлбрейков, созданных LLM, были направлены на защитный экран. Пробить его смогли только 4,4% запросов, а без использования экрана - 86%. Есть минус - система защиты может блокировать безобидные вопросы и увеличивает вычислительные затраты.
technologyreview.com
✔️ ИИ приближает возможность самовосстанавливающегося асфальта.
Ученые из Университета Суонси и Королевского колледжа Лондона в сотрудничестве с коллегами из Чили объявили о планах по разработке самовосстанавливающихся асфальтовых дорог из биомассы с использованием ИИ.
Исследования показали, что можно обратить вспять процесс растрескивания битума, чтобы «сшить» асфальт обратно. Для создания «самовосстанавливающегося» асфальта команда добавила крошечные пористые материалы - споры, заполненные переработанным растительным маслом. При появлении микротрещин масло высвобождается из спор, чтобы заполнить трещины и предотвратить окисление битума, которое приводит к образованию выбоин. Лабораторные эксперименты показали, что биоспоровые микрокапсулы полностью залечивали трещины в образце состаренного битума за 50 минут. Исследования стали возможны благодаря ML, которое применялось для изучения органических молекул в сложных вязких субстанциях.
highwaysmagazine.co.uk
✔️ DeepSeek блокируют по всему миру из-за опасений по поводу безопасности данных.
Растет число стран и правительственных органов которые запретили использование моделей DeepSeek, выразив обеспокоенность по поводу этики, конфиденциальности и безопасности компании. Согласно политике DeepSeek, все данные пользователей хранятся в Китае, где местные законы требуют от организаций делиться данными с спецслужбами по запросу.
Италия стала одной из первых стран, запретивших DeepSeek после расследования комитетом по защите конфиденциальности. Тайвань запретил использование DeepSeek в гос.учреждениях из-за риска утечки информации. Конгресс США, Министерство обороны США, НАСА и и штат Техас также запретили использовать технологии DeepSeek, сославшись на потенциальные угрозы безопасности.
techcrunch.com
✔️ ИИ разрабатывает компьютерные чипы, которые человеческий разум не может понять.
CNN, разработанная в Принстонском университете, спроектировала беспроводные чипы, которые превосходят существующие аналоги. Нейронная сеть пользовалась методикой реверсивного инжиниринга - она проанализировала желаемые свойства чипа и создала его его в обратном порядке. Инженеры не смогли объяснить, как работают эти чипы, что может привести к проблемам с их ремонтом и сделать их одноразовыми.
popularmechanics.com
✔️ Google Cloud представляет новые виртуальные машины A4 на базе NVIDIA B200 для ИИ.
Google Cloud анонсировала предварительный показ новых виртуальных машин A4, оснащенных NVIDIA Blackwell B200. Каждая A4 VM имеет 8 GPU Blackwell, соединенных NVLink пятого поколения, что обеспечивает двухкратное увеличение производительности по сравнению с A3 High VM предыдущего поколения.
A4 VMs подходят для обучения и тонкой настройки различных архитектур моделей и используют сетевой адаптер Titanium ML, который предоставляет неблокирующую передачу данных между GPUs со скоростью 3,2 Тбит/с.
Google предлагает различные модели потребления - Dynamic Workload Scheduler с режимами Flex Start и Calendar для различных рабочих нагрузок.
cloud.google.com
✔️ Goedel-Prover: 7B LLM - новая SOTA по производительности в доказательстве теорем! 1-е место в таблице лидеров PutnamBench.
▪Blog ▪Github
#news #ai #ml
🔥 DeepSeek Code Companion — это локальный чат-бот для помощи в программировании, основанный на модели DeepSeek-R1!
🌟 Он предоставляет функции отладки кода, генерации документации и разработки решений, при этом работает полностью офлайн, что обеспечивает конфиденциальность данных. Взаимодействие с ботом осуществляется через Gradio, предоставляя удобный веб-интерфейс.
🖥 Github
@data_analysis_ml
1–2 марта проводим Weekend Offer Analytics
Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 2 лет на Python, готовых работать в офисном или гибридном режиме на территории России.
Подавайте заявку до 24 февраля — и всего за 2 дня пройдите все технические собеседования. После сможете пообщаться с одиннадцатью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер.
Узнать подробности и зарегистрироваться.
Реклама. ООО "Яндекс". ИНН 7736207543
🔥 Это - подробное руководство по запуску модели DeepSeek-R1 с 671 миллиардами параметров в динамически квантованной версии 1,58-бит (сжатой до 131 ГБ) с использованием Llama.cpp!
🌟 Благодаря усилиям команды UnslothAI, эта оптимизированная модель может быть запущена на персональных компьютерах без необходимости в мощных серверных ресурсах, хотя производительность на потребительском оборудовании может быть ограничена.
🔗 Ссылка: *клик*
@data_analysis_ml
⭐️ R1-V
Усиление способности к сверхобобщению в моделях языка зрения при затратах менее $3.
Модель 2B превосходит модель 72B в тестах OOD всего за 100 шагов обучения.
▪ Github
@data_analysis_ml
#ml #ai #datascience
🔥 DocETL — это инструмент с открытым исходным кодом, предназначенный для создания и выполнения ETL-процессов (извлечение, преобразование и загрузка данных), особенно подходящий для сложных задач обработки документов!
🌟 Он предлагает интерактивный пользовательский интерфейс под названием DocWrangler, который помогает разработчикам итеративно разрабатывать конвейеры обработки данных, экспериментировать с различными запросами и пошагово строить свои процессы. После завершения разработки конвейера его конфигурацию можно экспортировать для использования в производственной среде.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
