Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 538 Технологии и приложения2 666...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 224 подписчиков, занимая 2 666 место в категории Технологии и приложения и 12 538 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 224 подписчиков.

Согласно последним данным от 18 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 10, а за последние 24 часа — 7, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.77%. В первые 24 часа после публикации контент обычно набирает 6.56% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 404 просмотров. В течение первых суток публикация набирает 3 295 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 30.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 19 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 224

Подписчики

+724 часа

+227 дней

+1030 день

4 404

Просмотры поста

~ 3 29524 часа

~ 4 33648 часов

8.77%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 224

📊 FinGPT — финансово-ориентированная платформа, построенная на LLM! 🌟 Она предназначена для анализа данных из финансовой отрасли с использованием моделей GPT, включая автоматизацию анализа новостей, обработки данных и поддержки принятия решений. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 224

🔥 Phi-4 - новая блестящая работа Microsoft Модель с параметрами 14B работает наравне с GPT-4o-mini и недавно выпущенной Llama-3.3-70B. → Модель достигает точности 91,8% при решении математических задач AMC 10/12, превосходя Gemini Pro 1.5 и другие более крупные модели. 📌 Инновация в области данных Инженеры Microsoft разработали сложные методы генерации синтетических данных, которые выходят за рамки традиционных подходов к предварительному обучению. → Возможности математического анализа Модель демонстрирует особую эффективность при решении сложных математических задач, что свидетельствует о расширенных возможностях символьного анализа и логического вывода → Инновации обучения: новые методы, такие как поиск ключевых токенов (PTS) в DPO. 🛡️ Первоначальный выпуск был ограничен платформой Azure AI Foundry в рамках лицензионного соглашения Microsoft Research https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft%E2%80%99s-newest-small-language-model-specializing-in-comple/4357090

50 224

Repost from Machinelearning

✔️ OpenAI расширяет возможности голосового режима ChatGPT. OpenAI представила обновленный голосовой режим ChatGPT, который теперь поддерживает функции демонстрации экрана и распознавания изображений. Благодаря этому ChatGPT может анализировать контекст происходящего на экране смартфона или компьютера и давать более точные инструкции. Русский язык - поддерживается. Обновленный голосовой режим уже доступен в мобильных приложениях для пользователей Team, а также для большинства подписчиков Pro и Plus. В ближайшее время функция станет доступна для европейских пользователей Pro и Plus, а в начале следующего года - для пользователей Enterprise и Edu. openai.com ✔️ Midjourney представила Patchwork, инструмент для создания миров. Patchwork – это бесконечное полотно, поддерживаемое искусственным интеллектом, которое позволяет создавать миры как персонально, так и совместно. С помощью этого инструмента можно развить расплывчатые идеи в полноценные истории, а также создавать необычные визуальные новеллы из изображений и текста. В будущем Midjourney планирует сделать персонажей, миры и другие материалы, созданные в Patchwork, совместимыми с другими приложениями для сторителлинга. Это позволит, например, оживить персонажей в интерактивных сеттингах и редактировать текст истории с помощью новых интерфейсов для творческого письма. updates.midjourney.com ✔️ Fujitsu представила 144-ядерный процессор Monaka для центров обработки данных. Fujitsu представила прототип своего нового процессора Monaka, разработанного на архитектуре Armv9 и предназначенного для использования в центрах обработки данных. Процессор включает 144 ядра, распределенных по четырем 36-ядерным чиплетам, изготовленным по 2-нм техпроцессу TSMC. Чиплеты расположены поверх SRAM-плиток, произведенных по 5-нм техпроцессу, и соединены с ними с помощью гибридной медной связи. Monaka также оснащен контроллером памяти DDR5, интерфейсом PCIe 6.0 с CXL 3.0 для подключения ускорителей. Ожидается, что Monaka будет доступен в 2027 финансовом году. tomshardware.com ✔️ Ученые предлагают создать виртуальные клетки тканей человека с помощью ИИ. Группа исследователей из Стэнфордского университета, Genentech и Chan-Zuckerberg Initiative считают, что современные достижения в области ИИ и большие массивы экспериментальных данных о биологии человека открывают беспрецедентные возможности для моделирования живых клеток. Виртуальная клетка сможет воспроизводить поведение молекул, клеток, а в будущем - тканей и органов человека. Такая модель позволит глубже понять принципы работы здоровых клеток и выявить причины заболеваний. По мнению авторов, успешная виртуальная клетка должна обладать универсальностью, предсказывать функции и поведение клеток, а также позволять проводить эксперименты "in silico" для проверки гипотез. news.stanford.edu ✔️ Гарвардский университет и Google выпустят базу данных из 1 млн. книг для обучения ИИ. База данных включает различные жанры, языки и авторов, включая Диккенса, Данте и Шекспира, которые больше не защищены авторским правом в силу своего возраста. Набор книг создан на основе многолетнего проекта сканирования книг Google Books, и Google будет участвовать в ее распространении. База данных предназначена для того, чтобы "создать равные условия" доступа к массиву данных всем - от исследовательских лабораторий до стартапов в области ИИ, - кто хочет обучать свои LLM. В настоящее время база данных находится на стадии доработки и в скором времени будет доступна для широкого использования. institutionaldatainitiative.org @ai_machinelearning_big_data #news #ai #ml

50 224

🖥 RAGHub — это каталог инструментов, проектов и ресурсов для Retrieval-Augmented Generation (RAG)! 🌟 Проект предлагает информацию о фреймворках, таких как LangChain, Haystack и других, а также о методах оптимизации, инструментах оценки и примерах использования RAG. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 224

Освойте универсальные навыки в мире цифровых профессий — научитесь работать с SQL, Python, Power BI и DataLens на бесплатном курсе от Нетологии. В результате вы: — разберётесь в основах Python для анализа данных и узнаете, как извлекать информацию. — научитесь делать запросы и отчёты с помощью SQL. — сможете строить интерактивные дашборды в Power BI и DataLens. Курс подойдёт новичкам и тем, кто хочет расширить свои навыки. Присоединяйтесь 🎁 После бесплатного курса вы пройдете карьерную консультацию и сможете дальше развивать навыки на курсе Аналитик данных или Data Scientist в Нетологии с выгодой до 50%. Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5xyY3Jg

50 224

⚡️Torchcodec – универсальная библиотека PyTorch для быстрого и точного декодирования видео. Инструмент позволяет преобразовывать видео в тензоры с помощью интуитивно понятных API, высокой производительности процессора / CUDA и богатого встроенного инструментария ML.


from torchcodec.decoders import VideoDecoder
from torch import Tensor

decoder = VideoDecoder("my_video.mp4")

# Index based frame retrieval.
first_ten_frames: Tensor = decoder[10:]
last_ten_frames: Tensor = decoder[-10:]

# Multi-frame retrieval, index and time based.
frames = decoder.get_frames_at(indices=[10, 0, 15])

#PyTorch #opensource ▪ Gtihub

50 224

🔈 VoiceCraft — это нейронная языковая модель, которая выполняет редактирование речи и синтез речи "с нуля" (zero-shot) для данных из реального мира, включая аудиокниги, видео и подкасты! 🌟 Модель требует всего несколько секунд эталонного голоса для клонирования или редактирования. Поддерживаются интерфейсы через Gradio, Docker и команды CLI, а также инструменты для обучения и дообучения. 🖥 Github @data_analysis_ml

50 224

Repost from Machinelearning

🌟 BioNeMo: фреймворк разработки ИИ-моделей для дизайна лекарств. NVIDIA BioNeMo2 Framework - это набор инструментов, библиотек и моделей для вычислительного поиска и разработки лекарственный препаратов. Он ускоряет самые трудоемкие и дорогостоящие этапы создания и адаптации моделей биомолекулярного ИИ, предоставляя оптимизированные модели и инструменты, которые легко интегрируются в вычислительные ресурсы на базе GPU. Фреймворк позволяет создавать, обучать и настраивать модели, его возможности охватывают различные рабочие нагрузки и терапевтические механизмы: генерация молекул, предсказание структуры белка, белок-лиганд и обучение представлениям. Помимо кода пайплайнов, скриптов и утилит, BioNeMo2 Framework содержит: ▶️Предобученные модели: 🟢ESM-2 - предварительно обученный двунаправленный энкодер (BERT-подобный) для аминокислотных последовательностей. BioNeMo2 включает в себя чекпоинты с параметрами 650M и 3B; 🟢Geneformer - модель табличного подсчета, которая генерирует плотное представление sc-RNA клетки путем изучения паттернов коэкспрессии в отдельных клетках. ▶️Датасеты: 🟠CELLxGENE - совокупность общедоступных single-cell наборов данных, собранных в CZI (Chan Zuckerberg Initiative) общим объемом в 24 млн. клеток; 🟠UniProt - база данных кластеризованных наборов белковых последовательностей из UniProtKB, созданная на основе транслированных геномных данных. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Документация 🖥GitHub @ai_machinelearning_big_data #AI #ML #Framework #NVIDIA

50 224

🖥 Книги, меняющие жизнь, — топ, составленный основателем OpenAI Сэмом Альтманом Запоминаем и развиваемся: 1. Виктор Франкл, «Человек в поисках смысла». 2. Даниэль Канеман, «Думай медленно… решай быстро». 3. Питер Тиль, «От нуля к единице». 4. Олдос Хаксли, «О дивный новый мир». 5. Дэвид Дойч, «Начало бесконечности». 6. Рид Хоффман, «Блиц-масштабирование». 7. Ник Бостром, «Искусственный интеллект». 8. Джек Уэлч, «Победитель». 9. Скот Купор, «Секреты Сэнд-Хилл Роад».

50 224

🔥 Только что выпущена обновленная версия Deep Seek-V2.5, Результаты: ✨ MATH-50: 74,8% → 82,8% ✅ LiveCodebench: 29,2% → 34,38% ✅ Улучшены навыки написания текстов и рассуждения модели. ✅ Добавлен интерфейс для загрузки файлов и работы с веб-страницами. https://huggingface.co/deepseek-ai/DeepSeek-V2.5-1210 @data_analysis_ml

50 224

🔥 OpenAI предоставила доступ к Sora — новому мощному генератору видео, способному изменить множество отраслей. Это произошло! Теперь вы можете: - Создавать видео на основе текстов и изображений, делать ремиксы и объединять несколько роликов в единый видеоряд. - Качество видео превосходит все ожидания — оно лучше, чем у Kling, GEN-3 и других конкурентов. - Интерфейс включает в себя галерею, возможность создания папок и монтажа. - Вы можете выбрать продолжительность видео до 20 секунд и разрешение до 1080p, а также продлить генерацию до пяти раз. - Система была обучена на новостных материалах, поэтому генерация телевизионных передач получается особенно реалистичной. - Доступ предоставляется платным подписчикам. За $20 в месяц вы получите 50 генераций, а за $200 — неограниченное количество генераций и отсутствие водяных знаков. Попробовать можно здесь!

50 224

Repost from Machinelearning

🌟 EuroLLM: многоязычные модели европейских языков. EuroLLM - проект, финансируемый ЕС, цель которого создание набора LLM, способных понимать и генерировать текст на всех языках Европейского Союза, а также на некоторых других распространенных не-ЕС языках: Болгарский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, ирландский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, словацкий, словенский, испанский, шведский, арабский, каталанский, китайский, галисийский, хинди, японский, корейский, норвежский, русский, турецкий и украинский. ▶️В коллекции представлены модели: 🟢EuroLLM-9B - модель с 9 млрд. параметров, контекстом 4096, обученная на 4 трлн. токенов; 🟢EuroLLM-9B-Instruct - инструктивная версия на основе EuroBlocks, набора данных для настройки инструкций, ориентированного на общее следование инструкциям и машинный перевод; 🟠EuroLLM-1.7B - модель с 1,7 млрд. параметров, контекст - 4096; 🟠EuroLLM-1.7B-Instruct - инструктивная версия на датасете EuroBlocks. Демо ⚠️ Ко всем моделям неофициально выпущены квантованные версии в GGUF-формате, ссылки доступны в карточке модели на HF. ▶️Пример кода инференса EuroLLM-9B на Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "English: My name is EuroLLM. Portuguese:"

inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📌Лицензирование: Apache License 2.0 🟡Набор моделей 🟡Arxiv 🟡Demo EuroLLM-1.7B-Instruct @ai_machinelearning_big_data #AI #ML #LLM #EuroLLM

50 224

⚡️ Модель преобразования текста в видео на основе DiT ,от команды, работающей над open sora plan! https://huggingface.co/collections/BestWishYsh/consisid-6746dd0b18db651d5d502766 https://huggingface.co/papers/2411.17440 обеспечения единообразия. ✨ Высокое качество изображения: позволяет создавать реалистичные видеоролики, сохраняющие индивидуальность, с высоким качеством исполнения. @data_analysis_ml

50 224

Погружаемся в ML вместе на Data Dojo! Собираемся уже 17 декабря, чтобы послушать три доклада от спикеров из разных сервисов Яндекса: 🔸 Илья Дьяков из команды Автономного транспорта разберёт задачку с Yandex ML Cup. Она связана с симуляторами, которые предсказывают дорожное движение и тестируют ML-модели до того, как они попадут в настоящие автомобили. 🔸 Артемий Вешкин из Яндекс Музыки тоже рассмотрит один из этапов Yandex ML Cup. И расскажет, как разработать решение, которое будет отличать кавер-версии от оригиналов песен. 🔸 Николай Карпачёв из команды Переводчика расскажет, как ребята поучаствовали в соревновании по качеству перевода на WMT24. В главном треке ребята попали в топ-5! 📅 Зарегистрироваться и узнать подробности можно тут. Ждём вас! Реклама. ООО "Яндекс", ИНН 7736207543.

50 224

🖥 Cloudberry — это проект с открытым исходным кодом от Apache, предназначенный для анализа и визуализации больших данных в реальном времени! 🌟 Он ориентирован на обработку и анализ данных, хранящихся в распределенных и облачных системах, с интеграцией возможностей визуализации, которые позволяют более эффективно работать с большими объемами данных. Одной из ключевых особенностей является тесная интеграция с базами данных, что делает Cloudberry удобным инструментом для аналитиков, работающих с большими и сложными наборами данных. 🌟 Основное внимание в Cloudberry уделяется обработке данных, хранящихся в распределенных базах данных, таких как HBase или Apache Cassandra, что позволяет эффективно обрабатывать и анализировать большие объемы информации. Проект поддерживает расширенные возможности по интеграции с такими системами, обеспечивая высокую производительность и масштабируемость. Cloudberry использует SQL-подобные запросы для извлечения данных из таких распределенных хранилищ и предоставляет интерфейсы для анализа и визуализации этих данных. 🌟 Кроме того, Cloudberry фокусируется на предоставлении простых инструментов для взаимодействия с данными и их представления в виде удобных графиков и отчетов. Это полезно для пользователей, которые хотят интегрировать аналитику с облачными хранилищами данных, используя мощные инструменты визуализации для анализа и принятия решений на основе больших данных. 🔐 Лицензия: Apache-2.0 🖥 Github @data_analysis_ml

50 224

🔍 Agenta — платформа для работы с приложениями, основанными на LLM! 🌟 Agenta помогает разработчикам тестировать, сравнивать и внедрять LLM-решения, упрощая процесс оценки производительности различных моделей и их версий. Основные функции включают создание экспериментов, настройку конфигураций, управление тестовыми данными и анализ результатов. 🌟 Платформа поддерживает интеграцию с популярными фреймворками, такими как FastAPI, и включает API для автоматизации задач. Agenta разработан для тех, кто активно работает с генеративными моделями и их оптимизацией, предоставляя инструменты для повышения точности и эффективности приложений, основанных на искусственном интеллекте. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 224

⚡️ Новый искусственный интеллект DeepMind для игр Делает Невозможное! Google DeepMind совершила значительный прорыв, представив Genie 2 – модель, которая способна создавать бесконечное множество интерактивных 3D-миров. Genie 2 представляет собой мировую модель с автогрессивной латентной диффузией, обученную на большом объеме видеоданных. Модель умеет строить играбельные миры всего лишь на основе одного изображения, а также реагировать на действия пользователя с помощью клавиатуры и мыши. Основные возможности системы включают: 🔹Создание последовательных миров продолжительностью до одной минуты 🔹Запоминание и точное воспроизведение частей мира, которые временно выходят за пределы видимости 🔹Моделирование сложных физических процессов, таких как гравитация, дым, вода и освещение 🔹Анимация персонажей и их взаимодействия с окружающей средой 🔹Генерация NPC с продвинутыми поведенческими моделями 🔹Поддержка различных перспектив, начиная от вида от первого лица и заканчивая изометрическим видом Особо стоит отметить возможность быстрого прототипирования. Дизайнерам теперь легко преобразовывать концептуальные рисунки в полноценные интерактивные среды, что значительно ускоряет процесс создания игр. Кроме того, Genie 2 способна работать с реальными фотографиями, воссоздавая мелкие детали вроде колеблющейся травы или текущей воды. Мы собрали для вас целую коллекцию примеров – это просто невероятно! Несмотря на то, что технология пока находится на начальной стадии развития, мы уверены, что через несколько лет она произведет настоящую революцию в индустрии компьютерных игр. 🎯 Источник 🎯Статья @machinelearning_ru

50 224

Repost from Machinelearning

⚡️ Llama 3.3 70B. Модель доступна в версии с 70 млрд параметров и оптимизирована для диалоговых сценариев использования на нескольких языках. Llama 3.3 превосходит многие доступные модели с открытым и закрытым исходным кодом по стандартным отраслевым бенчмаркам. Llama 3.3 основана на оптимизированной архитектуре трансформера и использует авторегрессивный подход. Настройка модели включает SFT с RLHF для согласования с человеческими предпочтениями в отношении полезности и безопасности. Модель была обучена на новом наборе общедоступных онлайн-данных, включающем более 15 триллионов токенов, с ограничением по свежести данных до декабря 2023 года. Llama 3.3 поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский языки. ▶️ Пример инфренса на Transformers:

import transformers
import torch

model_id = "meta-llama/Llama-3.3-70B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

📌Лицензирование: LLAMA 3.3 License. 🟡Модель 🟡Demo @ai_machinelearning_big_data #AI #ML #LLM #Llama3

50 224

🔥 Make-It-Animatable — ИИ-утилита, которая позволяет легко и быстро создать любую 3D-анимацию гуманоида! 🔗 Попробовать: *клик* 🔗 Страница проекта: *клик* @data_analysis_ml

50 224

Пишите код быстрее и оставляйте больше времени на творчество вместе с AI-ассистентом разработчика Устали от рутины? Отдайте ее AI! Заходите на платформу GitVerse и пишите код вместе с AI-ассистентом GigaCode. Он поддерживает более 35 языков, умеет анализировать контекст, дописывать строки и функции в автоматическом и ручном режимах, а еще — писать код по комментариям и делать рефакторинг с помощью коротких команд. Всего за пару минут AI-помощник может оценить проект и трудозатраты на его создание. Внутри AI есть функция CodeChat — с ней можно оптимизировать или отрефакторить имеющийся код, сгенерировать тесты и документацию, а также объяснить фрагмент кода. Задавать вопросы можно и по всему открытому файлу, и по конкретному фрагменту — просто выделите его в редакторе и сформулируйте запрос к CodeChat. Хорошие новости — недавно GigaCode обновился и стал еще лучше справляться с задачами разработки: теперь наиболее вероятные продолжения кода будут генерироваться с учётом контекста всего проекта. Не забудьте обновить плагин GigaCode :) Зарегистрироваться на GitVerse.