Анализ данных (Data analysis)

前往频道在 Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

显示更多

网络:Machinelearning 俄罗斯12 538 技术与应用2 666...

📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览

频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语语言赛道中的是活跃参与者。目前社区聚集了 50 224 名订阅者，在 技术与应用 类别中位列第 2 666，并在 俄罗斯 地区排名第 12 538 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 50 224 名订阅者。

根据 18 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 10，过去 24 小时变化为 7，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 8.77%。内容发布后 24 小时内通常能获得 6.56% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 4 404 次浏览，首日通常累积 3 295 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 30。
主题关注点： 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

凭借高频更新（最新数据采集于 19 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

50 224

订阅者

+724 小时

+227 天

+1030 天

4 404

帖子浏览量

~ 3 29524 小时

~ 4 33648 小时

8.77%

参与率

~ 5

每日帖子数

Ads index

beta

帖子存档

50 224

📊 FinGPT — финансово-ориентированная платформа, построенная на LLM! 🌟 Она предназначена для анализа данных из финансовой отрасли с использованием моделей GPT, включая автоматизацию анализа новостей, обработки данных и поддержки принятия решений. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 224

🔥 Phi-4 - новая блестящая работа Microsoft Модель с параметрами 14B работает наравне с GPT-4o-mini и недавно выпущенной Llama-3.3-70B. → Модель достигает точности 91,8% при решении математических задач AMC 10/12, превосходя Gemini Pro 1.5 и другие более крупные модели. 📌 Инновация в области данных Инженеры Microsoft разработали сложные методы генерации синтетических данных, которые выходят за рамки традиционных подходов к предварительному обучению. → Возможности математического анализа Модель демонстрирует особую эффективность при решении сложных математических задач, что свидетельствует о расширенных возможностях символьного анализа и логического вывода → Инновации обучения: новые методы, такие как поиск ключевых токенов (PTS) в DPO. 🛡️ Первоначальный выпуск был ограничен платформой Azure AI Foundry в рамках лицензионного соглашения Microsoft Research https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft%E2%80%99s-newest-small-language-model-specializing-in-comple/4357090

50 224

Repost from Machinelearning

✔️ OpenAI расширяет возможности голосового режима ChatGPT. OpenAI представила обновленный голосовой режим ChatGPT, который теперь поддерживает функции демонстрации экрана и распознавания изображений. Благодаря этому ChatGPT может анализировать контекст происходящего на экране смартфона или компьютера и давать более точные инструкции. Русский язык - поддерживается. Обновленный голосовой режим уже доступен в мобильных приложениях для пользователей Team, а также для большинства подписчиков Pro и Plus. В ближайшее время функция станет доступна для европейских пользователей Pro и Plus, а в начале следующего года - для пользователей Enterprise и Edu. openai.com ✔️ Midjourney представила Patchwork, инструмент для создания миров. Patchwork – это бесконечное полотно, поддерживаемое искусственным интеллектом, которое позволяет создавать миры как персонально, так и совместно. С помощью этого инструмента можно развить расплывчатые идеи в полноценные истории, а также создавать необычные визуальные новеллы из изображений и текста. В будущем Midjourney планирует сделать персонажей, миры и другие материалы, созданные в Patchwork, совместимыми с другими приложениями для сторителлинга. Это позволит, например, оживить персонажей в интерактивных сеттингах и редактировать текст истории с помощью новых интерфейсов для творческого письма. updates.midjourney.com ✔️ Fujitsu представила 144-ядерный процессор Monaka для центров обработки данных. Fujitsu представила прототип своего нового процессора Monaka, разработанного на архитектуре Armv9 и предназначенного для использования в центрах обработки данных. Процессор включает 144 ядра, распределенных по четырем 36-ядерным чиплетам, изготовленным по 2-нм техпроцессу TSMC. Чиплеты расположены поверх SRAM-плиток, произведенных по 5-нм техпроцессу, и соединены с ними с помощью гибридной медной связи. Monaka также оснащен контроллером памяти DDR5, интерфейсом PCIe 6.0 с CXL 3.0 для подключения ускорителей. Ожидается, что Monaka будет доступен в 2027 финансовом году. tomshardware.com ✔️ Ученые предлагают создать виртуальные клетки тканей человека с помощью ИИ. Группа исследователей из Стэнфордского университета, Genentech и Chan-Zuckerberg Initiative считают, что современные достижения в области ИИ и большие массивы экспериментальных данных о биологии человека открывают беспрецедентные возможности для моделирования живых клеток. Виртуальная клетка сможет воспроизводить поведение молекул, клеток, а в будущем - тканей и органов человека. Такая модель позволит глубже понять принципы работы здоровых клеток и выявить причины заболеваний. По мнению авторов, успешная виртуальная клетка должна обладать универсальностью, предсказывать функции и поведение клеток, а также позволять проводить эксперименты "in silico" для проверки гипотез. news.stanford.edu ✔️ Гарвардский университет и Google выпустят базу данных из 1 млн. книг для обучения ИИ. База данных включает различные жанры, языки и авторов, включая Диккенса, Данте и Шекспира, которые больше не защищены авторским правом в силу своего возраста. Набор книг создан на основе многолетнего проекта сканирования книг Google Books, и Google будет участвовать в ее распространении. База данных предназначена для того, чтобы "создать равные условия" доступа к массиву данных всем - от исследовательских лабораторий до стартапов в области ИИ, - кто хочет обучать свои LLM. В настоящее время база данных находится на стадии доработки и в скором времени будет доступна для широкого использования. institutionaldatainitiative.org @ai_machinelearning_big_data #news #ai #ml

50 224

🖥 RAGHub — это каталог инструментов, проектов и ресурсов для Retrieval-Augmented Generation (RAG)! 🌟 Проект предлагает информацию о фреймворках, таких как LangChain, Haystack и других, а также о методах оптимизации, инструментах оценки и примерах использования RAG. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 224

Освойте универсальные навыки в мире цифровых профессий — научитесь работать с SQL, Python, Power BI и DataLens на бесплатном курсе от Нетологии. В результате вы: — разберётесь в основах Python для анализа данных и узнаете, как извлекать информацию. — научитесь делать запросы и отчёты с помощью SQL. — сможете строить интерактивные дашборды в Power BI и DataLens. Курс подойдёт новичкам и тем, кто хочет расширить свои навыки. Присоединяйтесь 🎁 После бесплатного курса вы пройдете карьерную консультацию и сможете дальше развивать навыки на курсе Аналитик данных или Data Scientist в Нетологии с выгодой до 50%. Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5xyY3Jg

50 224

⚡️Torchcodec – универсальная библиотека PyTorch для быстрого и точного декодирования видео. Инструмент позволяет преобразовывать видео в тензоры с помощью интуитивно понятных API, высокой производительности процессора / CUDA и богатого встроенного инструментария ML.


from torchcodec.decoders import VideoDecoder
from torch import Tensor

decoder = VideoDecoder("my_video.mp4")

# Index based frame retrieval.
first_ten_frames: Tensor = decoder[10:]
last_ten_frames: Tensor = decoder[-10:]

# Multi-frame retrieval, index and time based.
frames = decoder.get_frames_at(indices=[10, 0, 15])

#PyTorch #opensource ▪ Gtihub

50 224

🔈 VoiceCraft — это нейронная языковая модель, которая выполняет редактирование речи и синтез речи "с нуля" (zero-shot) для данных из реального мира, включая аудиокниги, видео и подкасты! 🌟 Модель требует всего несколько секунд эталонного голоса для клонирования или редактирования. Поддерживаются интерфейсы через Gradio, Docker и команды CLI, а также инструменты для обучения и дообучения. 🖥 Github @data_analysis_ml

50 224

Repost from Machinelearning

🌟 BioNeMo: фреймворк разработки ИИ-моделей для дизайна лекарств. NVIDIA BioNeMo2 Framework - это набор инструментов, библиотек и моделей для вычислительного поиска и разработки лекарственный препаратов. Он ускоряет самые трудоемкие и дорогостоящие этапы создания и адаптации моделей биомолекулярного ИИ, предоставляя оптимизированные модели и инструменты, которые легко интегрируются в вычислительные ресурсы на базе GPU. Фреймворк позволяет создавать, обучать и настраивать модели, его возможности охватывают различные рабочие нагрузки и терапевтические механизмы: генерация молекул, предсказание структуры белка, белок-лиганд и обучение представлениям. Помимо кода пайплайнов, скриптов и утилит, BioNeMo2 Framework содержит: ▶️Предобученные модели: 🟢ESM-2 - предварительно обученный двунаправленный энкодер (BERT-подобный) для аминокислотных последовательностей. BioNeMo2 включает в себя чекпоинты с параметрами 650M и 3B; 🟢Geneformer - модель табличного подсчета, которая генерирует плотное представление sc-RNA клетки путем изучения паттернов коэкспрессии в отдельных клетках. ▶️Датасеты: 🟠CELLxGENE - совокупность общедоступных single-cell наборов данных, собранных в CZI (Chan Zuckerberg Initiative) общим объемом в 24 млн. клеток; 🟠UniProt - база данных кластеризованных наборов белковых последовательностей из UniProtKB, созданная на основе транслированных геномных данных. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Документация 🖥GitHub @ai_machinelearning_big_data #AI #ML #Framework #NVIDIA

50 224

🖥 Книги, меняющие жизнь, — топ, составленный основателем OpenAI Сэмом Альтманом Запоминаем и развиваемся: 1. Виктор Франкл, «Человек в поисках смысла». 2. Даниэль Канеман, «Думай медленно… решай быстро». 3. Питер Тиль, «От нуля к единице». 4. Олдос Хаксли, «О дивный новый мир». 5. Дэвид Дойч, «Начало бесконечности». 6. Рид Хоффман, «Блиц-масштабирование». 7. Ник Бостром, «Искусственный интеллект». 8. Джек Уэлч, «Победитель». 9. Скот Купор, «Секреты Сэнд-Хилл Роад».

50 224

🔥 Только что выпущена обновленная версия Deep Seek-V2.5, Результаты: ✨ MATH-50: 74,8% → 82,8% ✅ LiveCodebench: 29,2% → 34,38% ✅ Улучшены навыки написания текстов и рассуждения модели. ✅ Добавлен интерфейс для загрузки файлов и работы с веб-страницами. https://huggingface.co/deepseek-ai/DeepSeek-V2.5-1210 @data_analysis_ml

50 224

🔥 OpenAI предоставила доступ к Sora — новому мощному генератору видео, способному изменить множество отраслей. Это произошло! Теперь вы можете: - Создавать видео на основе текстов и изображений, делать ремиксы и объединять несколько роликов в единый видеоряд. - Качество видео превосходит все ожидания — оно лучше, чем у Kling, GEN-3 и других конкурентов. - Интерфейс включает в себя галерею, возможность создания папок и монтажа. - Вы можете выбрать продолжительность видео до 20 секунд и разрешение до 1080p, а также продлить генерацию до пяти раз. - Система была обучена на новостных материалах, поэтому генерация телевизионных передач получается особенно реалистичной. - Доступ предоставляется платным подписчикам. За $20 в месяц вы получите 50 генераций, а за $200 — неограниченное количество генераций и отсутствие водяных знаков. Попробовать можно здесь!

50 224

Repost from Machinelearning

🌟 EuroLLM: многоязычные модели европейских языков. EuroLLM - проект, финансируемый ЕС, цель которого создание набора LLM, способных понимать и генерировать текст на всех языках Европейского Союза, а также на некоторых других распространенных не-ЕС языках: Болгарский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, ирландский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, словацкий, словенский, испанский, шведский, арабский, каталанский, китайский, галисийский, хинди, японский, корейский, норвежский, русский, турецкий и украинский. ▶️В коллекции представлены модели: 🟢EuroLLM-9B - модель с 9 млрд. параметров, контекстом 4096, обученная на 4 трлн. токенов; 🟢EuroLLM-9B-Instruct - инструктивная версия на основе EuroBlocks, набора данных для настройки инструкций, ориентированного на общее следование инструкциям и машинный перевод; 🟠EuroLLM-1.7B - модель с 1,7 млрд. параметров, контекст - 4096; 🟠EuroLLM-1.7B-Instruct - инструктивная версия на датасете EuroBlocks. Демо ⚠️ Ко всем моделям неофициально выпущены квантованные версии в GGUF-формате, ссылки доступны в карточке модели на HF. ▶️Пример кода инференса EuroLLM-9B на Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "English: My name is EuroLLM. Portuguese:"

inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📌Лицензирование: Apache License 2.0 🟡Набор моделей 🟡Arxiv 🟡Demo EuroLLM-1.7B-Instruct @ai_machinelearning_big_data #AI #ML #LLM #EuroLLM

50 224

⚡️ Модель преобразования текста в видео на основе DiT ,от команды, работающей над open sora plan! https://huggingface.co/collections/BestWishYsh/consisid-6746dd0b18db651d5d502766 https://huggingface.co/papers/2411.17440 обеспечения единообразия. ✨ Высокое качество изображения: позволяет создавать реалистичные видеоролики, сохраняющие индивидуальность, с высоким качеством исполнения. @data_analysis_ml

50 224

Погружаемся в ML вместе на Data Dojo! Собираемся уже 17 декабря, чтобы послушать три доклада от спикеров из разных сервисов Яндекса: 🔸 Илья Дьяков из команды Автономного транспорта разберёт задачку с Yandex ML Cup. Она связана с симуляторами, которые предсказывают дорожное движение и тестируют ML-модели до того, как они попадут в настоящие автомобили. 🔸 Артемий Вешкин из Яндекс Музыки тоже рассмотрит один из этапов Yandex ML Cup. И расскажет, как разработать решение, которое будет отличать кавер-версии от оригиналов песен. 🔸 Николай Карпачёв из команды Переводчика расскажет, как ребята поучаствовали в соревновании по качеству перевода на WMT24. В главном треке ребята попали в топ-5! 📅 Зарегистрироваться и узнать подробности можно тут. Ждём вас! Реклама. ООО "Яндекс", ИНН 7736207543.

50 224

🖥 Cloudberry — это проект с открытым исходным кодом от Apache, предназначенный для анализа и визуализации больших данных в реальном времени! 🌟 Он ориентирован на обработку и анализ данных, хранящихся в распределенных и облачных системах, с интеграцией возможностей визуализации, которые позволяют более эффективно работать с большими объемами данных. Одной из ключевых особенностей является тесная интеграция с базами данных, что делает Cloudberry удобным инструментом для аналитиков, работающих с большими и сложными наборами данных. 🌟 Основное внимание в Cloudberry уделяется обработке данных, хранящихся в распределенных базах данных, таких как HBase или Apache Cassandra, что позволяет эффективно обрабатывать и анализировать большие объемы информации. Проект поддерживает расширенные возможности по интеграции с такими системами, обеспечивая высокую производительность и масштабируемость. Cloudberry использует SQL-подобные запросы для извлечения данных из таких распределенных хранилищ и предоставляет интерфейсы для анализа и визуализации этих данных. 🌟 Кроме того, Cloudberry фокусируется на предоставлении простых инструментов для взаимодействия с данными и их представления в виде удобных графиков и отчетов. Это полезно для пользователей, которые хотят интегрировать аналитику с облачными хранилищами данных, используя мощные инструменты визуализации для анализа и принятия решений на основе больших данных. 🔐 Лицензия: Apache-2.0 🖥 Github @data_analysis_ml

50 224

🔍 Agenta — платформа для работы с приложениями, основанными на LLM! 🌟 Agenta помогает разработчикам тестировать, сравнивать и внедрять LLM-решения, упрощая процесс оценки производительности различных моделей и их версий. Основные функции включают создание экспериментов, настройку конфигураций, управление тестовыми данными и анализ результатов. 🌟 Платформа поддерживает интеграцию с популярными фреймворками, такими как FastAPI, и включает API для автоматизации задач. Agenta разработан для тех, кто активно работает с генеративными моделями и их оптимизацией, предоставляя инструменты для повышения точности и эффективности приложений, основанных на искусственном интеллекте. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 224

⚡️ Новый искусственный интеллект DeepMind для игр Делает Невозможное! Google DeepMind совершила значительный прорыв, представив Genie 2 – модель, которая способна создавать бесконечное множество интерактивных 3D-миров. Genie 2 представляет собой мировую модель с автогрессивной латентной диффузией, обученную на большом объеме видеоданных. Модель умеет строить играбельные миры всего лишь на основе одного изображения, а также реагировать на действия пользователя с помощью клавиатуры и мыши. Основные возможности системы включают: 🔹Создание последовательных миров продолжительностью до одной минуты 🔹Запоминание и точное воспроизведение частей мира, которые временно выходят за пределы видимости 🔹Моделирование сложных физических процессов, таких как гравитация, дым, вода и освещение 🔹Анимация персонажей и их взаимодействия с окружающей средой 🔹Генерация NPC с продвинутыми поведенческими моделями 🔹Поддержка различных перспектив, начиная от вида от первого лица и заканчивая изометрическим видом Особо стоит отметить возможность быстрого прототипирования. Дизайнерам теперь легко преобразовывать концептуальные рисунки в полноценные интерактивные среды, что значительно ускоряет процесс создания игр. Кроме того, Genie 2 способна работать с реальными фотографиями, воссоздавая мелкие детали вроде колеблющейся травы или текущей воды. Мы собрали для вас целую коллекцию примеров – это просто невероятно! Несмотря на то, что технология пока находится на начальной стадии развития, мы уверены, что через несколько лет она произведет настоящую революцию в индустрии компьютерных игр. 🎯 Источник 🎯Статья @machinelearning_ru

50 224

Repost from Machinelearning

⚡️ Llama 3.3 70B. Модель доступна в версии с 70 млрд параметров и оптимизирована для диалоговых сценариев использования на нескольких языках. Llama 3.3 превосходит многие доступные модели с открытым и закрытым исходным кодом по стандартным отраслевым бенчмаркам. Llama 3.3 основана на оптимизированной архитектуре трансформера и использует авторегрессивный подход. Настройка модели включает SFT с RLHF для согласования с человеческими предпочтениями в отношении полезности и безопасности. Модель была обучена на новом наборе общедоступных онлайн-данных, включающем более 15 триллионов токенов, с ограничением по свежести данных до декабря 2023 года. Llama 3.3 поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский языки. ▶️ Пример инфренса на Transformers:

import transformers
import torch

model_id = "meta-llama/Llama-3.3-70B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

📌Лицензирование: LLAMA 3.3 License. 🟡Модель 🟡Demo @ai_machinelearning_big_data #AI #ML #LLM #Llama3

50 224

🔥 Make-It-Animatable — ИИ-утилита, которая позволяет легко и быстро создать любую 3D-анимацию гуманоида! 🔗 Попробовать: *клик* 🔗 Страница проекта: *клик* @data_analysis_ml

50 224

Пишите код быстрее и оставляйте больше времени на творчество вместе с AI-ассистентом разработчика Устали от рутины? Отдайте ее AI! Заходите на платформу GitVerse и пишите код вместе с AI-ассистентом GigaCode. Он поддерживает более 35 языков, умеет анализировать контекст, дописывать строки и функции в автоматическом и ручном режимах, а еще — писать код по комментариям и делать рефакторинг с помощью коротких команд. Всего за пару минут AI-помощник может оценить проект и трудозатраты на его создание. Внутри AI есть функция CodeChat — с ней можно оптимизировать или отрефакторить имеющийся код, сгенерировать тесты и документацию, а также объяснить фрагмент кода. Задавать вопросы можно и по всему открытому файлу, и по конкретному фрагменту — просто выделите его в редакторе и сформулируйте запрос к CodeChat. Хорошие новости — недавно GigaCode обновился и стал еще лучше справляться с задачами разработки: теперь наиболее вероятные продолжения кода будут генерироваться с учётом контекста всего проекта. Не забудьте обновить плагин GigaCode :) Зарегистрироваться на GitVerse.