Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 224 名订阅者,在 技术与应用 类别中位列第 2 666,并在 俄罗斯 地区排名第 12 538 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 224 名订阅者。
根据 18 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 10,过去 24 小时变化为 7,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.77%。内容发布后 24 小时内通常能获得 6.56% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 404 次浏览,首日通常累积 3 295 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 19 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 224
订阅者
+724 小时
+227 天
+1030 天
帖子存档
📊 FinGPT — финансово-ориентированная платформа, построенная на LLM!
🌟 Она предназначена для анализа данных из финансовой отрасли с использованием моделей GPT, включая автоматизацию анализа новостей, обработки данных и поддержки принятия решений.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
+1
🔥 Phi-4 - новая блестящая работа Microsoft
Модель с параметрами 14B работает наравне с GPT-4o-mini и недавно выпущенной Llama-3.3-70B.
→ Модель достигает точности 91,8% при решении математических задач AMC 10/12, превосходя Gemini Pro 1.5 и другие более крупные модели.
📌 Инновация в области данных
Инженеры Microsoft разработали сложные методы генерации синтетических данных, которые выходят за рамки традиционных подходов к предварительному обучению.
→ Возможности математического анализа
Модель демонстрирует особую эффективность при решении сложных математических задач, что свидетельствует о расширенных возможностях символьного анализа и логического вывода
→ Инновации обучения: новые методы, такие как поиск ключевых токенов (PTS) в DPO.
🛡️ Первоначальный выпуск был ограничен платформой Azure AI Foundry в рамках лицензионного соглашения Microsoft Research
https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft%E2%80%99s-newest-small-language-model-specializing-in-comple/4357090
Repost from Machinelearning
✔️ OpenAI расширяет возможности голосового режима ChatGPT.
OpenAI представила обновленный голосовой режим ChatGPT, который теперь поддерживает функции демонстрации экрана и распознавания изображений. Благодаря этому ChatGPT может анализировать контекст происходящего на экране смартфона или компьютера и давать более точные инструкции. Русский язык - поддерживается.
Обновленный голосовой режим уже доступен в мобильных приложениях для пользователей Team, а также для большинства подписчиков Pro и Plus. В ближайшее время функция станет доступна для европейских пользователей Pro и Plus, а в начале следующего года - для пользователей Enterprise и Edu.
openai.com
✔️ Midjourney представила Patchwork, инструмент для создания миров.
Patchwork – это бесконечное полотно, поддерживаемое искусственным интеллектом, которое позволяет создавать миры как персонально, так и совместно. С помощью этого инструмента можно развить расплывчатые идеи в полноценные истории, а также создавать необычные визуальные новеллы из изображений и текста.
В будущем Midjourney планирует сделать персонажей, миры и другие материалы, созданные в Patchwork, совместимыми с другими приложениями для сторителлинга. Это позволит, например, оживить персонажей в интерактивных сеттингах и редактировать текст истории с помощью новых интерфейсов для творческого письма.
updates.midjourney.com
✔️ Fujitsu представила 144-ядерный процессор Monaka для центров обработки данных.
Fujitsu представила прототип своего нового процессора Monaka, разработанного на архитектуре Armv9 и предназначенного для использования в центрах обработки данных. Процессор включает 144 ядра, распределенных по четырем 36-ядерным чиплетам, изготовленным по 2-нм техпроцессу TSMC.
Чиплеты расположены поверх SRAM-плиток, произведенных по 5-нм техпроцессу, и соединены с ними с помощью гибридной медной связи. Monaka также оснащен контроллером памяти DDR5, интерфейсом PCIe 6.0 с CXL 3.0 для подключения ускорителей. Ожидается, что Monaka будет доступен в 2027 финансовом году.
tomshardware.com
✔️ Ученые предлагают создать виртуальные клетки тканей человека с помощью ИИ.
Группа исследователей из Стэнфордского университета, Genentech и Chan-Zuckerberg Initiative считают, что современные достижения в области ИИ и большие массивы экспериментальных данных о биологии человека открывают беспрецедентные возможности для моделирования живых клеток.
Виртуальная клетка сможет воспроизводить поведение молекул, клеток, а в будущем - тканей и органов человека. Такая модель позволит глубже понять принципы работы здоровых клеток и выявить причины заболеваний. По мнению авторов, успешная виртуальная клетка должна обладать универсальностью, предсказывать функции и поведение клеток, а также позволять проводить эксперименты "in silico" для проверки гипотез.
news.stanford.edu
✔️ Гарвардский университет и Google выпустят базу данных из 1 млн. книг для обучения ИИ.
База данных включает различные жанры, языки и авторов, включая Диккенса, Данте и Шекспира, которые больше не защищены авторским правом в силу своего возраста. Набор книг создан на основе многолетнего проекта сканирования книг Google Books, и Google будет участвовать в ее распространении.
База данных предназначена для того, чтобы "создать равные условия" доступа к массиву данных всем - от исследовательских лабораторий до стартапов в области ИИ, - кто хочет обучать свои LLM. В настоящее время база данных находится на стадии доработки и в скором времени будет доступна для широкого использования.
institutionaldatainitiative.org
@ai_machinelearning_big_data
#news #ai #ml
🖥 RAGHub — это каталог инструментов, проектов и ресурсов для Retrieval-Augmented Generation (RAG)!
🌟 Проект предлагает информацию о фреймворках, таких как LangChain, Haystack и других, а также о методах оптимизации, инструментах оценки и примерах использования RAG.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
Освойте универсальные навыки в мире цифровых профессий — научитесь работать с SQL, Python, Power BI и DataLens на бесплатном курсе от Нетологии.
В результате вы:
— разберётесь в основах Python для анализа данных и узнаете, как извлекать информацию.
— научитесь делать запросы и отчёты с помощью SQL.
— сможете строить интерактивные дашборды в Power BI и DataLens.
Курс подойдёт новичкам и тем, кто хочет расширить свои навыки.
Присоединяйтесь
🎁 После бесплатного курса вы пройдете карьерную консультацию и сможете дальше развивать навыки на курсе Аналитик данных или Data Scientist в Нетологии с выгодой до 50%.
Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5xyY3Jg
⚡️Torchcodec – универсальная библиотека PyTorch для быстрого и точного декодирования видео.
Инструмент позволяет преобразовывать видео в тензоры с помощью интуитивно понятных API, высокой производительности процессора / CUDA и богатого встроенного инструментария ML.
from torchcodec.decoders import VideoDecoder
from torch import Tensor
decoder = VideoDecoder("my_video.mp4")
# Index based frame retrieval.
first_ten_frames: Tensor = decoder[10:]
last_ten_frames: Tensor = decoder[-10:]
# Multi-frame retrieval, index and time based.
frames = decoder.get_frames_at(indices=[10, 0, 15])
#PyTorch #opensource
▪ Gtihub🔈 VoiceCraft — это нейронная языковая модель, которая выполняет редактирование речи и синтез речи "с нуля" (zero-shot) для данных из реального мира, включая аудиокниги, видео и подкасты!
🌟 Модель требует всего несколько секунд эталонного голоса для клонирования или редактирования. Поддерживаются интерфейсы через Gradio, Docker и команды CLI, а также инструменты для обучения и дообучения.
🖥 Github
@data_analysis_ml
Repost from Machinelearning
+2
🌟 BioNeMo: фреймворк разработки ИИ-моделей для дизайна лекарств.
NVIDIA BioNeMo2 Framework - это набор инструментов, библиотек и моделей для вычислительного поиска и разработки лекарственный препаратов.
Он ускоряет самые трудоемкие и дорогостоящие этапы создания и адаптации моделей биомолекулярного ИИ, предоставляя оптимизированные модели и инструменты, которые легко интегрируются в вычислительные ресурсы на базе GPU.
Фреймворк позволяет создавать, обучать и настраивать модели, его возможности охватывают различные рабочие нагрузки и терапевтические механизмы: генерация молекул, предсказание структуры белка, белок-лиганд и обучение представлениям.
Помимо кода пайплайнов, скриптов и утилит, BioNeMo2 Framework содержит:
▶️Предобученные модели:
🟢ESM-2 - предварительно обученный двунаправленный энкодер (BERT-подобный) для аминокислотных последовательностей. BioNeMo2 включает в себя чекпоинты с параметрами 650M и 3B;
🟢Geneformer - модель табличного подсчета, которая генерирует плотное представление sc-RNA клетки путем изучения паттернов коэкспрессии в отдельных клетках.
▶️Датасеты:
🟠CELLxGENE - совокупность общедоступных single-cell наборов данных, собранных в CZI (Chan Zuckerberg Initiative) общим объемом в 24 млн. клеток;
🟠UniProt - база данных кластеризованных наборов белковых последовательностей из UniProtKB, созданная на основе транслированных геномных данных.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Документация
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Framework #NVIDIA
+8
🖥 Книги, меняющие жизнь, — топ, составленный основателем OpenAI Сэмом Альтманом
Запоминаем и развиваемся:
1. Виктор Франкл, «Человек в поисках смысла».
2. Даниэль Канеман, «Думай медленно… решай быстро».
3. Питер Тиль, «От нуля к единице».
4. Олдос Хаксли, «О дивный новый мир».
5. Дэвид Дойч, «Начало бесконечности».
6. Рид Хоффман, «Блиц-масштабирование».
7. Ник Бостром, «Искусственный интеллект».
8. Джек Уэлч, «Победитель».
9. Скот Купор, «Секреты Сэнд-Хилл Роад».
🔥 Только что выпущена обновленная версия Deep Seek-V2.5,
Результаты:
✨ MATH-50: 74,8% → 82,8%
✅ LiveCodebench: 29,2% → 34,38%
✅ Улучшены навыки написания текстов и рассуждения модели.
✅ Добавлен интерфейс для загрузки файлов и работы с веб-страницами.
https://huggingface.co/deepseek-ai/DeepSeek-V2.5-1210
@data_analysis_ml
🔥 OpenAI предоставила доступ к Sora — новому мощному генератору видео, способному изменить множество отраслей. Это произошло!
Теперь вы можете:
- Создавать видео на основе текстов и изображений, делать ремиксы и объединять несколько роликов в единый видеоряд.
- Качество видео превосходит все ожидания — оно лучше, чем у Kling, GEN-3 и других конкурентов.
- Интерфейс включает в себя галерею, возможность создания папок и монтажа.
- Вы можете выбрать продолжительность видео до 20 секунд и разрешение до 1080p, а также продлить генерацию до пяти раз.
- Система была обучена на новостных материалах, поэтому генерация телевизионных передач получается особенно реалистичной.
- Доступ предоставляется платным подписчикам. За $20 в месяц вы получите 50 генераций, а за $200 — неограниченное количество генераций и отсутствие водяных знаков.
Попробовать можно здесь!
Repost from Machinelearning
+2
🌟 EuroLLM: многоязычные модели европейских языков.
EuroLLM - проект, финансируемый ЕС, цель которого создание набора LLM, способных понимать и генерировать текст на всех языках Европейского Союза, а также на некоторых других распространенных не-ЕС языках:
Болгарский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, ирландский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, словацкий, словенский, испанский, шведский, арабский, каталанский, китайский, галисийский, хинди, японский, корейский, норвежский, русский, турецкий и украинский.
▶️В коллекции представлены модели:
🟢EuroLLM-9B - модель с 9 млрд. параметров, контекстом 4096, обученная на 4 трлн. токенов;
🟢EuroLLM-9B-Instruct - инструктивная версия на основе EuroBlocks, набора данных для настройки инструкций, ориентированного на общее следование инструкциям и машинный перевод;
🟠EuroLLM-1.7B - модель с 1,7 млрд. параметров, контекст - 4096;
🟠EuroLLM-1.7B-Instruct - инструктивная версия на датасете EuroBlocks. Демо
⚠️ Ко всем моделям неофициально выпущены квантованные версии в GGUF-формате, ссылки доступны в карточке модели на HF.
▶️Пример кода инференса EuroLLM-9B на Transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "English: My name is EuroLLM. Portuguese:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📌Лицензирование: Apache License 2.0
🟡Набор моделей
🟡Arxiv
🟡Demo EuroLLM-1.7B-Instruct
@ai_machinelearning_big_data
#AI #ML #LLM #EuroLLM⚡️ Модель преобразования текста в видео на основе DiT ,от команды, работающей над open sora plan!
https://huggingface.co/collections/BestWishYsh/consisid-6746dd0b18db651d5d502766
https://huggingface.co/papers/2411.17440
обеспечения единообразия.
✨ Высокое качество изображения: позволяет создавать реалистичные видеоролики, сохраняющие индивидуальность, с высоким качеством исполнения.
@data_analysis_ml
Погружаемся в ML вместе на Data Dojo!
Собираемся уже 17 декабря, чтобы послушать три доклада от спикеров из разных сервисов Яндекса:
🔸 Илья Дьяков из команды Автономного транспорта разберёт задачку с Yandex ML Cup. Она связана с симуляторами, которые предсказывают дорожное движение и тестируют ML-модели до того, как они попадут в настоящие автомобили.
🔸 Артемий Вешкин из Яндекс Музыки тоже рассмотрит один из этапов Yandex ML Cup. И расскажет, как разработать решение, которое будет отличать кавер-версии от оригиналов песен.
🔸 Николай Карпачёв из команды Переводчика расскажет, как ребята поучаствовали в соревновании по качеству перевода на WMT24. В главном треке ребята попали в топ-5!
📅 Зарегистрироваться и узнать подробности можно тут.
Ждём вас!
Реклама. ООО "Яндекс", ИНН 7736207543.
🖥 Cloudberry — это проект с открытым исходным кодом от Apache, предназначенный для анализа и визуализации больших данных в реальном времени!
🌟 Он ориентирован на обработку и анализ данных, хранящихся в распределенных и облачных системах, с интеграцией возможностей визуализации, которые позволяют более эффективно работать с большими объемами данных. Одной из ключевых особенностей является тесная интеграция с базами данных, что делает Cloudberry удобным инструментом для аналитиков, работающих с большими и сложными наборами данных.
🌟 Основное внимание в Cloudberry уделяется обработке данных, хранящихся в распределенных базах данных, таких как HBase или Apache Cassandra, что позволяет эффективно обрабатывать и анализировать большие объемы информации. Проект поддерживает расширенные возможности по интеграции с такими системами, обеспечивая высокую производительность и масштабируемость. Cloudberry использует SQL-подобные запросы для извлечения данных из таких распределенных хранилищ и предоставляет интерфейсы для анализа и визуализации этих данных.
🌟 Кроме того, Cloudberry фокусируется на предоставлении простых инструментов для взаимодействия с данными и их представления в виде удобных графиков и отчетов. Это полезно для пользователей, которые хотят интегрировать аналитику с облачными хранилищами данных, используя мощные инструменты визуализации для анализа и принятия решений на основе больших данных.
🔐 Лицензия: Apache-2.0
🖥 Github
@data_analysis_ml
🔍 Agenta — платформа для работы с приложениями, основанными на LLM!
🌟 Agenta помогает разработчикам тестировать, сравнивать и внедрять LLM-решения, упрощая процесс оценки производительности различных моделей и их версий. Основные функции включают создание экспериментов, настройку конфигураций, управление тестовыми данными и анализ результатов.
🌟 Платформа поддерживает интеграцию с популярными фреймворками, такими как FastAPI, и включает API для автоматизации задач. Agenta разработан для тех, кто активно работает с генеративными моделями и их оптимизацией, предоставляя инструменты для повышения точности и эффективности приложений, основанных на искусственном интеллекте.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
⚡️ Новый искусственный интеллект DeepMind для игр Делает Невозможное!
Google DeepMind совершила значительный прорыв, представив Genie 2 – модель, которая способна создавать бесконечное множество интерактивных 3D-миров.
Genie 2 представляет собой мировую модель с автогрессивной латентной диффузией, обученную на большом объеме видеоданных. Модель умеет строить играбельные миры всего лишь на основе одного изображения, а также реагировать на действия пользователя с помощью клавиатуры и мыши.
Основные возможности системы включают:
🔹Создание последовательных миров продолжительностью до одной минуты
🔹Запоминание и точное воспроизведение частей мира, которые временно выходят за пределы видимости
🔹Моделирование сложных физических процессов, таких как гравитация, дым, вода и освещение
🔹Анимация персонажей и их взаимодействия с окружающей средой
🔹Генерация NPC с продвинутыми поведенческими моделями
🔹Поддержка различных перспектив, начиная от вида от первого лица и заканчивая изометрическим видом
Особо стоит отметить возможность быстрого прототипирования. Дизайнерам теперь легко преобразовывать концептуальные рисунки в полноценные интерактивные среды, что значительно ускоряет процесс создания игр. Кроме того, Genie 2 способна работать с реальными фотографиями, воссоздавая мелкие детали вроде колеблющейся травы или текущей воды.
Мы собрали для вас целую коллекцию примеров – это просто невероятно!
Несмотря на то, что технология пока находится на начальной стадии развития, мы уверены, что через несколько лет она произведет настоящую революцию в индустрии компьютерных игр.
🎯 Источник
🎯Статья
@machinelearning_ru
Repost from Machinelearning
⚡️ Llama 3.3 70B.
Модель доступна в версии с 70 млрд параметров и оптимизирована для диалоговых сценариев использования на нескольких языках. Llama 3.3 превосходит многие доступные модели с открытым и закрытым исходным кодом по стандартным отраслевым бенчмаркам.
Llama 3.3 основана на оптимизированной архитектуре трансформера и использует авторегрессивный подход. Настройка модели включает SFT с RLHF для согласования с человеческими предпочтениями в отношении полезности и безопасности.
Модель была обучена на новом наборе общедоступных онлайн-данных, включающем более 15 триллионов токенов, с ограничением по свежести данных до декабря 2023 года.
Llama 3.3 поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский языки.
▶️ Пример инфренса на Transformers:
import transformers
import torch
model_id = "meta-llama/Llama-3.3-70B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
📌Лицензирование: LLAMA 3.3 License.
🟡Модель
🟡Demo
@ai_machinelearning_big_data
#AI #ML #LLM #Llama3🔥 Make-It-Animatable — ИИ-утилита, которая позволяет легко и быстро создать любую 3D-анимацию гуманоида!
🔗 Попробовать: *клик*
🔗 Страница проекта: *клик*
@data_analysis_ml
Пишите код быстрее и оставляйте больше времени на творчество вместе с AI-ассистентом разработчика
Устали от рутины? Отдайте ее AI!
Заходите на платформу GitVerse и пишите код вместе с AI-ассистентом GigaCode. Он поддерживает более 35 языков, умеет анализировать контекст, дописывать строки и функции в автоматическом и ручном режимах, а еще — писать код по комментариям и делать рефакторинг с помощью коротких команд. Всего за пару минут AI-помощник может оценить проект и трудозатраты на его создание.
Внутри AI есть функция CodeChat — с ней можно оптимизировать или отрефакторить имеющийся код, сгенерировать тесты и документацию, а также объяснить фрагмент кода. Задавать вопросы можно и по всему открытому файлу, и по конкретному фрагменту — просто выделите его в редакторе и сформулируйте запрос к CodeChat.
Хорошие новости — недавно GigaCode обновился и стал еще лучше справляться с задачами разработки: теперь наиболее вероятные продолжения кода будут генерироваться с учётом контекста всего проекта. Не забудьте обновить плагин GigaCode :)
Зарегистрироваться на GitVerse.
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
