Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 254 名订阅者,在 技术与应用 类别中位列第 2 668,并在 俄罗斯 地区排名第 12 512 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 254 名订阅者。
根据 21 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 39,过去 24 小时变化为 -7,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.79%。内容发布后 24 小时内通常能获得 6.66% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 415 次浏览,首日通常累积 3 346 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 31。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 22 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 254
订阅者
-724 小时
+977 天
+3930 天
帖子存档
🖥 Whisper.cpp для перевода аудио в текст
🟡Высокопроизводительный интерфейс на C++ для модели Whisper от OpenAI, которая отлично распознаёт текст.
Простая реализация на C/C++ без зависимостей.
Особенности самой модели Whisper:
— Хорошо распознает русский текст (даже с вкраплениями английского)
— Хорошо распознает цифры
🖥 GitHub
🟡 Использование
Кстати, интересный факт: Whisper.cpp был написан Георгием Гергановым всего за 5 дней
@data_analysis_ml
💨 Scaling hierarchical agglomerative clustering to trillion-edge graphs
Кластеризация графов объединяет похожие элементы в группы, что помогает лучшему понять взаимосвязи в данных.
В этой статье инженеры Google рассказывают о ключевых методах, которые позволили им построить мощнейший алгоритм, позволяющий группировать графы с триллионами ребер.
https://research.google/blog/scaling-hierarchical-agglomerative-clustering-to-trillion-edge-graphs/
@data_analysis_ml
🔥 Animation with text that highlights important events
Анимация является выразительным средством для оживления ваших графиков, и Matplotlib предлагает специализированные инструменты для этой цели.
Это руководство представляет собой подробное пошаговое руководство с кодом, который вы можете воспроизвести по созданию эффектных анимаций.
• Читать
@data_analysis_ml
📌PyTorch Sentiment Analysis — анализ эмоциональной составляющей текста
В этом репозитории содержатся разные реализации анализа текста в PyTorch:
— с использованием "мешка слов" (bag of words)
— с помощью рекурретной нейросети (RNN)
— посредством свёртной нейросети (CNN)
— с помощью модных трансформеров
🖥 GitHub
@data_analysis_ml
+1
🌟 О работе трансформеров с контекстом
Отличная статья для глубокого понимания, как трансформеры работают с контекстом.
Детально описаны механизмы, благодаря которым это вообще возможно, в том числе и механизм внимания.
Выдвигается гипотеза, что обучение трансформеров в контексте возникает благодаря неявной реализации градиентного спуска по функции потерь, построенной на основе данных, взятых из контекста.
📎 Arxiv
🟡 Кстати, полезная статья об архитектуре трансформеров на Хабре
🟡 Визуализация механизма внимания от 3b1b
@data_analysis_ml
🔥Common Voice 17 теперь на hf.
Common Voice 17 - датасет С 31 175 часами аудиозаписей (и транскрипций) на 124 языках 🎶
Большинство аудио в датасете содержат демографические метаданные, такие как возраст, пол и акцент, которые могут помочь повысить точность систем распознавания речи.
Хотите попробовать?
from datasets import load_dataset
cv17 = load_dataset("mozilla-foundation/common_voice_17_0",
"hi",
split="test",
streaming=True)
https://huggingface.co/datasets/mozilla-foundation/common_voice_17_0
@data_analysis_ml+1
🌟 Cognita — опенсорсный RAG-фреймворк для построения сложных приложений с LLM
🟡Langchain/LlamaIndex предоставляют простые в использовании абстракции, которые можно использовать для быстрых экспериментов и создания прототипов в Jupyter Notebook. Но когда нужно сделать что-то крупнее пет-проекта, возникают ограничения — например, компоненты должны быть модульными и легко масштабируемыми.
И вот здесь отлично пригодится Cognita.
🟡Cognita использует Langchain/Llamaindex под капотом и обеспечивает организацию вашей кодовой базы, где каждый из компонентов RAG является модульным, управляемым API и легко расширяемым. Cognita может быть легко использована локально, при этом инструмент предоставляет вам готовую к производству среду вместе с поддержкой пользовательского интерфейса без кода.
🖥 GitHub
▶️ Затестить Cognita можно тут
@data_analysis_ml
🧠 Open AI только что добавили новую функцию памяти в Chatgpt.
Память теперь доступна всем пользователям ChatGPT Plus.
Пользоваться памятью очень просто: просто запустите новый чат и напишите ChatGPT все, что вы хотели бы, чтобы он запомнил.
Память можно включить или отключить в настройках.
@data_analysis_ml
🌟 Perplexica — открытый поисковой движок с AI
Созданный на основе Perplexity AI, этот движок с открытым исходным кодом не просто ищет в интернете, но и понимает ваши вопросы.
Perplexica использует передовые ML-алгоритмы для уточнения результатов и предоставляет четкие ответы со ссылками на источники.
🖥 GitHub
@ai_machinelearning_big_data
Repost from Machine learning Interview
⭐️ Data Science разбор реальной задачи с собеседования. Прогнозирование оттока клиентов.
▪Смотреть
▪Данные
▪Ноутбук
@machinelearning_interview
👨🎓 100 лекций по математике от Оксфорда
Оксфорд публикует лекции по математике, чтобы дать представление об опыте студентов и о том, как они преподают математику в Оксфорде.
В этом плейлисте собраны лекции из различных курсов за все студенческие годы (включая целые курсы).
За всеми лекциями первого и второго курсов следуют учебные занятия, на которых студенты встречаются со своим преподавателем, чтобы ознакомиться с лекцией и соответствующими заданиями.
Примерно 80 часов отборной математики.
• Плейлист
@data_analysis_ml
🖥 Giskard — библиотека Python для оценки и тестирования LLM-, ML-моделей
Помогает обнаруживать проблемы в моделях.
Сканирует LLM, позволяет определить производительность, фиксирует проблемы безопасности.
Установка:
pip install "giskard[llm]" -U
▶️ Попробовать в Google Colab
🖥 GitHub 3.1k ⭐️
@data_analysis_ml📌ИИ может определить политические взгляды по лицу
🟡Исследователи из Высшей школы бизнеса Стэнфордского университета подтвердили, что распознавание лиц можно использовать, чтобы определять политические убеждения человека. Это создаёт новые угрозы приватности со стороны систем распознавания лиц.
🟡591 человека спросили об их политических предпочтениях, а потом «скормили» их фотографии обученной на распознавание лиц модели. Та смогла по чертам лица определить политические предпочтения участников исследования.
🟡Точность определения сравнивали с точностью предсказаний того, как хорошо собеседования определяют успех на работе или алкоголь повышает агрессивность. Достоверность увеличивалась, если показывать ИИ не только фото, но и добавлять контекст: возраст, пол, этническую принадлежность. Модель определяет не принадлежность к конкретной партии, а скорее спектр взглядов человека — консервативные они или либеральные. Судя по представлению модели и небольшой выборке, у либералов лица меньше, а у консерваторов — больше. Вот и пришли мы к ИИ, который мерит черепа и даёт людям оценку, ориентируясь на «большие данные».
📎 Подробнее
@data_analysis_ml
🌟 Mage-ai — отличная замена Airflow
Позволяет:
• интегрировать и синхронизировать данные из сторонних источников
• создавать конвейеры обработки данных в реальном времени и в пакетном режиме, используя Python, SQL и R
• производить запуск, мониторинг и оркестровку тысяч конвейеров
🖥 GitHub 7k ⭐️
@data_analysis_ml
▶️Microsoft представила Infra Copilot, который использует GitHub Copilot для генерации инфраструктурного кода
⏩Microsoft представила новый инструмент Infra Copilot, предназначенный для помощи в написании кода для инфраструктурных систем (подход Infrastructure as Code). В качестве основы инструмент использует GitHub Copilot.
⏩«Infra Copilot использует возможности машинного обучения для интерпретации намерений, стоящих за промптами, и быстрого создания инфраструктурного когда. Он понимает контекст инфраструктурных задач и позволяет профессионалам задавать вопросы на естественном языке и получать соответствующие предложения по коду», — указывает Microsoft.
⏩Infra Copilot доступен пользователям, у которых установлена последняя версия Visual Studio Code и есть лицензия GitHub Copilot.
@ai_machinelearning_big_data
+4
📌Классификация и ординация с помощью R
В этой статье мы поговорим о том, как делать кластерный анализ и строить тепловые карты экспрессии в R.
Рассмотрим такие понятия как:
• Многомерные данные
• Облако точек в многомерном пространстве
• Коэффициенты сходства-различия
• Евклидово расстояние
• Коэффициент Жаккара
• Иерархическая кластеризация
• Алгоритмы иерархической кластеризации на основании расстояний
• Метод ближайшего соседа
• Метод отдаленного соседа
• Метод невзвешенного попарного среднего
📎 Статья
@data_analysis_ml
+1
⚡️ Искусственный интеллект Adobe превращает размытое видео в HD
🟡Исследователи из Adobe разработали модель генеративного искусственного интеллекта (ИИ) VideoGigaGAN, которая может до восьми раз увеличить разрешение видео, снятого в низком качестве. В описании технологии разработчики утверждают, что новый ИИ превосходит другие методы повышения разрешения видео (VSR), поскольку он обеспечивает высокую детализацию, не добавляя заметных артефактов редактирования.
🟡Как правило, при масштабировании видео с помощью генеративно-состязательных нейросетей в кадрах появляются эффекты мерцания и другие нежелательные артефакты. Другие методы позволяют избежать этого, но картинка теряет четкость и детализацию. VideoGigaGAN обеспечивает высокое качество видео с меньшим количеством проблем, заявляют разработчики.
🟡Компания предоставила несколько примеров, демонстрирующих работу ИИ. В демонстрационных клипах действительно видно высокое качество обработки и незаметны эффекты редактирования. Например, текстура кожи или детали внешности выглядят естественно.
Пока неизвестно, будет ли VideoGigaGAN доступен простым пользователям в Creative Cloud или Adobe планирует иначе использовать новую модель.
▶️ Вживую посмотреть на работу VideoGigaGAN можно тут
@data_analysis_ml
Когда опять ничего не получается
Помните, как котёнок в мультике складывает кубики и приговаривает: «Опять ничего не получается. Ну, и пожалуйста, ну и не нужно»? Так многие бросают английский, думая, что научиться звучать уверенно невозможно.
На самом деле всё реально. Есть три слагаемых в изучении английского, которые помогают прийти к результату и повысить уровень. Первое: чёткая цель, которая будет мотивировать двигаться дальше. Второе: продуманный план обучения, а не отдельные занятия время от времени, чтобы видеть постоянный прогресс. И третье: большое количество разговорной практики, чтобы наконец избавиться от языкового барьера.
На курсах английского от Яндекс Практикума всё именно так:
✺ Преподаватели-профессионалы, прошедшие отбор: они сфокусированы на вашем результате и помогают достигать целей в комфортной обстановке.
✺ План обучения, который адаптируется под текущий уровень языка — так вы не будете снова учить то, что хорошо знаете, а сможете сосредоточиться на темах, которые пока вызывают сложности.
✺ Много разговорной практики, в том числе с иностранцами, чтобы раскрепоститься в общении и почувствовать себя увереннее, например в поездках.
✺ Программа, разработанная методистами с кембриджским дипломом DELTA: чтобы развивать навыки по международным стандартам обучения.
Начните путь к новому уровню английского с малого: запишитесь на бесплатную консультацию. Куратор определит языковой уровень и подберёт курс под ваши цели и амбиции. Всего 30 минут, которые ни к чему вас не обязывают, но помогут поверить в свои силы.
+3
📌Вопросы и ответы к собеседованию по Data Science
Держите, полезная подборка ответов на распространенные вопросы из собеседований по Data Science и немного по ML
🔗 Вопросы/ответы
🔗 14 типичных вопросов с собеседования по ML
🔗 Большая подборка вопросов для собеседования по DS
🔗 Подготовка к собеседованию по ML: ответы на основные вопросы
🔗 Вопросы для собеседования на позицию ML-инженера
🔗 Вопросы с собеседований статистика
🔗 Вопросы по теории вероятности
🔗Материалы для подготовки к интервью по направлению
🔗Задачи с собеседований SQL
@data_analysis_ml
Эффективный способ быстрого освоения ChatGPT.
Создание правильных промптов и обучение нейронной сети - это долгий процесс, требующий значительных временных затрат.
Здесь разработан краткий курс из 5 уроков по ChatGPT. После его прохождения вы сможете создать 9 нейронных сетей, которые помогут вам:
▪️ найти ошибки и оптимизировать код
▪️ генерировать посты в Телеграме
▪️ создавать заголовки для рекламы
* отдать всю рутину на выполнение нейронке
Вы также сможете разработать своих нейро-помощников для продаж, маркетинга и других целей.
Бесплатный доступ доступен сразу после регистрации.
Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8KYXR3
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
