Анализ данных (Data analysis)

前往频道在 Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

显示更多

网络:Machinelearning 俄罗斯12 484 技术与应用2 657...

📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览

频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语语言赛道中的是活跃参与者。目前社区聚集了 50 256 名订阅者，在 技术与应用 类别中位列第 2 657，并在 俄罗斯 地区排名第 12 484 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 50 256 名订阅者。

根据 25 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 38，过去 24 小时变化为 0，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 8.85%。内容发布后 24 小时内通常能获得 6.52% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 4 447 次浏览，首日通常累积 3 278 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 28。
主题关注点： 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

凭借高频更新（最新数据采集于 26 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

50 256

订阅者

无数据24 小时

+377 天

+3830 天

4 447

帖子浏览量

~ 3 27824 小时

~ 3 76448 小时

8.85%

参与率

~ 5

每日帖子数

Ads index

beta

帖子存档

50 256

⚡️ Ребята из Авито запускают набор студентов на новый курс в Академии Аналитиков! Для тех, кто ещё об этом не слышал, — это бесплатная программа онлайн-обучения, на которой можно получить необходимые знания и навыки для работы с данными и погрузиться в специфику работы. Прямо сейчас открыто два направления подготовки — аналитик данных и DS-инженер. Курс будет особенно интересен студентам, но ждём все всех желающих научиться чему-то новому или прокачать свои навыки. Потребуются знания мат. статистики, теории вероятностей и умением программировать на любом языке. Старт в сентябре, а приём заявок до середины июня. Так что ныряем за подробностями 👉 по ссылке — изучаем программу и заполняем заявку. Реклама. ООО «Авито Тех». LdtCK3Ed4

50 256

💫 StarCoder StarCoder - это современный метод коррекции и генерации кода с использованием нейронных сетей, созданный исследовательским сообществом The BigCode, MIT, Университета Пенсильвании и Колумбийского университета. StarCoder улучшает показатели качества и производительности по сравнению с предыдущими моделями, такими как PaLM, LaMDA, LLaMA и OpenAI code-cushman-001. обученная на исходном коде и текстах на естественном языке. Ее обучающие данные включают более 80 различных языков программирования, а также текст, извлеченный из вопросов и коммитов GitHub. ▪Github ▪Модель ▪Demo @data_analysis_ml

50 256

Пока другие волнуются, что нейросети оставят их без работы, попробуйте приручить технологии. Приходите на бесплатный интенсив от Skillfactory. Онлайн-мероприятие пройдет с 13 по 15 июня в 19:30 мск. За три дня вы: — попробуете себя в профессии Data Scientist; — освоите элементарный анализ данных на Python; — создадите и обучите нейросеть; — поймёте, подходит ли вам такая работа. А еще получите полезные подарки. Заберите первый бонус — гайд «Как провести аудит своих навыков» — сразу после регистрации по ссылке: https://go.skillfactory.ru/&erid=LatgBT2jY Реклама, ООО «Скилфэктори», erid: LatgBT2jY

50 256

6 досадных ошибок Sklearn, которые вы можете совершать, и как их избежать Часто Sklearn выдаёт большие красные сообщения об ошибках и предупреждения, когда вы делаете что-то не так. Эти сообщения предполагают, что в вашем коде содержатся ошибки, которые мешают магии Sklearn выполнять свою работу. Но что произойдёт, если вы не получите никаких ошибок или предупреждений? Означает ли это, что вы делаете всё правильно? Не обязательно. Научитесь избегать шести самых серьёзных ошибок, связанных с теорией машинного обучения, которые новички часто совершают через Sklearn. Читать @data_analysis_ml

50 256

⚡️ Стартовал прием заявок на Технологический конкурс НТИ Up Great «Экстренный поиск»! Участникам предстоит преодолеть комплексный технологический барьер, предусматривающий разработку технологий и технических решений, объединенных в единую систему, позволяющую эффективно использовать техническое зрение при поиске пропавших людей с применением беспилотных воздушных судов (БВС). На первом этапе (Сателлит №1) участникам необходимо разработать программное решение для поиска объектов (людей) на изображениях, полученных с БВС. Призовой фонд Сателлита №1 составляет 5 млн руб. Лучшим командам, удовлетворяющим требованиям технического регламента, организаторами будут предоставлены БВС для участия во втором этапе (Сателлит №2) и финале конкурса. Призерами и победителями могут стать только налоговые резиденты РФ. 📲 Заявки на Сателлит № 1 принимаются до 12 июня 2023 г. по ссылке. Конкурс организуется совместно МФТИ, Фондом НТИ и добровольческим поисково-спасательным отрядом «ЛизаАлерт». Общий призовой фонд составляет 135 млн руб.

50 256

💬 Полезные NLP инструменты: Библиотека fastText fastText - это библиотека для анализа и классификации текста. Вот как загрузить и использовать предварительно обученные модели:

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="facebook/fasttext-en-vectors", filename="model.bin")
model = fasttext.load_model(model_path)
model.words

['the', 'of', 'and', 'to', 'in', 'a', 'that', 'is', ...]

len(model.words)

145940

model['bread']

array([ 4.89417791e-01,  1.60882145e-01, -2.25947708e-01, -2.94273376e-01,
       -1.04577184e-01,  1.17962055e-01,  1.34821936e-01, -2.41778508e-01, ...])

В следующем примеры мы будем использовать метод ближайших соседей:

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="facebook/fasttext-en-nearest-neighbors", filename="model.bin")
model = fasttext.load_model(model_path)
model.get_nearest_neighbors("bread", k=5)

[(0.5641006231307983, 'butter'), 
 (0.48875734210014343, 'loaf'), 
 (0.4491206705570221, 'eat'), 
 (0.42444291710853577, 'food'), 
 (0.4229326844215393, 'cheese')]

Вот как использовать эту модель для определения языка из введенного текста:

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="facebook/fasttext-language-identification", filename="model.bin")
model = fasttext.load_model(model_path)
model.predict("Hello, world!")

(('__label__eng_Latn',), array([0.81148803]))

model.predict("Hello, world!", k=5)

(('__label__eng_Latn', '__label__vie_Latn', '__label__nld_Latn', '__label__pol_Latn', '__label__deu_Latn'), 
 array([0.61224753, 0.21323682, 0.09696738, 0.01359863, 0.01319415]))

▪Github @data_analysis_ml

50 256

Лаборатория Apache Spark Advanced – хардкор-программа для middle и senior дата-инженеров от Newprolab ➞ летний поток c 3 по 31 июля онлайн ➞ 8 занятий по 3 часа с преподавателем в зуме ➞ 4 лабы, объединенные в один проект ➞ облачный кластер для выполнения лаб ➞ автоматическая проверка лаб чекерами ➞ малая группа и помощь эксперта ➞ преподаватель: Сергей Гришаев, Architect, Сбермаркет Вы разработаете коннектор к гибридному хранилищу и разберетесь раз и навсегда, что скрыто в Spark "под капотом" и как ускорить обработку данных в своих проектах До конца июня действует специальный промокод friends10, который дает еще 10% скидки от цены, указанной на сайте Узнать подробности и стать участником ➞

50 256

8 инструментов распознавания речи: 1. DeepSpeech на базе Baidu DeepSpeech, позволяющий расшифровать аудиофайлы с использованием предварительно обученных моделей или обучить пользовательский набор данных. 2. wav2letter - open-course набор инструментов от Facebook AI Research, объединенный с библиотекой Flashlight. 3. OpenSeq2Seq- исследовательский проект от NVIDIA по проблемам преобразования последовательностей в последовательности. 4. TensorFlowASR – это бесплатный набор инструментов с открытым исходным кодом от Tensorflow, который включает в себя обученные модели на основе рекуррентных нейронных сетей с CTC. 5. SpeechRecognition - проект, предоставляющий доступ к нескольким моделям автоматического распознавания речи, включая оболочки для речевых API от Google, Microsoft Azure и IBM. 6. Yandex SpeechKit от Яндекса - программный продукт, который полностью разработан и настроен. 7. SmartSpeech от СберDevices - проект предоставляет возможность использовать несколько моделей для автоматического распознавания речи, включая оболочки для речевых API от Google, Microsoft Azure и IBM. 8. Сервис Google Документы позволяет переводить устную речь в записанный текст. Это встроенная функция с поддержкой разных языков. Для активации голосового ввода перейдите в раздел «Инструменты» и кликните на «Голосовой ввод»

50 256

🔥 8 июня пройдет вебинар «Интеграции с помощью API и интеграционной шины» Что будет на занятии: — роль интеграций в сложных бизнес-процессах; — когда и для чего используется интеграция через интеграционную шину; — методы и инструменты при описании и документировании API (OpenApi - Swagger, SOAP - WSDL). Спикер: Семен Тикунов — системный аналитик в Сбере. Более 10 лет в системном анализе. Преподаватель курса «Системный аналитик в FinTech». 🚀 Стартуем 8 июня в 19.00 по МСК Регистрируйся бесплатно 👇 https://clck.ru/34ahpL

50 256

Прощайте, циклы в Python: знакомство с возможностями векторизации В этой статье я хочу поделиться с вами захватывающей техникой, которая произвела революцию в моём подходе к анализу и визуализации данных в Python. Она называется векторизацией и позволяет вам попрощаться с циклами и приветствовать более эффективный и элегантный способ программирования. ▪ Читать @data_analysis_ml

50 256

👉Присоединяйтесь к нашему сообществу Data Analyst REBRAIN, если вы интересуетесь аналитикой данных, управлением проектами или маркетингом. У нас для вас есть множество открытых онлайн-практикумов каждый месяц, которые проводят профессиональные аналитики. В рамках практикумов мы разбираем реальные кейсы анализа данных с использованием самых актуальных инструментов, таких как Python, SQL, Tableau, бизнес-метрики и визуализация данных, статистика, теория вероятностей и другие. Уровень сложности и направление каждого практикума подобраны таким образом, чтобы каждый мог найти для себя интересные задачи и развиваться в соответствии с уровнем своей компетенции. ✔️ Подключайтесь к нам уже сегодня и начинайте развивать свои навыки в области анализа данных совершенно бесплатно!

50 256

🔥 5 примеров использования Redis с кодом на Python 1. Caching Redis можно использовать для кэширования часто используемых данных, снижая нагрузку на ваше основное хранилище данных. Вот пример того, как реализовать кэширование с помощью Redis в Python

import redis

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def get_data_from_cache(key):
    # Check if data exists in the cache
    if r.exists(key):
        # Retrieve data from the cache
        data = r.get(key)
        return data.decode('utf-8')  # Convert bytes to string
    else:
        # Fetch data from the primary data source
        data = fetch_data_from_source()

        # Store data in the cache with a timeout of 1 hour
        r.setex(key, 3600, data)
        return data

2. Pub/Sub (Publish/Subscribe): Redis поддерживает паттерн pub/sub, позволяя вам создавать системы обмена сообщениями. Вот пример:

import redis
import time

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def publish_message(channel, message):
    # Publish a message to the specified channel
    r.publish(channel, message)

def subscribe_channel(channel):
    # Subscribe to a channel and process incoming messages
    pubsub = r.pubsub()
    pubsub.subscribe(channel)

    for message in pubsub.listen():
        print(message['data'].decode('utf-8'))  # Process the received message

3. Rate Limiting: Redis можно использовать для реализации ограничения скорости, чтобы контролировать количество запросов или операций за период времени. Пример:

import redis

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def check_rate_limit(ip_address):
    # Increment the request count for the IP address
    request_count = r.incr(ip_address)

    # If the count exceeds the limit (e.g., 100 requests per minute), deny the request
    if request_count > 100:
        return False

    return True

4. Session Storage: Redis можно использовать для хранения данных сеанса в веб-приложениях. Пример:

import redis
import uuid

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def create_session(user_id):
    # Generate a unique session ID
    session_id = str(uuid.uuid4())

    # Store the session data in Redis with a timeout of 30 minutes
    r.setex(session_id, 1800, user_id)

    return session_id

def get_user_id_from_session(session_id):
    # Retrieve the user ID from the session data in Redis
    user_id = r.get(session_id)

    if user_id is not None:
        return user_id.decode('utf-8')  # Convert bytes to string
    else:
        return None

5. Leaderboard: Redis можно использовать для создания таблиц лидеров или рейтингов на основе набранных баллов. Пример:

import redis

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def update_score(player_id, score):
    # Update the score of a player
    r.zadd('leaderboard', {player_id: score})

def get_leaderboard():
    # Get the top 10 players from the leaderboard
    leaderboard = r.zrevrange('leaderboard', 0, 9, withscores=True)

    for player, score in leaderboard:
        print(f"Player: {player.decode('utf-8')}, Score: {score}")

Это лишь несколько примеров того, как Redis можно использовать в Python. Redis предоставляет множество других мощных функций и структур данных, которые можно использовать в различных приложениях. ▪Github @pythonl

50 256

Что дают аналитику навыки машинного обучения? Представьте двух аналитиков: один анализирует данные продукта и визуализирует результаты; второй делает то же самое, но потом ещё и исследует неоднозначные события, глубже погружаясь в продукт, и прогнозирует будущие показатели. Кто приносит бизнесу больше пользы? Однозначно, второй. Он решает больше задач компании. Знание машинного обучения поможет вам стать более востребованным специалистом. Освоить всё необходимое для работы можно на курсе Start ML. Вы будете учиться под руководством опытных специалистов из Райффайзен и Яндекс. За 7 месяцев вы прокачаетесь в написании кода на Python, научитесь обучать классические модели и нейронные сети, а также оценивать их влияние на бизнес с помощью статистики и A/B-тестов — всё на реальных задачах бизнеса. Новый поток стартует уже 8 июня, а по промокоду DATAML21 для вас действует скидка 5%. Присоединяйтесь! [Зарегистрироваться]

50 256

🖥 Как переписать и оптимизировать ваши SQL-запросы к Pandas на пяти простых примерах Аналитики данных, инженеры и учёные одинаково знакомы с SQL. Язык запросов по-прежнему широко используется для работы с реляционными базами данных любого типа. Однако, в настоящее время, всё больше и больше, особенно для аналитиков данных, растут технические требования, и ожидается, что люди, по крайней мере, знают основы языка программирования. При работе с данными Python и Pandas являются обычным дополнением к списку требований в описании вакансий. Хотя Pandas может быть новым для людей, знакомых с SQL, концепции выбора, фильтрации и агрегирования данных в SQL легко переносятся в Pandas. Давайте рассмотрим в этой статье некоторые распространённые SQL-запросы и способы их написания и оптимизации в Pandas. ▪ Читать @data_analysis_ml

50 256

🔥 Подборка полезных папок с каналами для датасаентисов Папки, где вы найдете каналы с разбором лучших практик написания кода на Python и Golang до каналов по машинному обучению и нейросетям (папки работают на последних версиях тг). https://t.me/addlist/2Ls-snqEeytkMDgy - Машинное обучение https://t.me/addlist/8vDUwYRGujRmZjFi - Python https://t.me/addlist/MUtJEeJSxeY2YTFi - Golang

50 256

🗺 Список полезных Python-библиотек для работы с геоданными: 1. Gmaps - библиотека для работы с Google maps, кот позволяет визуализировать и взаимодействовать с геоданными. 2. Leafmap - Python пакет для создания интерактивных карт для геопространственного анализа. Эта библиотека доступна в среде Jupyter, Google Colab, Jupyter Notebook и JupyterLab, и позволяет анализировать и визуализировать геоданные без особого труда. 3. Folium - это Python-библиотека для бычтрой визуализации геоданных, которая предоставляет интерфейс Python для работы с leaflet.js, одной из самых популярных библиотек JavaScript, используемых для создания интерактивных карт. Библиотека позволяет работать с файлами GeoJSON и TopoJSON, создавать фоновые картограммы с различными цветовыми схемами, персонализировать всплывающие подсказки и интерактивные карты-врезки. 4. Geopandas - это библиотека, которая предназначена для работы с геоданными в Python. Она предоставляет объект геодатафрейм, который по своей сущности аналогичен датафрейму Pandas, но который содержит информацию о геометрии, являющейся определением пространственного объекта. 5. Ipyleaflet - это интерактивная и многофункциональная библиотека виджетов, которая предоставляет возможность визуализировать карты.

50 256

Даже если у вас нет диплома мехмата, вы можете успешно работать в IT. Например, крутые аналитики получаются из научных работников, исследователей, продавцов, медиков и других специалистов. Каких ещё — расскажем на вебинаре. А ещё поделимся историями студентов, которые кардинально меняли сферу работы на IT. → Бесплатно, 6 июня в 19:00 Мск Вебинар проведёт Артём Исакин, руководитель трудоустройства в направлении анализа данных Яндекс Практикума. Вы узнаете: — из каких 10 профессий чаще всего переходят в анализ данных; — какие навыки и качества помогают закончить обучение и найти работу; — как кардинально поменять сферу деятельности; — как новичкам «переупаковать» прошлый опыт, чтобы понравиться работодателям. В конце можно будет задать вопросы и попросить совета. → Зарегистрироваться на вебинар

50 256

💡 Начало работы с pytest Если вы хотите протестировать свою функцию на разных примерах, используйте декоратор pytest.mark.parametrize из библиотеки pytest. В приведенном выше коде ожидается, что первое предложение будет содержать слово "duck", а второе предложение не будет содержать этого слова. При запуске pytest прошло 2 теста.


import pytest

def text_contain_word(word: str, text: str):
    '''Find whether the text contains a particular word'''
    
    return word in text

test = [
    ('There is a duck in this text',True),
    ('There is nothing here', False)
    ]

@pytest.mark.parametrize('sample, expected', test)
def test_text_contain_word(sample, expected):

    word = 'duck'

    assert text_contain_word(word, sample) == expected

▪Github ▪Python Testing с pytest @data_analysis_ml

50 256

В сервисе Yandex Data Proc стало доступно создание управляемых кластеров Hive Metastore (Public Preview) Hive Metastore связывает разнородные ETL-системы и инструменты для работы с общими данными и упрощает их развёртывание. Кластеры Metastore управляют табличными метаданными объектов, которые находятся в бакетах Object Storage. Теперь решать задачи подготовки и очистки данных, создания хранилищ и предметно-ориентированных витрин данных стало проще. ➡️ Подробнее о новинке и о том, как первым получить доступ по ссылке