Анализ данных (Data analysis)

Ir al canal en Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Red:Machinelearning Rusia12 484 Tecnologías y Aplicaciones2 657...

📈 Análisis del canal de Telegram Анализ данных (Data analysis)

El canal Анализ данных (Data analysis) (@data_analysis_ml) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 50 256 suscriptores, ocupando la posición 2 657 en la categoría Tecnologías y Aplicaciones y el puesto 12 484 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 50 256 suscriptores.

Según los últimos datos del 25 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de 38, y en las últimas 24 horas de 0, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 8.85%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 6.52% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 4 447 visualizaciones. En el primer día suele acumular 3 278 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 28.
Intereses temáticos: El contenido se centra en temas clave como llm, контекст, openai, архитектура, deepseek.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 26 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

50 256

Suscriptores

Sin datos24 horas

+377 días

+3830 días

4 447

Visitas de la publicación

~ 3 27824 horas

~ 3 76448 horas

8.85%

Tasa de compromiso

~ 5

Mensajes por día

Ads index

beta

Archivo de publicaciones

50 256

⚡️ Ребята из Авито запускают набор студентов на новый курс в Академии Аналитиков! Для тех, кто ещё об этом не слышал, — это бесплатная программа онлайн-обучения, на которой можно получить необходимые знания и навыки для работы с данными и погрузиться в специфику работы. Прямо сейчас открыто два направления подготовки — аналитик данных и DS-инженер. Курс будет особенно интересен студентам, но ждём все всех желающих научиться чему-то новому или прокачать свои навыки. Потребуются знания мат. статистики, теории вероятностей и умением программировать на любом языке. Старт в сентябре, а приём заявок до середины июня. Так что ныряем за подробностями 👉 по ссылке — изучаем программу и заполняем заявку. Реклама. ООО «Авито Тех». LdtCK3Ed4

50 256

💫 StarCoder StarCoder - это современный метод коррекции и генерации кода с использованием нейронных сетей, созданный исследовательским сообществом The BigCode, MIT, Университета Пенсильвании и Колумбийского университета. StarCoder улучшает показатели качества и производительности по сравнению с предыдущими моделями, такими как PaLM, LaMDA, LLaMA и OpenAI code-cushman-001. обученная на исходном коде и текстах на естественном языке. Ее обучающие данные включают более 80 различных языков программирования, а также текст, извлеченный из вопросов и коммитов GitHub. ▪Github ▪Модель ▪Demo @data_analysis_ml

50 256

Пока другие волнуются, что нейросети оставят их без работы, попробуйте приручить технологии. Приходите на бесплатный интенсив от Skillfactory. Онлайн-мероприятие пройдет с 13 по 15 июня в 19:30 мск. За три дня вы: — попробуете себя в профессии Data Scientist; — освоите элементарный анализ данных на Python; — создадите и обучите нейросеть; — поймёте, подходит ли вам такая работа. А еще получите полезные подарки. Заберите первый бонус — гайд «Как провести аудит своих навыков» — сразу после регистрации по ссылке: https://go.skillfactory.ru/&erid=LatgBT2jY Реклама, ООО «Скилфэктори», erid: LatgBT2jY

50 256

6 досадных ошибок Sklearn, которые вы можете совершать, и как их избежать Часто Sklearn выдаёт большие красные сообщения об ошибках и предупреждения, когда вы делаете что-то не так. Эти сообщения предполагают, что в вашем коде содержатся ошибки, которые мешают магии Sklearn выполнять свою работу. Но что произойдёт, если вы не получите никаких ошибок или предупреждений? Означает ли это, что вы делаете всё правильно? Не обязательно. Научитесь избегать шести самых серьёзных ошибок, связанных с теорией машинного обучения, которые новички часто совершают через Sklearn. Читать @data_analysis_ml

50 256

⚡️ Стартовал прием заявок на Технологический конкурс НТИ Up Great «Экстренный поиск»! Участникам предстоит преодолеть комплексный технологический барьер, предусматривающий разработку технологий и технических решений, объединенных в единую систему, позволяющую эффективно использовать техническое зрение при поиске пропавших людей с применением беспилотных воздушных судов (БВС). На первом этапе (Сателлит №1) участникам необходимо разработать программное решение для поиска объектов (людей) на изображениях, полученных с БВС. Призовой фонд Сателлита №1 составляет 5 млн руб. Лучшим командам, удовлетворяющим требованиям технического регламента, организаторами будут предоставлены БВС для участия во втором этапе (Сателлит №2) и финале конкурса. Призерами и победителями могут стать только налоговые резиденты РФ. 📲 Заявки на Сателлит № 1 принимаются до 12 июня 2023 г. по ссылке. Конкурс организуется совместно МФТИ, Фондом НТИ и добровольческим поисково-спасательным отрядом «ЛизаАлерт». Общий призовой фонд составляет 135 млн руб.

50 256

💬 Полезные NLP инструменты: Библиотека fastText fastText - это библиотека для анализа и классификации текста. Вот как загрузить и использовать предварительно обученные модели:

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="facebook/fasttext-en-vectors", filename="model.bin")
model = fasttext.load_model(model_path)
model.words

['the', 'of', 'and', 'to', 'in', 'a', 'that', 'is', ...]

len(model.words)

145940

model['bread']

array([ 4.89417791e-01,  1.60882145e-01, -2.25947708e-01, -2.94273376e-01,
       -1.04577184e-01,  1.17962055e-01,  1.34821936e-01, -2.41778508e-01, ...])

В следующем примеры мы будем использовать метод ближайших соседей:

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="facebook/fasttext-en-nearest-neighbors", filename="model.bin")
model = fasttext.load_model(model_path)
model.get_nearest_neighbors("bread", k=5)

[(0.5641006231307983, 'butter'), 
 (0.48875734210014343, 'loaf'), 
 (0.4491206705570221, 'eat'), 
 (0.42444291710853577, 'food'), 
 (0.4229326844215393, 'cheese')]

Вот как использовать эту модель для определения языка из введенного текста:

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="facebook/fasttext-language-identification", filename="model.bin")
model = fasttext.load_model(model_path)
model.predict("Hello, world!")

(('__label__eng_Latn',), array([0.81148803]))

model.predict("Hello, world!", k=5)

(('__label__eng_Latn', '__label__vie_Latn', '__label__nld_Latn', '__label__pol_Latn', '__label__deu_Latn'), 
 array([0.61224753, 0.21323682, 0.09696738, 0.01359863, 0.01319415]))

▪Github @data_analysis_ml

50 256

Лаборатория Apache Spark Advanced – хардкор-программа для middle и senior дата-инженеров от Newprolab ➞ летний поток c 3 по 31 июля онлайн ➞ 8 занятий по 3 часа с преподавателем в зуме ➞ 4 лабы, объединенные в один проект ➞ облачный кластер для выполнения лаб ➞ автоматическая проверка лаб чекерами ➞ малая группа и помощь эксперта ➞ преподаватель: Сергей Гришаев, Architect, Сбермаркет Вы разработаете коннектор к гибридному хранилищу и разберетесь раз и навсегда, что скрыто в Spark "под капотом" и как ускорить обработку данных в своих проектах До конца июня действует специальный промокод friends10, который дает еще 10% скидки от цены, указанной на сайте Узнать подробности и стать участником ➞

50 256

8 инструментов распознавания речи: 1. DeepSpeech на базе Baidu DeepSpeech, позволяющий расшифровать аудиофайлы с использованием предварительно обученных моделей или обучить пользовательский набор данных. 2. wav2letter - open-course набор инструментов от Facebook AI Research, объединенный с библиотекой Flashlight. 3. OpenSeq2Seq- исследовательский проект от NVIDIA по проблемам преобразования последовательностей в последовательности. 4. TensorFlowASR – это бесплатный набор инструментов с открытым исходным кодом от Tensorflow, который включает в себя обученные модели на основе рекуррентных нейронных сетей с CTC. 5. SpeechRecognition - проект, предоставляющий доступ к нескольким моделям автоматического распознавания речи, включая оболочки для речевых API от Google, Microsoft Azure и IBM. 6. Yandex SpeechKit от Яндекса - программный продукт, который полностью разработан и настроен. 7. SmartSpeech от СберDevices - проект предоставляет возможность использовать несколько моделей для автоматического распознавания речи, включая оболочки для речевых API от Google, Microsoft Azure и IBM. 8. Сервис Google Документы позволяет переводить устную речь в записанный текст. Это встроенная функция с поддержкой разных языков. Для активации голосового ввода перейдите в раздел «Инструменты» и кликните на «Голосовой ввод»

50 256

🔥 8 июня пройдет вебинар «Интеграции с помощью API и интеграционной шины» Что будет на занятии: — роль интеграций в сложных бизнес-процессах; — когда и для чего используется интеграция через интеграционную шину; — методы и инструменты при описании и документировании API (OpenApi - Swagger, SOAP - WSDL). Спикер: Семен Тикунов — системный аналитик в Сбере. Более 10 лет в системном анализе. Преподаватель курса «Системный аналитик в FinTech». 🚀 Стартуем 8 июня в 19.00 по МСК Регистрируйся бесплатно 👇 https://clck.ru/34ahpL

50 256

Прощайте, циклы в Python: знакомство с возможностями векторизации В этой статье я хочу поделиться с вами захватывающей техникой, которая произвела революцию в моём подходе к анализу и визуализации данных в Python. Она называется векторизацией и позволяет вам попрощаться с циклами и приветствовать более эффективный и элегантный способ программирования. ▪ Читать @data_analysis_ml

50 256

👉Присоединяйтесь к нашему сообществу Data Analyst REBRAIN, если вы интересуетесь аналитикой данных, управлением проектами или маркетингом. У нас для вас есть множество открытых онлайн-практикумов каждый месяц, которые проводят профессиональные аналитики. В рамках практикумов мы разбираем реальные кейсы анализа данных с использованием самых актуальных инструментов, таких как Python, SQL, Tableau, бизнес-метрики и визуализация данных, статистика, теория вероятностей и другие. Уровень сложности и направление каждого практикума подобраны таким образом, чтобы каждый мог найти для себя интересные задачи и развиваться в соответствии с уровнем своей компетенции. ✔️ Подключайтесь к нам уже сегодня и начинайте развивать свои навыки в области анализа данных совершенно бесплатно!

50 256

🔥 5 примеров использования Redis с кодом на Python 1. Caching Redis можно использовать для кэширования часто используемых данных, снижая нагрузку на ваше основное хранилище данных. Вот пример того, как реализовать кэширование с помощью Redis в Python

import redis

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def get_data_from_cache(key):
    # Check if data exists in the cache
    if r.exists(key):
        # Retrieve data from the cache
        data = r.get(key)
        return data.decode('utf-8')  # Convert bytes to string
    else:
        # Fetch data from the primary data source
        data = fetch_data_from_source()

        # Store data in the cache with a timeout of 1 hour
        r.setex(key, 3600, data)
        return data

2. Pub/Sub (Publish/Subscribe): Redis поддерживает паттерн pub/sub, позволяя вам создавать системы обмена сообщениями. Вот пример:

import redis
import time

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def publish_message(channel, message):
    # Publish a message to the specified channel
    r.publish(channel, message)

def subscribe_channel(channel):
    # Subscribe to a channel and process incoming messages
    pubsub = r.pubsub()
    pubsub.subscribe(channel)

    for message in pubsub.listen():
        print(message['data'].decode('utf-8'))  # Process the received message

3. Rate Limiting: Redis можно использовать для реализации ограничения скорости, чтобы контролировать количество запросов или операций за период времени. Пример:

import redis

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def check_rate_limit(ip_address):
    # Increment the request count for the IP address
    request_count = r.incr(ip_address)

    # If the count exceeds the limit (e.g., 100 requests per minute), deny the request
    if request_count > 100:
        return False

    return True

4. Session Storage: Redis можно использовать для хранения данных сеанса в веб-приложениях. Пример:

import redis
import uuid

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def create_session(user_id):
    # Generate a unique session ID
    session_id = str(uuid.uuid4())

    # Store the session data in Redis with a timeout of 30 minutes
    r.setex(session_id, 1800, user_id)

    return session_id

def get_user_id_from_session(session_id):
    # Retrieve the user ID from the session data in Redis
    user_id = r.get(session_id)

    if user_id is not None:
        return user_id.decode('utf-8')  # Convert bytes to string
    else:
        return None

5. Leaderboard: Redis можно использовать для создания таблиц лидеров или рейтингов на основе набранных баллов. Пример:

import redis

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def update_score(player_id, score):
    # Update the score of a player
    r.zadd('leaderboard', {player_id: score})

def get_leaderboard():
    # Get the top 10 players from the leaderboard
    leaderboard = r.zrevrange('leaderboard', 0, 9, withscores=True)

    for player, score in leaderboard:
        print(f"Player: {player.decode('utf-8')}, Score: {score}")

Это лишь несколько примеров того, как Redis можно использовать в Python. Redis предоставляет множество других мощных функций и структур данных, которые можно использовать в различных приложениях. ▪Github @pythonl

50 256

Что дают аналитику навыки машинного обучения? Представьте двух аналитиков: один анализирует данные продукта и визуализирует результаты; второй делает то же самое, но потом ещё и исследует неоднозначные события, глубже погружаясь в продукт, и прогнозирует будущие показатели. Кто приносит бизнесу больше пользы? Однозначно, второй. Он решает больше задач компании. Знание машинного обучения поможет вам стать более востребованным специалистом. Освоить всё необходимое для работы можно на курсе Start ML. Вы будете учиться под руководством опытных специалистов из Райффайзен и Яндекс. За 7 месяцев вы прокачаетесь в написании кода на Python, научитесь обучать классические модели и нейронные сети, а также оценивать их влияние на бизнес с помощью статистики и A/B-тестов — всё на реальных задачах бизнеса. Новый поток стартует уже 8 июня, а по промокоду DATAML21 для вас действует скидка 5%. Присоединяйтесь! [Зарегистрироваться]

50 256

🖥 Как переписать и оптимизировать ваши SQL-запросы к Pandas на пяти простых примерах Аналитики данных, инженеры и учёные одинаково знакомы с SQL. Язык запросов по-прежнему широко используется для работы с реляционными базами данных любого типа. Однако, в настоящее время, всё больше и больше, особенно для аналитиков данных, растут технические требования, и ожидается, что люди, по крайней мере, знают основы языка программирования. При работе с данными Python и Pandas являются обычным дополнением к списку требований в описании вакансий. Хотя Pandas может быть новым для людей, знакомых с SQL, концепции выбора, фильтрации и агрегирования данных в SQL легко переносятся в Pandas. Давайте рассмотрим в этой статье некоторые распространённые SQL-запросы и способы их написания и оптимизации в Pandas. ▪ Читать @data_analysis_ml

50 256

🔥 Подборка полезных папок с каналами для датасаентисов Папки, где вы найдете каналы с разбором лучших практик написания кода на Python и Golang до каналов по машинному обучению и нейросетям (папки работают на последних версиях тг). https://t.me/addlist/2Ls-snqEeytkMDgy - Машинное обучение https://t.me/addlist/8vDUwYRGujRmZjFi - Python https://t.me/addlist/MUtJEeJSxeY2YTFi - Golang

50 256

🗺 Список полезных Python-библиотек для работы с геоданными: 1. Gmaps - библиотека для работы с Google maps, кот позволяет визуализировать и взаимодействовать с геоданными. 2. Leafmap - Python пакет для создания интерактивных карт для геопространственного анализа. Эта библиотека доступна в среде Jupyter, Google Colab, Jupyter Notebook и JupyterLab, и позволяет анализировать и визуализировать геоданные без особого труда. 3. Folium - это Python-библиотека для бычтрой визуализации геоданных, которая предоставляет интерфейс Python для работы с leaflet.js, одной из самых популярных библиотек JavaScript, используемых для создания интерактивных карт. Библиотека позволяет работать с файлами GeoJSON и TopoJSON, создавать фоновые картограммы с различными цветовыми схемами, персонализировать всплывающие подсказки и интерактивные карты-врезки. 4. Geopandas - это библиотека, которая предназначена для работы с геоданными в Python. Она предоставляет объект геодатафрейм, который по своей сущности аналогичен датафрейму Pandas, но который содержит информацию о геометрии, являющейся определением пространственного объекта. 5. Ipyleaflet - это интерактивная и многофункциональная библиотека виджетов, которая предоставляет возможность визуализировать карты.

50 256

Даже если у вас нет диплома мехмата, вы можете успешно работать в IT. Например, крутые аналитики получаются из научных работников, исследователей, продавцов, медиков и других специалистов. Каких ещё — расскажем на вебинаре. А ещё поделимся историями студентов, которые кардинально меняли сферу работы на IT. → Бесплатно, 6 июня в 19:00 Мск Вебинар проведёт Артём Исакин, руководитель трудоустройства в направлении анализа данных Яндекс Практикума. Вы узнаете: — из каких 10 профессий чаще всего переходят в анализ данных; — какие навыки и качества помогают закончить обучение и найти работу; — как кардинально поменять сферу деятельности; — как новичкам «переупаковать» прошлый опыт, чтобы понравиться работодателям. В конце можно будет задать вопросы и попросить совета. → Зарегистрироваться на вебинар

50 256

💡 Начало работы с pytest Если вы хотите протестировать свою функцию на разных примерах, используйте декоратор pytest.mark.parametrize из библиотеки pytest. В приведенном выше коде ожидается, что первое предложение будет содержать слово "duck", а второе предложение не будет содержать этого слова. При запуске pytest прошло 2 теста.


import pytest

def text_contain_word(word: str, text: str):
    '''Find whether the text contains a particular word'''
    
    return word in text

test = [
    ('There is a duck in this text',True),
    ('There is nothing here', False)
    ]

@pytest.mark.parametrize('sample, expected', test)
def test_text_contain_word(sample, expected):

    word = 'duck'

    assert text_contain_word(word, sample) == expected

▪Github ▪Python Testing с pytest @data_analysis_ml

50 256

В сервисе Yandex Data Proc стало доступно создание управляемых кластеров Hive Metastore (Public Preview) Hive Metastore связывает разнородные ETL-системы и инструменты для работы с общими данными и упрощает их развёртывание. Кластеры Metastore управляют табличными метаданными объектов, которые находятся в бакетах Object Storage. Теперь решать задачи подготовки и очистки данных, создания хранилищ и предметно-ориентированных витрин данных стало проще. ➡️ Подробнее о новинке и о том, как первым получить доступ по ссылке