Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 484 Technologies & Applications2 657...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 256 subscribers, ranking 2 657 in the Technologies & Applications category and 12 484 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 256 subscribers.

According to the latest data from 25 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 38 over the last 30 days and by 0 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.85%. Within the first 24 hours after publication, content typically collects 6.52% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 447 views. Within the first day, a publication typically gains 3 278 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 28.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 26 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 256

Subscribers

No data24 hours

+377 days

+3830 days

4 447

Post views

~ 3 27824 hours

~ 3 76448 hours

8.85%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 256

⚡️ Ребята из Авито запускают набор студентов на новый курс в Академии Аналитиков! Для тех, кто ещё об этом не слышал, — это бесплатная программа онлайн-обучения, на которой можно получить необходимые знания и навыки для работы с данными и погрузиться в специфику работы. Прямо сейчас открыто два направления подготовки — аналитик данных и DS-инженер. Курс будет особенно интересен студентам, но ждём все всех желающих научиться чему-то новому или прокачать свои навыки. Потребуются знания мат. статистики, теории вероятностей и умением программировать на любом языке. Старт в сентябре, а приём заявок до середины июня. Так что ныряем за подробностями 👉 по ссылке — изучаем программу и заполняем заявку. Реклама. ООО «Авито Тех». LdtCK3Ed4

50 256

💫 StarCoder StarCoder - это современный метод коррекции и генерации кода с использованием нейронных сетей, созданный исследовательским сообществом The BigCode, MIT, Университета Пенсильвании и Колумбийского университета. StarCoder улучшает показатели качества и производительности по сравнению с предыдущими моделями, такими как PaLM, LaMDA, LLaMA и OpenAI code-cushman-001. обученная на исходном коде и текстах на естественном языке. Ее обучающие данные включают более 80 различных языков программирования, а также текст, извлеченный из вопросов и коммитов GitHub. ▪Github ▪Модель ▪Demo @data_analysis_ml

50 256

Пока другие волнуются, что нейросети оставят их без работы, попробуйте приручить технологии. Приходите на бесплатный интенсив от Skillfactory. Онлайн-мероприятие пройдет с 13 по 15 июня в 19:30 мск. За три дня вы: — попробуете себя в профессии Data Scientist; — освоите элементарный анализ данных на Python; — создадите и обучите нейросеть; — поймёте, подходит ли вам такая работа. А еще получите полезные подарки. Заберите первый бонус — гайд «Как провести аудит своих навыков» — сразу после регистрации по ссылке: https://go.skillfactory.ru/&erid=LatgBT2jY Реклама, ООО «Скилфэктори», erid: LatgBT2jY

50 256

6 досадных ошибок Sklearn, которые вы можете совершать, и как их избежать Часто Sklearn выдаёт большие красные сообщения об ошибках и предупреждения, когда вы делаете что-то не так. Эти сообщения предполагают, что в вашем коде содержатся ошибки, которые мешают магии Sklearn выполнять свою работу. Но что произойдёт, если вы не получите никаких ошибок или предупреждений? Означает ли это, что вы делаете всё правильно? Не обязательно. Научитесь избегать шести самых серьёзных ошибок, связанных с теорией машинного обучения, которые новички часто совершают через Sklearn. Читать @data_analysis_ml

50 256

⚡️ Стартовал прием заявок на Технологический конкурс НТИ Up Great «Экстренный поиск»! Участникам предстоит преодолеть комплексный технологический барьер, предусматривающий разработку технологий и технических решений, объединенных в единую систему, позволяющую эффективно использовать техническое зрение при поиске пропавших людей с применением беспилотных воздушных судов (БВС). На первом этапе (Сателлит №1) участникам необходимо разработать программное решение для поиска объектов (людей) на изображениях, полученных с БВС. Призовой фонд Сателлита №1 составляет 5 млн руб. Лучшим командам, удовлетворяющим требованиям технического регламента, организаторами будут предоставлены БВС для участия во втором этапе (Сателлит №2) и финале конкурса. Призерами и победителями могут стать только налоговые резиденты РФ. 📲 Заявки на Сателлит № 1 принимаются до 12 июня 2023 г. по ссылке. Конкурс организуется совместно МФТИ, Фондом НТИ и добровольческим поисково-спасательным отрядом «ЛизаАлерт». Общий призовой фонд составляет 135 млн руб.

50 256

💬 Полезные NLP инструменты: Библиотека fastText fastText - это библиотека для анализа и классификации текста. Вот как загрузить и использовать предварительно обученные модели:

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="facebook/fasttext-en-vectors", filename="model.bin")
model = fasttext.load_model(model_path)
model.words

['the', 'of', 'and', 'to', 'in', 'a', 'that', 'is', ...]

len(model.words)

145940

model['bread']

array([ 4.89417791e-01,  1.60882145e-01, -2.25947708e-01, -2.94273376e-01,
       -1.04577184e-01,  1.17962055e-01,  1.34821936e-01, -2.41778508e-01, ...])

В следующем примеры мы будем использовать метод ближайших соседей:

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="facebook/fasttext-en-nearest-neighbors", filename="model.bin")
model = fasttext.load_model(model_path)
model.get_nearest_neighbors("bread", k=5)

[(0.5641006231307983, 'butter'), 
 (0.48875734210014343, 'loaf'), 
 (0.4491206705570221, 'eat'), 
 (0.42444291710853577, 'food'), 
 (0.4229326844215393, 'cheese')]

Вот как использовать эту модель для определения языка из введенного текста:

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="facebook/fasttext-language-identification", filename="model.bin")
model = fasttext.load_model(model_path)
model.predict("Hello, world!")

(('__label__eng_Latn',), array([0.81148803]))

model.predict("Hello, world!", k=5)

(('__label__eng_Latn', '__label__vie_Latn', '__label__nld_Latn', '__label__pol_Latn', '__label__deu_Latn'), 
 array([0.61224753, 0.21323682, 0.09696738, 0.01359863, 0.01319415]))

▪Github @data_analysis_ml

50 256

Лаборатория Apache Spark Advanced – хардкор-программа для middle и senior дата-инженеров от Newprolab ➞ летний поток c 3 по 31 июля онлайн ➞ 8 занятий по 3 часа с преподавателем в зуме ➞ 4 лабы, объединенные в один проект ➞ облачный кластер для выполнения лаб ➞ автоматическая проверка лаб чекерами ➞ малая группа и помощь эксперта ➞ преподаватель: Сергей Гришаев, Architect, Сбермаркет Вы разработаете коннектор к гибридному хранилищу и разберетесь раз и навсегда, что скрыто в Spark "под капотом" и как ускорить обработку данных в своих проектах До конца июня действует специальный промокод friends10, который дает еще 10% скидки от цены, указанной на сайте Узнать подробности и стать участником ➞

50 256

8 инструментов распознавания речи: 1. DeepSpeech на базе Baidu DeepSpeech, позволяющий расшифровать аудиофайлы с использованием предварительно обученных моделей или обучить пользовательский набор данных. 2. wav2letter - open-course набор инструментов от Facebook AI Research, объединенный с библиотекой Flashlight. 3. OpenSeq2Seq- исследовательский проект от NVIDIA по проблемам преобразования последовательностей в последовательности. 4. TensorFlowASR – это бесплатный набор инструментов с открытым исходным кодом от Tensorflow, который включает в себя обученные модели на основе рекуррентных нейронных сетей с CTC. 5. SpeechRecognition - проект, предоставляющий доступ к нескольким моделям автоматического распознавания речи, включая оболочки для речевых API от Google, Microsoft Azure и IBM. 6. Yandex SpeechKit от Яндекса - программный продукт, который полностью разработан и настроен. 7. SmartSpeech от СберDevices - проект предоставляет возможность использовать несколько моделей для автоматического распознавания речи, включая оболочки для речевых API от Google, Microsoft Azure и IBM. 8. Сервис Google Документы позволяет переводить устную речь в записанный текст. Это встроенная функция с поддержкой разных языков. Для активации голосового ввода перейдите в раздел «Инструменты» и кликните на «Голосовой ввод»

50 256

🔥 8 июня пройдет вебинар «Интеграции с помощью API и интеграционной шины» Что будет на занятии: — роль интеграций в сложных бизнес-процессах; — когда и для чего используется интеграция через интеграционную шину; — методы и инструменты при описании и документировании API (OpenApi - Swagger, SOAP - WSDL). Спикер: Семен Тикунов — системный аналитик в Сбере. Более 10 лет в системном анализе. Преподаватель курса «Системный аналитик в FinTech». 🚀 Стартуем 8 июня в 19.00 по МСК Регистрируйся бесплатно 👇 https://clck.ru/34ahpL

50 256

Прощайте, циклы в Python: знакомство с возможностями векторизации В этой статье я хочу поделиться с вами захватывающей техникой, которая произвела революцию в моём подходе к анализу и визуализации данных в Python. Она называется векторизацией и позволяет вам попрощаться с циклами и приветствовать более эффективный и элегантный способ программирования. ▪ Читать @data_analysis_ml

50 256

👉Присоединяйтесь к нашему сообществу Data Analyst REBRAIN, если вы интересуетесь аналитикой данных, управлением проектами или маркетингом. У нас для вас есть множество открытых онлайн-практикумов каждый месяц, которые проводят профессиональные аналитики. В рамках практикумов мы разбираем реальные кейсы анализа данных с использованием самых актуальных инструментов, таких как Python, SQL, Tableau, бизнес-метрики и визуализация данных, статистика, теория вероятностей и другие. Уровень сложности и направление каждого практикума подобраны таким образом, чтобы каждый мог найти для себя интересные задачи и развиваться в соответствии с уровнем своей компетенции. ✔️ Подключайтесь к нам уже сегодня и начинайте развивать свои навыки в области анализа данных совершенно бесплатно!

50 256

🔥 5 примеров использования Redis с кодом на Python 1. Caching Redis можно использовать для кэширования часто используемых данных, снижая нагрузку на ваше основное хранилище данных. Вот пример того, как реализовать кэширование с помощью Redis в Python

import redis

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def get_data_from_cache(key):
    # Check if data exists in the cache
    if r.exists(key):
        # Retrieve data from the cache
        data = r.get(key)
        return data.decode('utf-8')  # Convert bytes to string
    else:
        # Fetch data from the primary data source
        data = fetch_data_from_source()

        # Store data in the cache with a timeout of 1 hour
        r.setex(key, 3600, data)
        return data

2. Pub/Sub (Publish/Subscribe): Redis поддерживает паттерн pub/sub, позволяя вам создавать системы обмена сообщениями. Вот пример:

import redis
import time

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def publish_message(channel, message):
    # Publish a message to the specified channel
    r.publish(channel, message)

def subscribe_channel(channel):
    # Subscribe to a channel and process incoming messages
    pubsub = r.pubsub()
    pubsub.subscribe(channel)

    for message in pubsub.listen():
        print(message['data'].decode('utf-8'))  # Process the received message

3. Rate Limiting: Redis можно использовать для реализации ограничения скорости, чтобы контролировать количество запросов или операций за период времени. Пример:

import redis

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def check_rate_limit(ip_address):
    # Increment the request count for the IP address
    request_count = r.incr(ip_address)

    # If the count exceeds the limit (e.g., 100 requests per minute), deny the request
    if request_count > 100:
        return False

    return True

4. Session Storage: Redis можно использовать для хранения данных сеанса в веб-приложениях. Пример:

import redis
import uuid

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def create_session(user_id):
    # Generate a unique session ID
    session_id = str(uuid.uuid4())

    # Store the session data in Redis with a timeout of 30 minutes
    r.setex(session_id, 1800, user_id)

    return session_id

def get_user_id_from_session(session_id):
    # Retrieve the user ID from the session data in Redis
    user_id = r.get(session_id)

    if user_id is not None:
        return user_id.decode('utf-8')  # Convert bytes to string
    else:
        return None

5. Leaderboard: Redis можно использовать для создания таблиц лидеров или рейтингов на основе набранных баллов. Пример:

import redis

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def update_score(player_id, score):
    # Update the score of a player
    r.zadd('leaderboard', {player_id: score})

def get_leaderboard():
    # Get the top 10 players from the leaderboard
    leaderboard = r.zrevrange('leaderboard', 0, 9, withscores=True)

    for player, score in leaderboard:
        print(f"Player: {player.decode('utf-8')}, Score: {score}")

Это лишь несколько примеров того, как Redis можно использовать в Python. Redis предоставляет множество других мощных функций и структур данных, которые можно использовать в различных приложениях. ▪Github @pythonl

50 256

Что дают аналитику навыки машинного обучения? Представьте двух аналитиков: один анализирует данные продукта и визуализирует результаты; второй делает то же самое, но потом ещё и исследует неоднозначные события, глубже погружаясь в продукт, и прогнозирует будущие показатели. Кто приносит бизнесу больше пользы? Однозначно, второй. Он решает больше задач компании. Знание машинного обучения поможет вам стать более востребованным специалистом. Освоить всё необходимое для работы можно на курсе Start ML. Вы будете учиться под руководством опытных специалистов из Райффайзен и Яндекс. За 7 месяцев вы прокачаетесь в написании кода на Python, научитесь обучать классические модели и нейронные сети, а также оценивать их влияние на бизнес с помощью статистики и A/B-тестов — всё на реальных задачах бизнеса. Новый поток стартует уже 8 июня, а по промокоду DATAML21 для вас действует скидка 5%. Присоединяйтесь! [Зарегистрироваться]

50 256

🖥 Как переписать и оптимизировать ваши SQL-запросы к Pandas на пяти простых примерах Аналитики данных, инженеры и учёные одинаково знакомы с SQL. Язык запросов по-прежнему широко используется для работы с реляционными базами данных любого типа. Однако, в настоящее время, всё больше и больше, особенно для аналитиков данных, растут технические требования, и ожидается, что люди, по крайней мере, знают основы языка программирования. При работе с данными Python и Pandas являются обычным дополнением к списку требований в описании вакансий. Хотя Pandas может быть новым для людей, знакомых с SQL, концепции выбора, фильтрации и агрегирования данных в SQL легко переносятся в Pandas. Давайте рассмотрим в этой статье некоторые распространённые SQL-запросы и способы их написания и оптимизации в Pandas. ▪ Читать @data_analysis_ml

50 256

🔥 Подборка полезных папок с каналами для датасаентисов Папки, где вы найдете каналы с разбором лучших практик написания кода на Python и Golang до каналов по машинному обучению и нейросетям (папки работают на последних версиях тг). https://t.me/addlist/2Ls-snqEeytkMDgy - Машинное обучение https://t.me/addlist/8vDUwYRGujRmZjFi - Python https://t.me/addlist/MUtJEeJSxeY2YTFi - Golang

50 256

🗺 Список полезных Python-библиотек для работы с геоданными: 1. Gmaps - библиотека для работы с Google maps, кот позволяет визуализировать и взаимодействовать с геоданными. 2. Leafmap - Python пакет для создания интерактивных карт для геопространственного анализа. Эта библиотека доступна в среде Jupyter, Google Colab, Jupyter Notebook и JupyterLab, и позволяет анализировать и визуализировать геоданные без особого труда. 3. Folium - это Python-библиотека для бычтрой визуализации геоданных, которая предоставляет интерфейс Python для работы с leaflet.js, одной из самых популярных библиотек JavaScript, используемых для создания интерактивных карт. Библиотека позволяет работать с файлами GeoJSON и TopoJSON, создавать фоновые картограммы с различными цветовыми схемами, персонализировать всплывающие подсказки и интерактивные карты-врезки. 4. Geopandas - это библиотека, которая предназначена для работы с геоданными в Python. Она предоставляет объект геодатафрейм, который по своей сущности аналогичен датафрейму Pandas, но который содержит информацию о геометрии, являющейся определением пространственного объекта. 5. Ipyleaflet - это интерактивная и многофункциональная библиотека виджетов, которая предоставляет возможность визуализировать карты.

50 256

Даже если у вас нет диплома мехмата, вы можете успешно работать в IT. Например, крутые аналитики получаются из научных работников, исследователей, продавцов, медиков и других специалистов. Каких ещё — расскажем на вебинаре. А ещё поделимся историями студентов, которые кардинально меняли сферу работы на IT. → Бесплатно, 6 июня в 19:00 Мск Вебинар проведёт Артём Исакин, руководитель трудоустройства в направлении анализа данных Яндекс Практикума. Вы узнаете: — из каких 10 профессий чаще всего переходят в анализ данных; — какие навыки и качества помогают закончить обучение и найти работу; — как кардинально поменять сферу деятельности; — как новичкам «переупаковать» прошлый опыт, чтобы понравиться работодателям. В конце можно будет задать вопросы и попросить совета. → Зарегистрироваться на вебинар

50 256

💡 Начало работы с pytest Если вы хотите протестировать свою функцию на разных примерах, используйте декоратор pytest.mark.parametrize из библиотеки pytest. В приведенном выше коде ожидается, что первое предложение будет содержать слово "duck", а второе предложение не будет содержать этого слова. При запуске pytest прошло 2 теста.


import pytest

def text_contain_word(word: str, text: str):
    '''Find whether the text contains a particular word'''
    
    return word in text

test = [
    ('There is a duck in this text',True),
    ('There is nothing here', False)
    ]

@pytest.mark.parametrize('sample, expected', test)
def test_text_contain_word(sample, expected):

    word = 'duck'

    assert text_contain_word(word, sample) == expected

▪Github ▪Python Testing с pytest @data_analysis_ml

50 256

В сервисе Yandex Data Proc стало доступно создание управляемых кластеров Hive Metastore (Public Preview) Hive Metastore связывает разнородные ETL-системы и инструменты для работы с общими данными и упрощает их развёртывание. Кластеры Metastore управляют табличными метаданными объектов, которые находятся в бакетах Object Storage. Теперь решать задачи подготовки и очистки данных, создания хранилищ и предметно-ориентированных витрин данных стало проще. ➡️ Подробнее о новинке и о том, как первым получить доступ по ссылке