Data Science. SQL hub

Ir al canal en Telegram

По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo #VRHSZ

Red:Machinelearning Rusia18 129 Tecnologías y Aplicaciones3 835...

📈 Análisis del canal de Telegram Data Science. SQL hub

El canal Data Science. SQL hub (@sqlhub) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 35 848 suscriptores, ocupando la posición 3 835 en la categoría Tecnologías y Aplicaciones y el puesto 18 129 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 35 848 suscriptores.

Según los últimos datos del 13 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -8, y en las últimas 24 horas de -11, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 9.82%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 4.08% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 3 522 visualizaciones. En el primer día suele acumular 1 461 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 13.
Intereses temáticos: El contenido se centra en temas clave como sql, индекс, postgres, index, sqlite.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo #VRHSZ”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 14 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

35 848

Suscriptores

-1124 horas

-317 días

-830 días

3 522

Visitas de la publicación

~ 1 46124 horas

~ 1 72448 horas

9.82%

Tasa de compromiso

Sin datos

Mensajes por día

Ads index

beta

Archivo de publicaciones

35 850

Создавая будущее: магистратура по прикладному ИИ Нейросети пишут код, создают контент и даже помогают в разработке лекарств. Спрос на ИИ-специалистов взлетел на 80% всего за год. А IT-гиганты, банки и телеком охотятся за талантами. Станьте таким специалистом с онлайн-магистратурой «Прикладной искусственный интеллект» от УрФУ и Нетологии. Это программа, где вы не просто учитесь, а решаете реальные задачи от Яндекса, МТС Банка и Dodo Brands. Где вместо скучных лекций — проекты и хакатоны, а преподаватели — практики из ведущих компаний. За 2 года вы научитесь: Использовать Python и его библиотеки. Генерировать гипотезы и подбирать алгоритмы для разных моделей. Строить конвейеры обработки данных. Автоматизировать ML-пайплайн. А ещё узнаете, как ИИ применяют в медицине, e-commerce и банковском секторе. Потому что будущее AI — не только в IT. Эта программа — одна из немногих, куда можно поступить в сентябре. Если после летнего отдыха вы полны сил и готовы к новому, сделайте уверенный шаг в ИИ-сферу. Подать документы можно до 18 сентября. Узнайте подробности по ссылке: https://netolo.gy/emSU Реклама. ООО "Нетология". ИНН 7726464125. Erid:2VSb5xKWsz9

35 850

🚀 Умная система мониторинга Alerta Alerta — это масштабируемый инструмент мониторинга, который легко настраивается и принимает оповещения из различных источников. Он предлагает быструю визуализацию данных с возможностью глубокого анализа. 🚀 Основные моменты: - Масштабируемая архитектура - Минимальная конфигурация - Поддержка MongoDB и PostgreSQL - Удобная веб-консоль для визуализации - Легкая интеграция с облачными платформами 📌 GitHub: https://github.com/alerta/alerta #python

35 850

🖥 Microsoft вопрос с собеседования по SQL Задача: найти топ-2 Power Users в Microsoft Teams — пользователей, которые отправили больше всего сообщений в августе 2022. Вывести их sender_id и количество сообщений. Подход: 1) Отфильтровать сообщения по интервалу августа — в T-SQL удобно задавать полуинтервалом [2022-08-01, 2022-09-01), без функций над датой (чтобы не ломать индексы). 2) Посчитать сообщения по sender_id. 3) Отсортировать по убыванию и взять TOP 2. Если хотите корректно обрабатывать «ничьи» — используйте DENSE_RANK(). Быстрое решение (T-SQL):


SELECT TOP (2)
       sender_id,
       COUNT(*) AS message_count
FROM   messages
WHERE  sent_date >= '2022-08-01'
  AND  sent_date <  '2022-09-01'
GROUP BY sender_id
ORDER BY COUNT(*) DESC, sender_id;

Вариант с учетом ничьих (tie-safe):


WITH monthly AS (
  SELECT sender_id, COUNT(*) AS message_count
  FROM   messages
  WHERE  sent_date >= '2022-08-01'
    AND  sent_date <  '2022-09-01'
  GROUP BY sender_id
),
ranked AS (
  SELECT sender_id, message_count,
         DENSE_RANK() OVER (ORDER BY message_count DESC) AS rnk
  FROM   monthly
)
SELECT sender_id, message_count
FROM   ranked
WHERE  rnk <= 2
ORDER BY message_count DESC, sender_id;

Почему так: - Фильтр по диапазону дат без функций сохраняет «sargable» запрос (используются индексы по sent_date). - GROUP BY + COUNT(*) дают нужную метрику. - DENSE_RANK() аккуратно захватывает все «совместные» вторые места. @sqlhub

35 850

На конференции South Hub эксперты заявили о начале третьей революции в области знаний — после появления письменности и интернета. По мнению специалистов из технологической платформы Авито, развитие больших языковых моделей с открытым исходным кодом запустило процесс, сравнимый с «золотой лихорадкой». «Мы смотрим на всю эпопею с генеративным ИИ, как на золотую лихорадку, и все пытаются найти золото, но не у всех получается. Появление open source моделей все изменило – теперь каждый энтузиаст, исследователь в университете, стартап может попробовать поэкспериментировать с большими языковыми моделями», — отметил управляющий директор по ИИ «Авито» Андрей Рыбинцев. Одно из ключевых изменений — переход от традиционных интерфейсов к естественному диалогу с системами. Вместо сложных меню и цепочек действий пользователи получают решения через простой запрос. Это может привести к замене тысяч специализированных приложений единым ИИ-агентом. Разработчики теперь становятся «дирижерами» ИИ-помощников, как выразился руководитель разработки AI Lab «Авито» Олег Королев. Прототипы, требовавшие ранее командной работы, создаются одним специалистом за выходные. Технический директор «Авито» Андрей Венжега предупредил, что текущие представления о возможностях ИИ могут оказаться наивными уже через два года из-за стремительного темпа изменений. Технологический скептицизм уступил место всеобщему признанию революционного характера преобразований. Больше интересных выводов о будущем ИИ можно узнать в подкасте: Youtube | VK-видео | Rutube | Аудиоверсия Подпишитесь на полезные каналы Авито

35 850

📊 Новое поколение баз данных для ИИ-агентов Когда LLM-агенты работают с БД, они не делают один большой запрос. Вместо этого они засыпают систему тысячами мелких пробных запросов: проверяют структуру, ищут связи, тестируют планы. Это явление получило название agentic speculation. Итог — колоссальный перерасход ресурсов. 🆕 Исследователи предлагают «agent-first database» — базу, спроектированную с учётом поведения агентов. 🔑 Как это работает: - Агент отправляет не просто SQL-запрос, а пробу с брифом: какая цель, на каком этапе он сейчас, какая нужна точность и что в приоритете. - База может дать приближённый ответ, если данных уже достаточно, вместо того чтобы тратить ресурсы на полный расчёт. - Запросы поддерживают семантический поиск по таблицам и строкам, что в SQL выразить сложно. ⚙️ Внутренние механизмы: - Sleeper agents подсказывают лучшие join’ы, объясняют пустые результаты и оценивают стоимость запросов. - Оптимизатор проб объединяет похожие запросы, кэширует частичные результаты и выдаёт быстрые ответы, когда «достаточно сигнала». - Agentic memory хранит знания, которые можно переиспользовать в будущем. - Общий менеджер транзакций позволяет быстро пробовать разные сценарии («what-if») без лишних затрат. 📌 Вывод: традиционный SQL не подходит для эпохи LLM. Нужны базы, которые понимают стратегию агента, сокращают лишние шаги и экономят ресурсы. 🔗 Paper: arxiv.org/abs/2509.00997 #AI #Databases #LLM #Agents @sqlhubНо ничег

35 850

🧩 SQL хитрый трюк Хотите быстро найти дубликаты в таблице — но не просто значения, а ещё и сразу оставить только уникальные строки? Вместо сложных подзапросов используйте `ROW_NUMBER()` с PARTITION BY:


WITH numbered AS (
    SELECT 
        id,
        email,
        ROW_NUMBER() OVER (PARTITION BY email ORDER BY id) AS rn
    FROM users
)
SELECT id, email
FROM numbered
WHERE rn = 1;

📌 Что происходит: - PARTITION BY email группирует строки по email - ROW_NUMBER() нумерует их внутри группы - WHERE rn = 1 оставляет только первую запись (а все дубликаты убираются) 💡 Так можно элегантно чистить таблицы от дублей без лишних вложенных запросов. Хочешь больше таких фишек? Подписывайся на нас и каждый день получай свежие приёмы, которые реально прокачают твои навыки разработчика! 🚀 @sqlhub

35 850

🔥 Успех в IT = скорость + знания + окружение Здесь ты найдёшь всё это — коротко, по делу и без воды. Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты! AI: t.me/ai_machinelearning_big_data Python: t.me/pythonl Linux: t.me/linuxacademiya Собеседования DS: t.me/machinelearning_interview C++ t.me/cpluspluc Docker: t.me/devops_teleg Хакинг: t.me/linuxkalii Devops: t.me/DevOPSitsec Data Science: t.me/data_analysis_ml Javascript: t.me/javascriptv C#: t.me/csharp_1001_notes Java: t.me/java_library Базы данных: t.me/databases_tg Python собеседования: t.me/python_job_interview Мобильная разработка: t.me/mobdevelop Golang: t.me/Golang_google React: t.me/react_tg Rust: t.me/rust_code ИИ: t.me/vistehno PHP: t.me/phpshka Android: t.me/android_its Frontend: t.me/front Big Data: t.me/bigdatai МАТЕМАТИКА: t.me/data_math Kubernets: t.me/kubernetc Разработка игр: https://t.me/gamedev Haskell: t.me/haskell_tg Физика: t.me/fizmat 💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy 😆ИТ-Мемы: t.me/memes_prog 🇬🇧Английский: t.me/english_forprogrammers 🧠ИИ: t.me/vistehno 🎓954ГБ ОПЕНСОРС КУРСОВ: @courses 📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!

35 850

🛠️ Удобный инструмент для управления кластерами Postgres Ivory — это инструмент с открытым исходным кодом, который упрощает работу с кластерами Postgres, предоставляя удобный интерфейс для разработчиков и администраторов баз данных. Он позволяет управлять конфигурацией кластера, выполнять запросы и контролировать состояние в одном месте. 🚀 Основные моменты: - Упрощает управление Postgres кластерами - Интуитивно понятный интерфейс для основных функций Patroni - Возможность работы локально или в виртуальной машине - Поддержка редактирования конфигурации кластера - Инструменты для диагностики и устранения проблем 📌 GitHub: https://github.com/veegres/ivory #go

35 850

Первый раз в ~~первый~~ X5 Tech-класс! Школьники бегут за парты, а X5 Tech открывает набор в уникальный IT-класс для студентов. Здесь можно проверить свои скилы в кодерских задачах, получить звездочки в IT-дневник и забрать крутые призы. Покажи всему классу, на что способен! Что ждет участников: — задачи по backend-, frontend-, мобильной разработке, Data Science, DevOps-инфраструктуре и аналитике данных; — ценные призы: проходки на экскурсию в распределительный центр для москвичей, подарочные карты в Пятёрочку и другие подарки от X5 Tech; — сбор звездочек в IT-дневник и карьерные гайды; — задания в формате квеста. Первый звонок в X5 Tech-классе уже прозвенел! Записывай первую домашку — изучить расписание предметов по ссылке.

35 850

🔬 DuckDB in Science Свежий сайт с подборкой статей, лекций и подкастов и примеров о том, как DuckDB используется в научных исследованиях: https://duckdb.org/science @sqlhub

35 850

⚡ ClickHouse vs Greenplum: что выбрать для аналитики? 📅 10 сентября | 20:00 мск | бесплатно ✅ На вебинаре разберёмся, какая СУБД лучше подойдёт для ваших задач: •Архитектура, производительность и масштабируемость CH и Greenplum •Различия в хранении и обработке данных •Как базы показывают себя в OLAP, ETL и ad-hoc аналитике •Реальные кейсы внедрения и оптимизации ✅ После урока вы сможете: •Выбирать оптимальное решение под разные сценарии •Оценивать производительность и удобство работы •Понимать архитектурные плюсы и минусы каждой СУБД 💥 Участие бесплатное — регистрируйтесь и приходите: [https://otus.pw/61p4/?erid=2W5zFJDFoXn] Бесплатное занятие приурочено к старту курса ClickHouse. После обучения вы научитесь быстро и эффективно настраивать БД, работать с ее продвинутыми функциями, интегрировать с другими системами и выбирать оптимальные решения для ваших данных. Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

35 850

🧩 Задача из интервью TikTok по SQL Найдите пользователей, которые не подтвердили регистрацию в день регистрации, но подтвердили на следующий день. Исходные таблицы: - emails(email_id, user_id, signup_date) - texts(text_id, email_id, signup_action {'Confirmed','Not confirmed'}, action_date) Решение (универсально для Postgres/MySQL):


SELECT DISTINCT e.user_id
FROM emails e
WHERE EXISTS (
  SELECT 1
  FROM texts t1
  WHERE t1.email_id = e.email_id
    AND t1.signup_action = 'Confirmed'
    AND DATE(t1.action_date) = DATE(e.signup_date + INTERVAL '1 day')  -- подтвердил на 2-й день
)
AND NOT EXISTS (
  SELECT 1
  FROM texts t0
  WHERE t0.email_id = e.email_id
    AND t0.signup_action = 'Confirmed'
    AND DATE(t0.action_date) = DATE(e.signup_date)                      -- не подтвердил в день регистрации
);

Вариант через агрегацию (Postgres)🧩️️


SELECT e.user_id
FROM emails e
JOIN texts  t ON t.email_id = e.email_id
GROUP BY e.user_id, e.signup_date
HAVING COUNT(*) FILTER (
  WHERE t.signup_action = 'Confirmed' AND DATE(t.action_date) = DATE(e.signup_date)
) = 0
AND COUNT(*) FILTER (
  WHERE t.signup_action = 'Confirmed' AND DATE(t.action_date) = DATE(e.signup_date + INTERVAL '1 day')
) >= 1;

@sqlhub

35 850

📦 C++ обертка для SQLite с расширенными возможностями ⚙️ Библиотека boost_sqlite предоставляет удобный интерфейс для работы с SQLite в C++. Она поддерживает типизированные запросы, подготовленные выражения, функции на основе JSON и пользовательские функции. Библиотека не скрывает C-API SQLite, а дополняет его. 🚀Основные моменты: - Типизированные запросы и подготовленные выражения - Поддержка JSON и пользовательских функций - Виртуальные таблицы и хуки событий - Легкая интеграция с существующими проектами @sqlhub

35 850

Repost from Machinelearning

⚡️ Tencent дропнули Hunyuan-MT — мощные open-source модели для перевода Что внутри: - Доступны модели Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B - Поддержка 33 языков - Chimera-7B — это первая d индустрии откртытая ансамблевая модель 🏆 Результаты: - 1-е место в 30 из 31 категорий на международном конкурсе WMT25 (Workshop on Machine Translation 2025, крупнейшая в мире конференция-соревнование по машинному переводу) - Hunyuan-MT-7B лидирует среди моделей своего размера 🟠Модели: https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597 🟠 Репозиторий: https://github.com/Tencent-Hunyuan/Hunyuan-MT Demo: https://hunyuan.tencent.com/modelSquare/home/list @ai_machinelearning_big_data #AI #NLP #Translation #Tencent

35 850

💡 SQL: поиск уникальных значений с COUNT(DISTINCT) Хотите посчитать количество уникальных элементов по каждому пользователю? Не нужно подзапросов — используйте COUNT(DISTINCT ...) прямо в выборке.


SELECT 
    user_id,
    COUNT(DISTINCT product_id) AS unique_products,
    COUNT(DISTINCT category)   AS unique_categories
FROM purchases
GROUP BY user_id;

🔎 В одном запросе можно узнать, сколько разных товаров и категорий купил каждый пользователь. Это упрощает аналитику и заменяет сложные вложенные запросы. @sqlhub

35 850

💡 SQL: условные агрегаты через CASE !!! Хотите посчитать сумму только по условию прямо внутри агрегата? Для этого не нужен отдельный WHERE — используйте CASE WHEN.


SELECT 
    customer_id,
    SUM(CASE WHEN status = 'completed' THEN amount ELSE 0 END) AS completed_sum,
    SUM(CASE WHEN status = 'pending' THEN amount ELSE 0 END)   AS pending_sum
FROM orders
GROUP BY customer_id;

🔎 В одном запросе можно посчитать суммы по разным статусам — и не делать несколько JOIN или подзапросов. Работает также с COUNT(), AVG() и другими агрегатами. @sqlhub

35 850

⚡️В прошлый четверг команда VK собрала буквально всю RecSys-тусовку. Судя по ленте, на ивенте было стильно и глитчово Это первая встреча AI VK & Pro. На ней рассказали о будущем рекомендаций, о том, как строят единую Discovery-платформу для рекомендательных систем во всех продуктах VK и еще много всего полезного Успели всё: отыграть DJ-сеты, эффективно понетворкать, был даже турнир по су-е-фа

35 850

🗄 MySQL vs Postgres: как кэшируют страницы данных ⚡ Подходы разные: - MySQL (InnoDB) стремится всё держать под своим контролем - Postgres больше доверяет операционной системе MySQL / InnoDB - Своя память под кэш: innodb_buffer_pool_size обычно = 70%+ RAM на выделенном сервере - Обход кэша ОС: с innodb_flush_method='O_DIRECT' InnoDB работает напрямую с диском - Двухсекционный LRU: страницы сначала в old, только потом (через innodb_old_blocks_time`) в `young. Это спасает от «выметания» кэша при больших сканах Postgres - Внутренний кэш + page cache ОС: shared_buffers обычно около 30% RAM, остальное оставляют ОС - Clock-sweep: у страницы счётчик обращений, уменьшается при «прокрутке часов». Когда падает до нуля — страница освобождается Практические выводы - Bulk-операции: InnoDB устойчивее к «пробиванию» кэша, в Postgres часть нагрузки идёт в кэш файловой системы - Тюнинг памяти: в MySQL раздувают buffer pool, в Postgres shared_buffers умеренный, а остальное доверяют ОС Что стоит проверить в бенчмарках Postgres - Размер shared_buffers: 4% / 10% / 30% / 50% RAM - Сценарии: OLTP, последовательные сканы, смешанные нагрузки - Рабочий набор: меньше / равен / больше доступной RAM - Метрики: TPS/QPS, p95/p99 латентность, hit ratio, про https://github.com/postgres/postgres/blob/master/src/backend/storage/buffer/README

35 850

❌ Классический поиск по ключевым словам даёт ограниченные результаты. Нашёл только одно совпадение: "Machine Learning Overview". ✅ А вот pgvector ищет по смыслу и находит связанные концепции. Пример запроса возвращает 5 релевантных документов: – Machine Learning Overview – Data Mining Basics – Introduction to AI – Deep Learning Guide Семантический поиск > ключевого 🔥

35 850

YTsaurus — инфраструктура хранения и обработки больших данных. Включает динамические таблицы, которые позволяют хранить и обрабатывать большие данные для десятков тысяч пользователей в реальном времени. Инструмент идеально подходит для высоконагруженных сценариев, где требуются горизонтальное масштабирование, exactly-once семантика и время отклика в миллисекунды. Может применяться в том числе и для создания системы поведенческого таргетинга. Поддерживает MapReduce и NVMe SSD. Пример использования YTsaurus на Хабре