Data Science. SQL hub

Открыть в Telegram

По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo #VRHSZ

Больше

Сеть:Machinelearning Россия18 129 Технологии и приложения3 835...

📈 Аналитический обзор Telegram-канала Data Science. SQL hub

Канал Data Science. SQL hub (@sqlhub) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 35 839 подписчиков, занимая 3 835 место в категории Технологии и приложения и 18 129 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 35 839 подписчиков.

Согласно последним данным от 13 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -8, а за последние 24 часа — -11, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 9.82%. В первые 24 часа после публикации контент обычно набирает 4.08% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 3 522 просмотров. В течение первых суток публикация набирает 1 461 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 13.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как sql, индекс, postgres, index, sqlite.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo #VRHSZ”

Благодаря высокой частоте обновлений (последние данные получены 14 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

35 839

Подписчики

-1124 часа

-317 дней

-830 день

3 522

Просмотры поста

~ 1 46124 часа

~ 1 72448 часов

9.82%

Коэффициент вовлеченности

Нет данных

Постов в день

Ads index

beta

Архив постов

35 832

⚡️ На чистом SQL запустили легендарный DOOM — прямо внутри базы данных CedarDB! Игра не просто работает, а поддерживает многопользовательский режим, отрисовывая всё с помощью ASCII-графики. Каждый компонент — от рендера до синхронизации игроков — написан исключительно на SQL-запросах. 🎮 GitHub для настоящих ценителей извращённого кода: https://github.com/cedardb/DOOMQL @sqlhub

35 832

Создавая будущее: магистратура по прикладному ИИ Нейросети пишут код, создают контент и даже помогают в разработке лекарств. Спрос на ИИ-специалистов взлетел на 80% всего за год. А IT-гиганты, банки и телеком охотятся за талантами. Станьте таким специалистом с онлайн-магистратурой «Прикладной искусственный интеллект» от УрФУ и Нетологии. Это программа, где вы не просто учитесь, а решаете реальные задачи от Яндекса, МТС Банка и Dodo Brands. Где вместо скучных лекций — проекты и хакатоны, а преподаватели — практики из ведущих компаний. За 2 года вы научитесь: Использовать Python и его библиотеки. Генерировать гипотезы и подбирать алгоритмы для разных моделей. Строить конвейеры обработки данных. Автоматизировать ML-пайплайн. А ещё узнаете, как ИИ применяют в медицине, e-commerce и банковском секторе. Потому что будущее AI — не только в IT. Эта программа — одна из немногих, куда можно поступить в сентябре. Если после летнего отдыха вы полны сил и готовы к новому, сделайте уверенный шаг в ИИ-сферу. Подать документы можно до 18 сентября. Узнайте подробности по ссылке: https://netolo.gy/emSU Реклама. ООО "Нетология". ИНН 7726464125. Erid:2VSb5xKWsz9

35 832

🚀 Умная система мониторинга Alerta Alerta — это масштабируемый инструмент мониторинга, который легко настраивается и принимает оповещения из различных источников. Он предлагает быструю визуализацию данных с возможностью глубокого анализа. 🚀 Основные моменты: - Масштабируемая архитектура - Минимальная конфигурация - Поддержка MongoDB и PostgreSQL - Удобная веб-консоль для визуализации - Легкая интеграция с облачными платформами 📌 GitHub: https://github.com/alerta/alerta #python

35 832

🖥 Microsoft вопрос с собеседования по SQL Задача: найти топ-2 Power Users в Microsoft Teams — пользователей, которые отправили больше всего сообщений в августе 2022. Вывести их sender_id и количество сообщений. Подход: 1) Отфильтровать сообщения по интервалу августа — в T-SQL удобно задавать полуинтервалом [2022-08-01, 2022-09-01), без функций над датой (чтобы не ломать индексы). 2) Посчитать сообщения по sender_id. 3) Отсортировать по убыванию и взять TOP 2. Если хотите корректно обрабатывать «ничьи» — используйте DENSE_RANK(). Быстрое решение (T-SQL):


SELECT TOP (2)
       sender_id,
       COUNT(*) AS message_count
FROM   messages
WHERE  sent_date >= '2022-08-01'
  AND  sent_date <  '2022-09-01'
GROUP BY sender_id
ORDER BY COUNT(*) DESC, sender_id;

Вариант с учетом ничьих (tie-safe):


WITH monthly AS (
  SELECT sender_id, COUNT(*) AS message_count
  FROM   messages
  WHERE  sent_date >= '2022-08-01'
    AND  sent_date <  '2022-09-01'
  GROUP BY sender_id
),
ranked AS (
  SELECT sender_id, message_count,
         DENSE_RANK() OVER (ORDER BY message_count DESC) AS rnk
  FROM   monthly
)
SELECT sender_id, message_count
FROM   ranked
WHERE  rnk <= 2
ORDER BY message_count DESC, sender_id;

Почему так: - Фильтр по диапазону дат без функций сохраняет «sargable» запрос (используются индексы по sent_date). - GROUP BY + COUNT(*) дают нужную метрику. - DENSE_RANK() аккуратно захватывает все «совместные» вторые места. @sqlhub

35 832

На конференции South Hub эксперты заявили о начале третьей революции в области знаний — после появления письменности и интернета. По мнению специалистов из технологической платформы Авито, развитие больших языковых моделей с открытым исходным кодом запустило процесс, сравнимый с «золотой лихорадкой». «Мы смотрим на всю эпопею с генеративным ИИ, как на золотую лихорадку, и все пытаются найти золото, но не у всех получается. Появление open source моделей все изменило – теперь каждый энтузиаст, исследователь в университете, стартап может попробовать поэкспериментировать с большими языковыми моделями», — отметил управляющий директор по ИИ «Авито» Андрей Рыбинцев. Одно из ключевых изменений — переход от традиционных интерфейсов к естественному диалогу с системами. Вместо сложных меню и цепочек действий пользователи получают решения через простой запрос. Это может привести к замене тысяч специализированных приложений единым ИИ-агентом. Разработчики теперь становятся «дирижерами» ИИ-помощников, как выразился руководитель разработки AI Lab «Авито» Олег Королев. Прототипы, требовавшие ранее командной работы, создаются одним специалистом за выходные. Технический директор «Авито» Андрей Венжега предупредил, что текущие представления о возможностях ИИ могут оказаться наивными уже через два года из-за стремительного темпа изменений. Технологический скептицизм уступил место всеобщему признанию революционного характера преобразований. Больше интересных выводов о будущем ИИ можно узнать в подкасте: Youtube | VK-видео | Rutube | Аудиоверсия Подпишитесь на полезные каналы Авито

35 832

📊 Новое поколение баз данных для ИИ-агентов Когда LLM-агенты работают с БД, они не делают один большой запрос. Вместо этого они засыпают систему тысячами мелких пробных запросов: проверяют структуру, ищут связи, тестируют планы. Это явление получило название agentic speculation. Итог — колоссальный перерасход ресурсов. 🆕 Исследователи предлагают «agent-first database» — базу, спроектированную с учётом поведения агентов. 🔑 Как это работает: - Агент отправляет не просто SQL-запрос, а пробу с брифом: какая цель, на каком этапе он сейчас, какая нужна точность и что в приоритете. - База может дать приближённый ответ, если данных уже достаточно, вместо того чтобы тратить ресурсы на полный расчёт. - Запросы поддерживают семантический поиск по таблицам и строкам, что в SQL выразить сложно. ⚙️ Внутренние механизмы: - Sleeper agents подсказывают лучшие join’ы, объясняют пустые результаты и оценивают стоимость запросов. - Оптимизатор проб объединяет похожие запросы, кэширует частичные результаты и выдаёт быстрые ответы, когда «достаточно сигнала». - Agentic memory хранит знания, которые можно переиспользовать в будущем. - Общий менеджер транзакций позволяет быстро пробовать разные сценарии («what-if») без лишних затрат. 📌 Вывод: традиционный SQL не подходит для эпохи LLM. Нужны базы, которые понимают стратегию агента, сокращают лишние шаги и экономят ресурсы. 🔗 Paper: arxiv.org/abs/2509.00997 #AI #Databases #LLM #Agents @sqlhubНо ничег

35 832

🧩 SQL хитрый трюк Хотите быстро найти дубликаты в таблице — но не просто значения, а ещё и сразу оставить только уникальные строки? Вместо сложных подзапросов используйте `ROW_NUMBER()` с PARTITION BY:


WITH numbered AS (
    SELECT 
        id,
        email,
        ROW_NUMBER() OVER (PARTITION BY email ORDER BY id) AS rn
    FROM users
)
SELECT id, email
FROM numbered
WHERE rn = 1;

📌 Что происходит: - PARTITION BY email группирует строки по email - ROW_NUMBER() нумерует их внутри группы - WHERE rn = 1 оставляет только первую запись (а все дубликаты убираются) 💡 Так можно элегантно чистить таблицы от дублей без лишних вложенных запросов. Хочешь больше таких фишек? Подписывайся на нас и каждый день получай свежие приёмы, которые реально прокачают твои навыки разработчика! 🚀 @sqlhub

35 832

🔥 Успех в IT = скорость + знания + окружение Здесь ты найдёшь всё это — коротко, по делу и без воды. Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты! AI: t.me/ai_machinelearning_big_data Python: t.me/pythonl Linux: t.me/linuxacademiya Собеседования DS: t.me/machinelearning_interview C++ t.me/cpluspluc Docker: t.me/devops_teleg Хакинг: t.me/linuxkalii Devops: t.me/DevOPSitsec Data Science: t.me/data_analysis_ml Javascript: t.me/javascriptv C#: t.me/csharp_1001_notes Java: t.me/java_library Базы данных: t.me/databases_tg Python собеседования: t.me/python_job_interview Мобильная разработка: t.me/mobdevelop Golang: t.me/Golang_google React: t.me/react_tg Rust: t.me/rust_code ИИ: t.me/vistehno PHP: t.me/phpshka Android: t.me/android_its Frontend: t.me/front Big Data: t.me/bigdatai МАТЕМАТИКА: t.me/data_math Kubernets: t.me/kubernetc Разработка игр: https://t.me/gamedev Haskell: t.me/haskell_tg Физика: t.me/fizmat 💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy 😆ИТ-Мемы: t.me/memes_prog 🇬🇧Английский: t.me/english_forprogrammers 🧠ИИ: t.me/vistehno 🎓954ГБ ОПЕНСОРС КУРСОВ: @courses 📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!

35 832

🛠️ Удобный инструмент для управления кластерами Postgres Ivory — это инструмент с открытым исходным кодом, который упрощает работу с кластерами Postgres, предоставляя удобный интерфейс для разработчиков и администраторов баз данных. Он позволяет управлять конфигурацией кластера, выполнять запросы и контролировать состояние в одном месте. 🚀 Основные моменты: - Упрощает управление Postgres кластерами - Интуитивно понятный интерфейс для основных функций Patroni - Возможность работы локально или в виртуальной машине - Поддержка редактирования конфигурации кластера - Инструменты для диагностики и устранения проблем 📌 GitHub: https://github.com/veegres/ivory #go

35 832

Первый раз в ~~первый~~ X5 Tech-класс! Школьники бегут за парты, а X5 Tech открывает набор в уникальный IT-класс для студентов. Здесь можно проверить свои скилы в кодерских задачах, получить звездочки в IT-дневник и забрать крутые призы. Покажи всему классу, на что способен! Что ждет участников: — задачи по backend-, frontend-, мобильной разработке, Data Science, DevOps-инфраструктуре и аналитике данных; — ценные призы: проходки на экскурсию в распределительный центр для москвичей, подарочные карты в Пятёрочку и другие подарки от X5 Tech; — сбор звездочек в IT-дневник и карьерные гайды; — задания в формате квеста. Первый звонок в X5 Tech-классе уже прозвенел! Записывай первую домашку — изучить расписание предметов по ссылке.

35 832

🔬 DuckDB in Science Свежий сайт с подборкой статей, лекций и подкастов и примеров о том, как DuckDB используется в научных исследованиях: https://duckdb.org/science @sqlhub

35 832

⚡ ClickHouse vs Greenplum: что выбрать для аналитики? 📅 10 сентября | 20:00 мск | бесплатно ✅ На вебинаре разберёмся, какая СУБД лучше подойдёт для ваших задач: •Архитектура, производительность и масштабируемость CH и Greenplum •Различия в хранении и обработке данных •Как базы показывают себя в OLAP, ETL и ad-hoc аналитике •Реальные кейсы внедрения и оптимизации ✅ После урока вы сможете: •Выбирать оптимальное решение под разные сценарии •Оценивать производительность и удобство работы •Понимать архитектурные плюсы и минусы каждой СУБД 💥 Участие бесплатное — регистрируйтесь и приходите: [https://otus.pw/61p4/?erid=2W5zFJDFoXn] Бесплатное занятие приурочено к старту курса ClickHouse. После обучения вы научитесь быстро и эффективно настраивать БД, работать с ее продвинутыми функциями, интегрировать с другими системами и выбирать оптимальные решения для ваших данных. Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

35 832

🧩 Задача из интервью TikTok по SQL Найдите пользователей, которые не подтвердили регистрацию в день регистрации, но подтвердили на следующий день. Исходные таблицы: - emails(email_id, user_id, signup_date) - texts(text_id, email_id, signup_action {'Confirmed','Not confirmed'}, action_date) Решение (универсально для Postgres/MySQL):


SELECT DISTINCT e.user_id
FROM emails e
WHERE EXISTS (
  SELECT 1
  FROM texts t1
  WHERE t1.email_id = e.email_id
    AND t1.signup_action = 'Confirmed'
    AND DATE(t1.action_date) = DATE(e.signup_date + INTERVAL '1 day')  -- подтвердил на 2-й день
)
AND NOT EXISTS (
  SELECT 1
  FROM texts t0
  WHERE t0.email_id = e.email_id
    AND t0.signup_action = 'Confirmed'
    AND DATE(t0.action_date) = DATE(e.signup_date)                      -- не подтвердил в день регистрации
);

Вариант через агрегацию (Postgres)🧩️️


SELECT e.user_id
FROM emails e
JOIN texts  t ON t.email_id = e.email_id
GROUP BY e.user_id, e.signup_date
HAVING COUNT(*) FILTER (
  WHERE t.signup_action = 'Confirmed' AND DATE(t.action_date) = DATE(e.signup_date)
) = 0
AND COUNT(*) FILTER (
  WHERE t.signup_action = 'Confirmed' AND DATE(t.action_date) = DATE(e.signup_date + INTERVAL '1 day')
) >= 1;

@sqlhub

35 832

📦 C++ обертка для SQLite с расширенными возможностями ⚙️ Библиотека boost_sqlite предоставляет удобный интерфейс для работы с SQLite в C++. Она поддерживает типизированные запросы, подготовленные выражения, функции на основе JSON и пользовательские функции. Библиотека не скрывает C-API SQLite, а дополняет его. 🚀Основные моменты: - Типизированные запросы и подготовленные выражения - Поддержка JSON и пользовательских функций - Виртуальные таблицы и хуки событий - Легкая интеграция с существующими проектами @sqlhub

35 832

Repost from Machinelearning

⚡️ Tencent дропнули Hunyuan-MT — мощные open-source модели для перевода Что внутри: - Доступны модели Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B - Поддержка 33 языков - Chimera-7B — это первая d индустрии откртытая ансамблевая модель 🏆 Результаты: - 1-е место в 30 из 31 категорий на международном конкурсе WMT25 (Workshop on Machine Translation 2025, крупнейшая в мире конференция-соревнование по машинному переводу) - Hunyuan-MT-7B лидирует среди моделей своего размера 🟠Модели: https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597 🟠 Репозиторий: https://github.com/Tencent-Hunyuan/Hunyuan-MT Demo: https://hunyuan.tencent.com/modelSquare/home/list @ai_machinelearning_big_data #AI #NLP #Translation #Tencent

35 832

💡 SQL: поиск уникальных значений с COUNT(DISTINCT) Хотите посчитать количество уникальных элементов по каждому пользователю? Не нужно подзапросов — используйте COUNT(DISTINCT ...) прямо в выборке.


SELECT 
    user_id,
    COUNT(DISTINCT product_id) AS unique_products,
    COUNT(DISTINCT category)   AS unique_categories
FROM purchases
GROUP BY user_id;

🔎 В одном запросе можно узнать, сколько разных товаров и категорий купил каждый пользователь. Это упрощает аналитику и заменяет сложные вложенные запросы. @sqlhub

35 832

💡 SQL: условные агрегаты через CASE !!! Хотите посчитать сумму только по условию прямо внутри агрегата? Для этого не нужен отдельный WHERE — используйте CASE WHEN.


SELECT 
    customer_id,
    SUM(CASE WHEN status = 'completed' THEN amount ELSE 0 END) AS completed_sum,
    SUM(CASE WHEN status = 'pending' THEN amount ELSE 0 END)   AS pending_sum
FROM orders
GROUP BY customer_id;

🔎 В одном запросе можно посчитать суммы по разным статусам — и не делать несколько JOIN или подзапросов. Работает также с COUNT(), AVG() и другими агрегатами. @sqlhub

35 832

⚡️В прошлый четверг команда VK собрала буквально всю RecSys-тусовку. Судя по ленте, на ивенте было стильно и глитчово Это первая встреча AI VK & Pro. На ней рассказали о будущем рекомендаций, о том, как строят единую Discovery-платформу для рекомендательных систем во всех продуктах VK и еще много всего полезного Успели всё: отыграть DJ-сеты, эффективно понетворкать, был даже турнир по су-е-фа

35 832

🗄 MySQL vs Postgres: как кэшируют страницы данных ⚡ Подходы разные: - MySQL (InnoDB) стремится всё держать под своим контролем - Postgres больше доверяет операционной системе MySQL / InnoDB - Своя память под кэш: innodb_buffer_pool_size обычно = 70%+ RAM на выделенном сервере - Обход кэша ОС: с innodb_flush_method='O_DIRECT' InnoDB работает напрямую с диском - Двухсекционный LRU: страницы сначала в old, только потом (через innodb_old_blocks_time`) в `young. Это спасает от «выметания» кэша при больших сканах Postgres - Внутренний кэш + page cache ОС: shared_buffers обычно около 30% RAM, остальное оставляют ОС - Clock-sweep: у страницы счётчик обращений, уменьшается при «прокрутке часов». Когда падает до нуля — страница освобождается Практические выводы - Bulk-операции: InnoDB устойчивее к «пробиванию» кэша, в Postgres часть нагрузки идёт в кэш файловой системы - Тюнинг памяти: в MySQL раздувают buffer pool, в Postgres shared_buffers умеренный, а остальное доверяют ОС Что стоит проверить в бенчмарках Postgres - Размер shared_buffers: 4% / 10% / 30% / 50% RAM - Сценарии: OLTP, последовательные сканы, смешанные нагрузки - Рабочий набор: меньше / равен / больше доступной RAM - Метрики: TPS/QPS, p95/p99 латентность, hit ratio, про https://github.com/postgres/postgres/blob/master/src/backend/storage/buffer/README

35 832

❌ Классический поиск по ключевым словам даёт ограниченные результаты. Нашёл только одно совпадение: "Machine Learning Overview". ✅ А вот pgvector ищет по смыслу и находит связанные концепции. Пример запроса возвращает 5 релевантных документов: – Machine Learning Overview – Data Mining Basics – Introduction to AI – Deep Learning Guide Семантический поиск > ключевого 🔥