Data Science. SQL hub
По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo #VRHSZ
显示更多📈 Telegram 频道 Data Science. SQL hub 的分析概览
频道 Data Science. SQL hub (@sqlhub) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 35 853 名订阅者,在 技术与应用 类别中位列第 3 833,并在 俄罗斯 地区排名第 18 125 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 35 853 名订阅者。
根据 12 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 8,过去 24 小时变化为 -2,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 10.08%。内容发布后 24 小时内通常能获得 4.38% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 3 614 次浏览,首日通常累积 1 571 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 15。
- 主题关注点: 内容集中在 sql, индекс, postgres, index, sqlite 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“По всем вопросам- @workakkk
@itchannels_telegram - 🔥лучшие ит-каналы
@ai_machinelearning_big_data - Machine learning
@pythonl - Python
@pythonlbooks- python книги📚
@datascienceiot - ml книги📚
РКН: https://vk.cc/cIi9vo
#VRHSZ”
凭借高频更新(最新数据采集于 13 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
SELECT u.id, l.event
FROM users u
JOIN logs l ON l.user_id = u.id AND l.is_archived = false;
Если делать обычный индекс, он будет огромный. Но partial index:
CREATE INDEX idx_logs_active ON logs(user_id)
WHERE is_archived = false;
Теперь:
- индекс в 20–30 раз меньше
- cache hit rate выше
- планы меняются с seq scan на index scan
- JOIN начинает работать почти как в in-memory базе
Прикольно, что работает даже если в SELECT самого условия нет — главное, чтобы оно было в ON.
Это отличный способ ускорять «холодные» большие таблицы, где часто обращаются только к маленькому активному сегменту.
@sqlhubpg_lake позволяет интегрировать файлы Iceberg и хранилищ данных в PostgreSQL, превращая его в полноценную lakehouse-систему. Поддерживает транзакции и быстрые запросы к таблицам Iceberg, а также работу с сырыми данными из облачных хранилищ, таких как S3.
🚀Основные моменты:
- Создание и модификация таблиц Iceberg с полными транзакционными гарантиями.
- Запрос и импорт данных из файлов в форматах Parquet, CSV, JSON.
- Экспорт результатов запросов обратно в облачные хранилища.
- Поддержка геопространственных форматов через GDAL.
- Использование встроенного типа данных для полуструктурированных данных.
📌 GitHub: https://github.com/Snowflake-Labs/pg_lake
#postgresql1️⃣20 ноября — день Бизнеса: разберём успешные кейсы внедрения, оценим эффективность и практические результаты. 2️⃣ 21 ноября — день Науки: проведём глубокий анализ IT-решений, прорывных научных исследований, R&D-разработок и передовых методик.На треке вас ждут выступления ведущих экспертов в AI, постер-сессия, специальные форматы для нетворкинга и выставка R’n’D решений. Это уникальная возможность обсудить сложные вопросы с теми, кто действительно понимает ваши вызовы. Где? Офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е) Когда? 20–21 ноября 2025 года По ссылке — форма регистрации на очное участие. Присоединяйтесь к профессиональному AI-сообществу!
sudo apt install pg-activity
Работает как локально, так и по сети.
Если запускать от postgres или root, открывается полная статистика - системные процессы, временные файлы и всё, что нужно для анализа нагрузки.
https://github.com/dalibo/pg_activityЗдесь реальные задачи, близкие к тому, с чем сталкиваются инженеры в продакшне: ограничения по ресурсам, шумные данные, необходимость найти баланс между скоростью и качеством.
Участие — способ не просто проверить свои навыки, но и заявить о себе в профессиональном сообществе. Лучшие участники получают приглашения на упрощённый отбор в команды Яндекса.Финал пройдёт в Стамбуле, призовой фонд — 12 млн ₽. Регистрация заканчивается совсем скоро. Если вы чувствуете, что готовы выйти за пределы привычных задач — самое время. 💡 yandex.ru/cup/2025
scope="session" датасет загружается один раз и переиспользуется во всех тестах. Это ускоряет процесс и снижает нагрузку.
Используйте session scope для больших и неизменяемых данных, чтобы тесты работали быстрее и стабильнее.--use_llm становится ещё лучше.
- Можно запускать локально, на серверах, GPU / CPU, использовать параллельную обработку.
Ограничения и нюансы:
- Сложные макеты и вложенные таблицы / формы ещё не всегда обрабатываются идеально.
- Иногда требуется OCR, особенно если PDF плохо “разложен” на текст.
Кому полезно:
- Тем, кто работает с научными статьями, отчётами, бухгалтерскими документами, презентациями и хочет автоматизировать преобразование в читаемый формат.
- Для RAG-pipelines, документации и любых задач, где надо извлечь структуру и контент.
https://github.com/datalab-to/marker
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
