en
Feedback
Data Science: SQL и Аналитика данных

Data Science: SQL и Аналитика данных

Open in Telegram

№ 6205468675 На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL. Сотрудничество: @niktwix Менеджер: @Spiral_Yuri

Show more

📈 Analytical overview of Telegram channel Data Science: SQL и Аналитика данных

Channel Data Science: SQL и Аналитика данных (@pizdatascience) in the Russian language segment is an active participant. Currently, the community unites 38 443 subscribers, ranking 3 573 in the Technologies & Applications category and 16 832 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 38 443 subscribers.

According to the latest data from 10 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -1 444 over the last 30 days and by 15 over the last 24 hours, overall reach remains high.

  • Verification status: Not verified
  • Engagement rate (ER): The average audience engagement rate is 13.17%. Within the first 24 hours after publication, content typically collects 10.93% reactions from the total number of subscribers.
  • Post reach: On average, each post receives 5 057 views. Within the first day, a publication typically gains 4 197 views.
  • Reactions and interaction: The audience actively supports content: the average number of reactions per post is 0.
  • Thematic interests: Content is focused on key topics such as sql, индекс, sqlite, строка, index.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
№ 6205468675 На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL. Сотрудничество: @niktwix Менеджер: @Spiral_Yuri

Thanks to the high frequency of updates (latest data received on 11 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

38 443
Subscribers
+1524 hours
+1277 days
-1 44430 days

Data loading in progress...

Attracting Subscribers
June '26
June '26
+314
in 0 channels
May '26
+552
in 0 channels
Get PRO
April '26
+9 357
in 0 channels
Get PRO
March '26
+4 142
in 5 channels
Get PRO
February '26
+435
in 1 channels
Get PRO
January '26
+589
in 0 channels
Get PRO
December '25
+480
in 1 channels
Get PRO
November '25
+467
in 0 channels
Get PRO
October '25
+647
in 1 channels
Get PRO
September '25
+1 366
in 21 channels
Get PRO
August '25
+1 384
in 172 channels
Get PRO
July '25
+4 516
in 67 channels
Get PRO
June '25
+1 622
in 0 channels
Get PRO
May '25
+4 436
in 278 channels
Get PRO
April '25
+1 673
in 14 channels
Get PRO
March '25
+22 686
in 253 channels
Date
Subscriber Growth
Mentions
Channels
11 June+32
10 June+19
09 June+4
08 June0
07 June+56
06 June+63
05 June+42
04 June+36
03 June+35
02 June+27
01 June0
Channel Posts
🔥 NornicDB: База данных, которая объединяет Graph + Vector и летает в sub-ms Это гибрид: Graph + Vector + Temporal MVCC в од
🔥 NornicDB: База данных, которая объединяет Graph + Vector и летает в sub-ms Это гибрид: Graph + Vector + Temporal MVCC в одном ядре заточен под AI-агентов и knowledge systems Что внутри: ⏺️ HNSW поиск <1ms ⏺️ graph traversal без тормозов ⏺️ writes тоже быстрые, не только чтение Из хорошего, это не Frankenstein из разных сервисов, а единая система. Под капотом: ⏺️Neo4j-compatible (Bolt + Cypher) ⏺️ vector search как first-class citizen ⏺️ GPU acceleration ⏺️ T- emporal модель с версионированием данных То есть ты можешь: ⏺️ искать эмбецдинги ⏺️ ходить по графу ⏺️ делать time-travel запросы ⏺️ всё это в одном запросе. Фактически это попытка сделать “память для AI”: где есть связи, смысл и история изменений, а не просто таблицы. Если делаешь RAG, multi-agent системы или сложные knowledge graph - будет полезно. ➡️ GitHub: https://github.com/orneryd/NornicDB Всё про Data Science 🇷🇺 Читайте нас в MAX

2
🔥 SQL против мошенников Интересная статья про паттерны, по которым можно выявить случаи мошенничества и подозрительной актив
🔥 SQL против мошенников Интересная статья про паттерны, по которым можно выявить случаи мошенничества и подозрительной активности на банковских счетах с помощью простого советского SQL. Большинство признаков, на которые надо обращать внимание, известны или интуитивно понятны, но автор еще и сами SQL-запросы показывает, и это уже может пригодиться. ⏺️Скорость снятия денег. Большое количество операций за короткий срок говорит о том, что мошенник пытается поскорее опустошить карту, пока владелец не заметил. ⏺️Телепортация — в течение небольшого промежутка времени карта использовалась в двух местах, между которыми физически невозможно переместиться с такой скоростью. ⏺️Снятия подозрительных сумм. Небольшие, круглые суммы — у автор это 1-5-10 долларов — говорят о том, что мошенник проверяет, работает ли карта. Сомнения должны вызывать и частые покупки на суммы ниже пределов, после которых требуется подтверждение личности или пин-код. ⏺️Внезапный рост числа уникальных карт у одного мерчанта. Если раньше через него проходили 200 карт в день, а потом их число подскочило до 1000+, это повод присмотреться к нему повнимательнее. ⏺️Операции в нетипичное для пользователя время. Например, если человек всегда платит днем, а потом внезапно начинает активно пользоваться картой в 3 ночи. Чтобы выявлять все эти сигналы было проще, автор предлагает заранее материализовать их с помощью оконных функций: SELECT cardholder_id, timestamp, amount, merchant_id, timestamp - LAG(timestamp) OVER w AS time_since_last, CASE WHEN merchant_id <> LAG(merchant_id) OVER w THEN 'changed' ELSE 'same' END AS merchant_change, sum(amount) OVER ( PARTITION BY cardholder_id ORDER BY timestamp RANGE BETWEEN INTERVAL '24 hours' PRECEDING AND CURRENT ROW ) AS running_24h_total, ROW_NUMBER() OVER ( PARTITION BY cardholder_id, date(timestamp) ORDER BY timestamp ) AS tx_of_day FROM transactions WINDOW w AS (PARTITION BY cardholder_id ORDER BY timestamp) ORDER BY cardholder_id, timestamp; И после этого уже прогонять проверки с помощью WHERE: SELECT * FROM tx_with_windows WHERE tx_of_day >= 5 AND time_since_last < INTERVAL '60 seconds' AND merchant_change = 'changed'; Главное — не переусердствовать и помнить, что каждый сигнал по отдельности, как правило, ничего не доказывает: и обычному человеку может понадобиться снять деньги с карты несколько раз подряд или сбегать в магазин посреди ночи. Чтобы отсеять честных пользователей от мошенников, нужно смотреть на несколько параметров в совокупности. Всё про Data Science 🇷🇺 Читайте нас в MAX
5 013
3
🔥 Сколько денег приносит ИИ? Amazon, Google, Microsoft и другие технокомпании вкладывают в ИИ огромные деньги: они выпускают
🔥 Сколько денег приносит ИИ? Amazon, Google, Microsoft и другие технокомпании вкладывают в ИИ огромные деньги: они выпускают все новые продукты на его основе и активно — иногда слишком — продвигают их среди клиентов и даже собственных сотрудников. Учитывая их рвение, может показаться, что это приносит им большие доходы, но, кажется, это не так. По крайней мере пока. ➡️ Здесь собрали данные о затратах и прибылях передовых ИИ-компаний: кроме уже упомянутых, там есть запрещенная в России Meta, Nvidia, OpenAI, Anthropic, Oracle, xAI, Mistral, Cohere и Deepseek. В плюсе пока только Nvidia, которая с 2023 заработала на ИИ-чипах 253 миллиардов. Никто больше к таким результатам даже не приблизился, и в основном все в глубоком минусе. Выглядит не очень, но стоит учитывать три фактора: ⏺️На графиках только затраты и доходы, связанные с ИИ, а не финансовые показатели компании в целом. То есть Copilot не привел Microsoft к банкротству. ⏺️Цифры приблизительные и основанные во многом на предположениях, оценках экспертов и слитых данных. Список источников внизу страницы. ⏺️Многие денежные потоки в индустрии движутся по кругу: от Google в Anthropic, от Anthropic в Nvidia и от Nvidia в Google. Это тоже влияет на точность оценки прибыльности ИИ-проектов. В любом случае, выглядят данные любопытно и доля правды в них точно есть. Отсюда вопрос: как думаете, когда ИИ начнет окупаться? Всё про Data Science 🇷🇺 Читайте нас в MAX
5 057
4
🔥 Продвинутый SQL совет - всегда проверяй, можно ли заменить SELECT DISTINCT на правильный JOIN или EXISTS. Очень часто DIST
🔥 Продвинутый SQL совет - всегда проверяй, можно ли заменить SELECT DISTINCT на правильный JOIN или EXISTS. Очень часто DISTINCT добавляют просто чтобы убрать дубли после неудачного join. Запрос вроде работает, но по факту ты сначала раздуваешь результат, а потом заставляешь базу его чистить. На больших таблицах это легко убивает производительность. Плохой вариант: SELECT DISTINCT u.id, u.name FROM users u JOIN orders o ON o.user_id = u.id; Лучше так: SELECT u.id, u.name FROM users u WHERE EXISTS ( SELECT 1 FROM orders o WHERE o.user_id = u.id ); Почему это сильный приём: EXISTS останавливается, как только находит первое совпадение не нужно тащить лишние строки не нужно потом убирать дубли логика запроса становится честной - ты проверяешь наличие, а не собираешь мусор Это один из самых частых hidden performance fixes в SQL. Если видишь DISTINCT, сразу спрашивай себя: он тут реально нужен или просто маскирует плохую логику JOIN. Всё про Data Science 🇷🇺 Читайте нас в MAX
5 271
5
🔥 Государство, вузы и бигтех: кто развивает ИИ-образование в мире? Этим вопросом задалась команда J'son & Partners Consultin
🔥 Государство, вузы и бигтех: кто развивает ИИ-образование в мире? Этим вопросом задалась команда J'son & Partners Consulting, которая сравнила подходы к подготовке ИИ-специалистов в России, США и Китае. Во всех трех странах ключевой вызов один — образование не успевает за темпами развития технологий, поэтому важно его адаптировать. Какие меры предпринимают: ⏺️В Китае ИИ-образование взяло под свой контроль государство: оно задает стандарты обучения, выделяет финансирование на проекты, направленные на популяризацию технологий искусственного интеллекта, и вводит уроки по работе с ним в школьную программу. ⏺️В США ситуация противоположная: за подготовку ИИ-кадров отвечают топовые вузы, обучение в которых может стоить десятки тысяч долларов. Вместо массовости они делают ставку на обучение небольшого числа специалистов очень высокого уровня. ⏺️Россия пошла по своему пути: здесь ключевую роль играют бигтехи. Технологические компании совместно с вузами задают ориентиры подготовки ИИ-специалистов. Сегодня обучение развивается в формате партнерских программ — университеты дают фундамент, а бизнес приносит экспертизу в тех областях технологий, о которых еще на написаны учебники. По этой модели, например, запущен бакалавриат AI360 — совместный проект двух ведущих компаний и пяти университетов. ➡️ У всех трех моделей есть свои плюсы. Но если у вас стоит выбор STEM-вуза, смотрите и на конкретных партнеров, с кем он делает свои программы. Всё про Data Science 🇷🇺 Читайте нас в MAX
4 862
6
🔥 Гайд: как настроить WAL, чтобы отслеживать изменения в PostgreSQL? Возможно, кто-то из прочитавших заголовок скажет — заче
🔥 Гайд: как настроить WAL, чтобы отслеживать изменения в PostgreSQL? Возможно, кто-то из прочитавших заголовок скажет — зачем возиться с WAL, если есть более простые способы. NOTIFY, например. Да, действительно, и, если вам нужно мониторить изменения в небольшой, не слишком часто обновляющейся таблице, то это отличный вариант. Но дело в том, что все уведомления NOTIFY падают в одну очередь, и если таких уведомлений много, то они затормозят работу всей БД. Кроме того, их размер ограничен 8000 байтов, чего может быть недостаточно. А еще, если сервис-получатель был по какой-то причине не доступен и сообщение не дошло, повторное через NOTIFY не отправляется — то есть данные просто потеряются. В общем, не идеальный вариант. ➡️ Альтернатива — это настроить Write-Ahead Log или WAL, чтобы получать уведомления из него. Спойлер: этот вариант тоже не идеальный. Как минимум, придется повозиться: ⏺️Изменить wal_level на logical со стандартного replica — так он начнет делать более подробные записи о том, как и что конкретно изменилось в базе. ⏺️Создать publications (то есть, расписать, какие таблицы и действия вы хотите отслеживать) и репликационный слот (то есть отдельную копию WAL, которая гарантирует, что никакие важные данные из лога не удалятся, пока уведомление не будет отправлено). ⏺️Создать listener, который будет получать уведомления и перенаправлять их дальше — в очередную таблицу, в приложение или мессенджер. Или вообще распечатать. ➡️ Но если вам нужно настроить отправку уведомлений и другие способы не подходят, это может быть вполне рабочее решение. Как воплотить его в жизнь, по шагам описано в подробном (очень подробном) гайде. Всё про Data Science 🇷🇺 Читайте нас в MAX
4 831
7
➡️ Китайцы выкатили мощный голосовой ИИ - VoxCPM2 Модель от OpenBMB, которая умеет: ⏺️ Понимать и генерировать речь ⏺️ Работа
➡️ Китайцы выкатили мощный голосовой ИИ - VoxCPM2 Модель от OpenBMB, которая умеет: ⏺️ Понимать и генерировать речь ⏺️ Работать с голосом почти в реальном времени ⏺️Делать voice-to-voice без сложных пайплайнов ⏺️ Подходит под ассистентов, звонки и голосовые агенты Главный плюс - всё это в одной модели, без костылей из ASR + TTS https://huggingface.co/openbmb/VoxCPM2 сё про Data Science 🇷🇺 Читайте нас в MAX
4 748
8
➡️ Таблицы теперь живут прямо в терминале Да, без Excel и без GUI. Sheets - это инструмент, который позволяет читать и редакт
➡️ Таблицы теперь живут прямо в терминале Да, без Excel и без GUI. Sheets - это инструмент, который позволяет читать и редактировать CSV прямо в терминале через TUI или CLI. Что внутри: ⏺️ полноценная работа с таблицами без выхода из терминала ⏺️ vim-подобные хоткеи и навигация ⏺️ быстрые правки без лишнего оверхеда Работает на Windows, macOS и Linux. Идеально, если ты живёшь в терминале и не хочешь дергаться между окнами. Excel начинает нервничать. https://github.com/maaslalani/sheets Всё про Data Science 🇷🇺 Читайте нас в MAX
5 504
9
🔥 Выложили в open source крупнейшую базу интеграций для AI-агентов. - 47 000 действий для агентов в 250+ приложениях - Подкл
🔥 Выложили в open source крупнейшую базу интеграций для AI-агентов. - 47 000 действий для агентов в 250+ приложениях - Подключения к Slack, GitHub, Gmail, Stripe, Discord, Google Sheets и другим сервисам - Все действия проверены, агент больше не «галлюцинирует» API - Разворачивается одной CLI-командой: подключил один раз — используешь везде Это тот самый слой интеграций, которого агентам давно не хватало. https://github.com/withoneai/cli Всё про Data Science 🇷🇺 Читайте нас в MAX
5 367
10
➡️ Cursor сделал regex-поиск мгновенным Instant Grep ищет по миллионам файлов за миллисекунды 16.8 сек → 13 мс И главное: они
➡️ Cursor сделал regex-поиск мгновенным Instant Grep ищет по миллионам файлов за миллисекунды 16.8 сек → 13 мс И главное: они не ускоряли regex они убрали лишний поиск Как это работает - создаётся индекс: куски текста → файлы - используются триграммы (fil, ile, le_) - сначала ищутся кандидаты - потом запускается regex большинство файлов вообще не открывается 🔥Ключевая идея - sparse n-grams - индексируются не все куски - только самые «полезные» - редкие символы имеют больший вес Всё локально - индекс хранится у тебя - привязан к Git - быстрый доступ через memory map Скорость даёт не regex а умный отбор файлов до поиска. https://x.com/cursor_ai/status/2036122609931165985 Всё про Data Science 🇷🇺 Читайте нас в MAX
5 367
11
🔥 SQL-концепции, которые реально нужно знать: ⏺️ CRUD → SELECT, INSERT, UPDATE, DELETE ⏺️ Ключи → PRIMARY KEY, FOREIGN KEY ⏺
🔥 SQL-концепции, которые реально нужно знать: ⏺️ CRUD → SELECT, INSERT, UPDATE, DELETE ⏺️ Ключи → PRIMARY KEY, FOREIGN KEY ⏺️ Ограничения → NOT NULL, UNIQUE, CHECK, DEFAULT ⏺️ JOIN’ы → INNER JOIN, LEFT JOIN, RIGHT JOIN ⏺️ Агрегации → COUNT, SUM, AVG, MIN, MAX ⏺️ Группировка → GROUP BY, HAVING ⏺️ Фильтрация → WHERE, BETWEEN, IN, LIKE ⏺️ Сортировка → ORDER BY ⏺️ Подзапросы → SELECT (SELECT …) ⏺️ Индексы → CREATE INDEX ⏺️ Представления → CREATE VIEW ⏺️ Транзакции → BEGIN, COMMIT, ROLLBACK ⏺️ Пагинация → LIMIT, OFFSET ⏺️ Оптимизация → EXPLAIN Всё про Data Science 🇷🇺 Читайте нас в MAX
5 524
12
🔥 Милла Йовович теперь тоже Вайбкодер😱 Актриса выложила на GitHub опенсорс-инструмент MemPalace для работы с памятью ИИ-аге+1
🔥 Милла Йовович теперь тоже Вайбкодер😱 Актриса выложила на GitHub опенсорс-инструмент MemPalace для работы с памятью ИИ-агентов. Делала его вместе с другом. Фишка в том, что все данные хранятся локально, а система сама решает, какие факты о пользователе подтягивать под конкретный запрос. По бенчмарку LongMemEval инструмент уже обгоняет и платные, и бесплатные решения. За сутки репозиторий набрал 2k+ звёзд. Похоже, границы между индустриями окончательно стерлись 💀 ➡️ https://x.com/bensig/status/2041229266432733356 Всё про Data Science 🇷🇺 Читайте нас в MAX
0
13
🔥 Умный помощник для Claude Code gstack превращает Claude Code в команду специалистов, доступных по запросу. Он предлагает в
🔥 Умный помощник для Claude Code gstack превращает Claude Code в команду специалистов, доступных по запросу. Он предлагает восемь навыков для управления рабочими процессами, включая планирование, ревью кода и автоматизацию браузера, все через удобные команды. Основные моменты: ⏺️ Многофункциональные команды для разных ролей (CEO, инженер, QA). ⏺️ Интеграция с Conductor для параллельной работы. ⏺️ Полная автоматизация тестирования и ревью. ➡️ GitHub: https://github.com/garrytan/gstack Всё про Data Science 🇷🇺 Читайте нас в MAX
0
14
➡️ ByteDance только что open-sourced OpenViking, и этот проект показывает, что именно не так с тем, как сегодня строят память
➡️ ByteDance только что open-sourced OpenViking, и этот проект показывает, что именно не так с тем, как сегодня строят память для AI-агентов. Вот где большинство агент-фреймворков ошибаются: Память хранится в одном месте. Ресурсы — в другом. Навыки разбросаны по системе. Когда агенту нужен контекст, обычно делают плоский векторный поиск и просто надеются на лучший результат. Именно это и проблема. OpenViking решает её одной идеей: рассматривать контекст агента как файловую систему. Всё работает через единый протокол: viking:// Память, ресурсы и навыки организованы как директории с уникальными URI. Агент может ls, find и навигировать по контексту, как разработчик в терминале. Главный прорыв — многоуровневая загрузка контекста: - L0 — одно предложение для быстрого поиска - L1 — обзор ~2000 токенов для принятия решений - L2 — полные детали, загружаются только когда действительно нужны Большинство агентов просто загружает всё в контекст и надеется на лучшее. OpenViking загружает только нужные данные и только в нужный момент. Результат: - меньше расходов на токены - выше точность - быстрее работа агентов Retrieval теперь тоже работает логичнее. Вместо одного плоского семантического поиска: 1. сначала происходит позиционирование на уровне директорий 2. затем рекурсивный поиск внутри наиболее релевантных директорий Можно буквально видеть траекторию поиска — это больше не чёрный ящик. Есть и механизм самоэволюции агента. В конце каждой сессии система автоматически: - извлекает новые знания - обновляет память агента - обновляет память пользователя То есть агент становится умнее с каждым использованием. Проект уже имеет: - 9K звёзд на GitHub - 13 контрибьюторов Разработан командой ByteDance Viking, которая строит инфраструктуру векторного поиска с 2019 года. Проект полностью open-source под лицензией Apache 2.0. Всё про Data Science 🇷🇺 Читайте нас в MAX
0
15
🔥 Заводчане в Индии носят камеры на голове, чтобы на этих видео потом могли обучать роботов Для корпораций это фактически бе
🔥 Заводчане в Индии носят камеры на голове, чтобы на этих видео потом могли обучать роботов Для корпораций это фактически бесплатно, а датасет выходит уникальным — таких данных нет в интернете и их невозможно сгенерировать синтетически. Так что да, люди сами помогают создавать себе замену. Всё про Data Science 🇷🇺 Читайте нас в MAX
0
16
🔥 Ошибки при train/test split Train/test split — кажется самой простой частью ML. Но именно здесь чаще всего ломают всю моде
🔥 Ошибки при train/test split Train/test split — кажется самой простой частью ML. Но именно здесь чаще всего ломают всю модель. И самое опасное — ты можешь даже не заметить Data Leakage — тихий убийца моделей Ты случайно «подсматриваешь» в тест. Примеры: 👉 нормализация на всём датасете до split 👉 target encoding на всех данных 👉 feature, напрямую связанная с таргетом Модель показывает космический скор, а в проде — провал. Случайный split там, где нельзя Ты делаешь random split… но данные зависимы. Примеры: 👉 временные ряды 👉 пользователи (один и тот же user в train и test) 👉 сессии Модель узнаёт данные, а не обобщает. Игнорирование времени В задачах с временем: 👉 ❌ случайный split 👉 ✅ train = прошлое, test = будущее Иначе ты: 👉 обучаешься на будущем 👉 предсказываешь прошлое Это не ML. Это читерство. 4️⃣ Дисбаланс классов в split Ты сделал split и получил: 👉 train: 5% positive 👉 test: 1% positive Метрики начинают врать. Решение: 👉 stratified split Слишком маленький test Test = 50 объектов Accuracy = 90% Звучит круто. Но это статистический шум. Маленький test = ненадёжная оценка. Тест используется как валидация Классическая ошибка: 👉 обучился 👉 посмотрел на test 👉 подкрутил модель 👉 снова посмотрел Это уже не test. Это validation 2.0. Дубликаты в train и test Если один и тот же объект попал в обе выборки: Модель просто запоминает. Особенно критично: 👉 CV 👉 e-commerce 👉 табличные данные с ID Неправильный split в CV Cross-validation тоже можно сломать: 👉 leakage между фолдами 👉 группы не учитываются 👉 time-series перемешаны Используй: 👉 GroupKFold 👉 TimeSeriesSplit Главный инсайт Train/test split — это не про «разделить данные». Это про симуляцию реального мира. Если split не отражает прод — все метрики бесполезны. В одном предложении Плохой split может сделать плохую модель «идеальной» — до момента, когда она выйдет в прод. Всё про Data Science 🇷🇺 Читайте нас в MAX
0
17
➡️ Трюк дня. Сравнение с предыдущим. Решение. Решение: использование DATEDIFF DATEDIFF: эта функция вычисляет разницу между двумя датами. Она используется для того, чтобы обеспечить сравнение именно «сегодняшних» и «вчерашних» температур. Если сформулировать обычным языком следующий запрос, то окажется, что он выражает следующую идею: нужно выбрать такие идентификаторы, чтобы температура, соответствующая представляемым ими датам, была бы больше, чем температура на «вчерашние» по отношению к ним даты. SELECT DISTINCT a.Id FROM Weather a, Weather b WHERE a.Temperature > b.Temperature AND DATEDIFF(a.Recorddate, b.Recorddate) = 1 Всё про Data Science 🇷🇺 Читайте нас в MAX
0
18
🔥 Zero-cost поиск для AI-приложений — идея из turbopuffer Большинство систем поиска и векторных БД сегодня очень дорогие. Пр
🔥 Zero-cost поиск для AI-приложений — идея из turbopuffer Большинство систем поиска и векторных БД сегодня очень дорогие. Причина простая, они хранят данные в RAM или реплицированных SSD, где стоимость может доходить до $600–$3600 за TB в месяц. Но turbopuffer предлагает другой подход. Хранить данные не в памяти серверов, а в object storage (например S3 или GCS). Стоимость: ⏺️ RAM + SSD инфраструктура - до $3600/TB ⏺️ SSD-кластеры - около $600/TB ⏺️Object storage (S3) - примерно $20/TB Разница может достигать до 100× дешевле для холодных данных. 📌 Архитектура turbopuffer: Client ↓ Query layer ↓ SSD / memory cache (горячие данные) ↓ Object storage (источник истины) То есть: ⏺️ холодные данные хранятся дешево в object storage ⏺️ часто используемые попадают в SSD или RAM cache ⏺️ запросы остаются быстрыми (<100ms), но стоимость инфраструктуры падает на порядок Vector search становится ключевой частью AI-систем: ⏺️ RAG ⏺️ AI-ассистенты ⏺️ semantic search ⏺️recommendation systems Но именно retrieval слой часто становится самой дорогой частью AI-инфраструктуры. Архитектура turbopuffer показывает, что: > дешевый storage + умный cache > может заменить дорогие memory-based search системы. Будущее AI-поиска может выглядеть так: ⏺️ object storage как источник данных ⏺️ stateless compute ⏺️ дешёвый storage ⏺️ кэш для hot data И тогда поиск по миллиардам документов становится почти “zero-cost” инфраструктурой. Подробнее: https://turbopuffer.com/blog/zero-cost Всё про Data Science 🇷🇺 Читайте нас в MAX
0
19
🔥Как правильно установить и использовать браузер в Linux. Если браузер работает медленно или ломается после обновлений - про
🔥Как правильно установить и использовать браузер в Linux. Если браузер работает медленно или ломается после обновлений - проблема часто не в Linux, а в установке. Многие ставят браузер из случайных источников или вручную скачивают архивы, из-за чего нет автообновлений, слетают зависимости и появляются ошибки. Правильный подход - устанавливать браузер из официального репозитория или через пакетный менеджер системы. Тогда вы получаете: ⏺️ автоматические обновления безопасности ⏺️ корректные зависимости ⏺️ стабильную работу ⏺️ удобный запуск из системы Для примера установим Google Chrome официальным способом. Установка Google Chrome (Ubuntu / Debian) wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb sudo apt install -y ./google-chrome-stable_current_amd64.deb Запуск браузера google-chrome Обновление системы (включая браузер) sudo apt update && sudo apt upgrade -y Проверка версии google-chrome --version Всё про Data Science 🇷🇺 Читайте нас в MAX
0
20
🔥Про боли женского шоппинга The Pudding пытаются повторить успех своего легендарного проекта про карманы в женских джинсах,
🔥Про боли женского шоппинга The Pudding пытаются повторить успех своего легендарного проекта про карманы в женских джинсах, на этот раз рассказывая про проблемы женской одежды в целом. Материал большой, иллюстративно красивый и «жирный» по фактуре. Вот несколько фактов из него: ⏺️Больше половины взрослых женщин в США оказываются вне стандартной линейки размеров — она рассчитана скорее на 15-летних подростков. ⏺️Универсальных размеров нет. S, M, XL у разных брендов — это абсолютно разная одежда. Подбор подходящего наряда при этих условиях превращается в кошмар. ⏺️Ещё круче. Со временем размерная сетка меняется, играя на чувстве «спустя 10 лет я всё ещё влезаю в свой размер!». ⏺️В массовом производстве дизайнеры часто берут size 8 как базовую форму, а остальные размеры получают простым масштабированием вверх и вниз. Это удобно для фабрик, но плохо учитывает реальные различия в пропорциях тела. В итоге в реальности вещь может подходить по талии, но плохо садиться по бёдрам, или наоборот. ➡️ Подробнее: pudding.cool/2026/02/womens-sizing/ Всё про Data Science 🇷🇺 Читайте нас в MAX
0