fa
Feedback
Data Science. SQL hub

Data Science. SQL hub

رفتن به کانال در Telegram

По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo #VRHSZ

نمایش بیشتر

📈 تحلیل کانال تلگرام Data Science. SQL hub

کانال Data Science. SQL hub (@sqlhub) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 35 857 مشترک است و جایگاه 3 833 را در دسته فناوری و برنامه‌ها و رتبه 18 125 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 35 857 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 12 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 8 و در ۲۴ ساعت گذشته برابر -2 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

  • وضعیت تأیید: تأیید نشده
  • نرخ تعامل (ER): میانگین تعامل مخاطب 10.08% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 4.38% واکنش نسبت به کل مشترکان کسب می‌کند.
  • دسترسی پست‌ها: هر پست به طور میانگین 3 614 بازدید دریافت می‌کند. در اولین روز معمولاً 1 571 بازدید جمع‌آوری می‌شود.
  • واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 15 است.
  • علایق موضوعی: محتوا بر موضوعات کلیدی مانند sql, индекс, postgres, index, sqlite تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo #VRHSZ

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 13 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

35 857
مشترکین
-224 ساعت
-287 روز
+830 روز
آرشیو پست ها
Как правильно установить и использовать браузер в Linux. Если браузер работает медленно или ломается после обновлений - проблема часто не в Linux, а в установке. Многие ставят браузер из случайных источников или вручную скачивают архивы, из-за чего нет автообновлений, слетают зависимости и появляются ошибки. Правильный подход - устанавливать браузер из официального репозитория или через пакетный менеджер системы. Тогда вы получаете: • автоматические обновления безопасности • корректные зависимости • стабильную работу • удобный запуск из системы Для примера установим Google Chrome официальным способом.

Установка Google Chrome (Ubuntu / Debian)
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
sudo apt install -y ./google-chrome-stable_current_amd64.deb

Запуск браузера
google-chrome

Обновление системы (включая браузер)
sudo apt update && sudo apt upgrade -y

Проверка версии
google-chrome --version

Устали от бесконечных миграций схемы под каждый новый атрибут в логах? Выбираете между скоростью запросов и гибкостью хранения динамических JSON? На живом примере разберем стратегии работы с полуструктурированными данными в ClickHouse: ✅Schema-on-Read vs Schema-on-Write: Когда и какой подход выбрать для баланса скорости, гибкости и стоимости. ✅Гибридные модели и Native JSON: Практическое использование современных возможностей ClickHouse. ✅Настройка и типичные запросы: Пишем DDL и сравниваем производительность разных подходов на реальных данных. Спикер — Никита Елисеев, Senior Data Engineer. Узнайте из первых рук, как строить эффективные решения, а не костыли. Зарегистрируйтесь, чтобы получить работающие решения и перестать «ломать» данные под базу: регистрация Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

📊 Real-time SQL Traffic Viewer sql-tap — это прокси-демон, который перехватывает SQL-запросы между вашим приложением и базой
📊 Real-time SQL Traffic Viewer sql-tap — это прокси-демон, который перехватывает SQL-запросы между вашим приложением и базой данных (PostgreSQL или MySQL), отображая их в интерактивном терминальном интерфейсе. Позволяет анализировать запросы и транзакции без изменения кода приложения. 🚀Основные моменты: - Перехват SQL-запросов в реальном времени - Поддержка PostgreSQL и MySQL - Интерактивный интерфейс для анализа запросов - Возможность использования EXPLAIN для оптимизации запросов 📌 GitHub: https://github.com/mickamy/sql-tap #go

Создатель Linux — обычный стол, минимум техники, ничего лишнего. Обычный «тех-бро» — три монитора, RGB, мощный ПК, студийный
Создатель Linux — обычный стол, минимум техники, ничего лишнего. Обычный «тех-бро» — три монитора, RGB, мощный ПК, студийный свет, полный сетап. Иногда разница между «легендой» и «тех-инфлюенсером» - не в железе, а в том, что у тебя в голове.

🖥 Большинство “парсеров” умирают через 2 дня. Ты научишься делать те, которые живут в проде. Это не про BeautifulSoup ради г
🖥 Большинство “парсеров” умирают через 2 дня. Ты научишься делать те, которые живут в проде. Это не про BeautifulSoup ради галочки. Это про системы сбора данных, которые: • не падают от мелких правок на сайте • собирают данные в разы быстрее • обновляют всё сами по расписанию • обходят ограничения и баны • выглядят как сервис, а не хаос из файлов Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться. В итоге ты сможешь: • забирать данные для своих проектов • автоматизировать чужую рутину • делать инструменты для аналитики • брать коммерческие заказы на сбор данных Это навык, который напрямую превращается в деньги. Не “знаю Python”, а умею добывать данные из интернета профессионально. 🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/

DeepSeek готовится выпустить новую модель V4 - релиз ожидается в ближайшее время (по данным CNBC). И рынок уже нервничает. NA
DeepSeek готовится выпустить новую модель V4 - релиз ожидается в ближайшее время (по данным CNBC). И рынок уже нервничает. NASDAQ находится под давлением — инвесторы закладывают сценарий, при котором новый релиз может резко усилить конкуренцию и изменить расклад в AI-индустрии. Почему такая реакция? DeepSeek V4, по слухам, должен стать серьёзным скачком вперёд: - более сильное reasoning - лучшая эффективность - более низкая стоимость Если это подтвердится, давление на американские AI-компании и их оценки может усилиться. Контекст становится ещё интереснее на фоне недавнего заявления Anthropic, где компания сообщила о масштабных попытках distillation через API. Во времени это выглядит как совпадение: - готовится крупный релиз DeepSeek - рынок нервничает - и одновременно звучат обвинения в копировании возможностей моделей Если V4 действительно окажется сильным, это может означать новую фазу AI-гонки. Ответ узнаем очень скоро. Следующий релиз может повлиять не только на технологии - но и на рынок. https://www.cnbc.com/2026/02/23/deepseek-to-release-new-ai-model-a-rough-period-for-nasdaq-stocks-could-follow.html

🎯Продвинутая миграция в SQL, которая спасает продакшен от падения Самая частая проблема при миграциях - блокировки. Обычный CREATE INDEX или ALTER TABLE на большой таблице может: остановить записи заморозить сервис создать очередь запросов и положить базу. Продвинутый подход - выполнять изменения без блокировки. В PostgreSQL для этого есть режим CONCURRENTLY. Он создаёт индекс в фоне, не блокирует INSERT и UPDATE, и позволяет делать миграции без даунтайма. Если таблица большая - это не оптимизация. Это обязательная практика. -- Создание индекса без блокировки таблицы CREATE INDEX CONCURRENTLY idx_payments_user_id ON payments(user_id); -- Удаление индекса без блокировки DROP INDEX CONCURRENTLY idx_payments_user_id;

В Python 3.14 появилось решение, которое помогает избавиться от SQL-инъекций - t-strings 🔒 Проблема Когда вы используете f-s
В Python 3.14 появилось решение, которое помогает избавиться от SQL-инъекций - t-strings 🔒 Проблема Когда вы используете f-strings для SQL:

query = f"SELECT * FROM users WHERE name = '{user_input}'"
пользовательский ввод напрямую попадает в запрос. Если злоумышленник передаст:

admin'; DROP TABLE users; --
— база выполнит вредоносную команду. Это классическая SQL injection. Почему это неудобно сейчас Безопасный способ — параметризованные запросы:

cursor.execute(
    "SELECT * FROM users WHERE name = %s",
    (user_input,)
)
Но приходится: • запускать шаблон отдельно • передавать значения отдельно • поддерживать две структуры Что изменилось в Python 3.14 Появились template string literals (t-strings). В отличие от f-strings, они: • не возвращают готовую строку • возвращают объект Template • отдельно хранят текст и подставленные значения Пример:

query = t"SELECT * FROM users WHERE name = {user_input}"
Теперь можно: • получить все интерполяции • проверить значения • экранировать или валидировать их • и только потом собрать финальный SQL

safe = safe_sql(query)
Результат: • вредоносный ввод очищается • SQL-инъекции блокируются • таблицы остаются на месте Почему это важно f-strings - быстрые, но опасные для SQL. t-strings позволяют сохранить удобство шаблонов и добавить контроль безопасности. Python движется к безопасным шаблонам по умолчанию, меньше ручной защиты, меньше уязвимостей в продакшене.

📌 EXISTS РАБОТАЕТ БЫСТРЕЕ COUNT SQL-совет: перестаньте считать всё через COUNT(*) Многие пишут так: SELECT COUNT(*) FROM orders WHERE user_id = 123; Чтобы проверить — есть ли записи. Проблема: COUNT(*) считает все строки, даже если нужна просто проверка существования. На больших таблицах это лишняя нагрузка и медленный запрос. Правильнее использовать EXISTS. Почему это лучше: - База останавливается на первой найденной строке - Меньше чтения данных - Быстрее на больших таблицах - Использует индексы эффективнее Пример:

-- Плохо
SELECT COUNT(*)
FROM orders
WHERE user_id = 123;

-- Хорошо
SELECT EXISTS (
    SELECT 1
    FROM orders
    WHERE user_id = 123
);

-- Или в условии
SELECT *
FROM users u
WHERE EXISTS (
    SELECT 1
    FROM orders o
    WHERE o.user_id = u.id
);

Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion* 2026! 💙 Шестая ежего
Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion* 2026! 💙 Шестая ежегодная конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов». 60+ актуальных сессий, докладов, кейсов, дискуссий по теме анализа данных/ DS/ ML. Среди тем – ИИ-агенты, RL, CV, NLP, Open Source, Embodied AI и робототехника, рекомендательные системы, применение ИИ в кибербезопасности, AI+ естественные науки, AgentOps и многое другое! Всю программу ищите на сайте (подавайте ваши доклады, welcome!). Конференция объединит лидов ML-команд, DS-специалистов, молодых ученых, инженеров, аналитиков и руководителей, принимающих решения о внедрении технологий в бизнес и государственные сервисы. Среди спикеров конференции: Суржко Денис (ВТБ), Оселедец Иван (AIRI), Райгородский Андрей (МФТИ), Бурнаев Евгений (Сколтех,AIRI), Саркисов Тигран (Х5), Крайнов Александр (Яндекс), Зима Андрей (Ростелеком) и другие эксперты из науки и индустрии. Все мы любим конференции не только ради знаний, но и, конечно, ради нетворкинга и новых знакомств! Живое общение в кругу коллег, друзей и единомышленников – важная часть Data Fusion! ➡ Не пропустите, регистрируйтесь. *Data Fusion — Объединение данных Информация о рекламодателе

📌 UI-TARS-desktop — открытое приложение-агент с GUI, которое превращает ваш компьютер в **интерактивного AI-ассистента** с визуальным восприятием и управлением интерфейсом. Что это и зачем: 🤖 AI-агент, который видит и кликает Проект основан на модели UI-TARS (User Interface — Task Automation & Reasoning System). Агент реально *видит экран*, распознаёт элементы интерфейса и может управлять мышью, клавиатурой и браузером по простым естественным командам. 🖥️ Контроль компьютера на естественном языке Вместо интеграций через API вы пишете команды, а модель сама ищет кнопки, поля ввода и прочие UI-элементы, затем *выполняет действия*. Это работает с приложениями, браузером и элементами рабочего стола. ⚙️ Open-source и кросс-платформа Проект распространяется под Apache-лицензией, есть релизы, активная история версий и документация для запуска на Windows и macOS. : 📦 Цели проекта UI-TARS-desktop — это не просто демонстрация: это полноценный мультимодальный AI-агентный стек, который можно использовать для автоматизации повседневных задач без ручного вмешательства. Страница репозитория: github.com/bytedance/UI-TARS-desktop

🖥 Большие таблицы в SQL - сначала план, потом запрос Самый полезный апгрейд, который реально экономит часы: не "оптимизировать запрос на глаз", а заставить базу самой показать, что она делает. На больших таблицах скорость почти всегда решают 3 вещи: правильный индекс, правильная форма запроса и правильный JOIN-порядок. Железное правило: прежде чем трогать код, запускают EXPLAIN ANALYZE и смотрят две красные зоны - Seq Scan на большой таблице и огромные строки после JOIN. Если видишь Seq Scan - значит фильтр не поддержан индексом или условие написано так, что индекс не используется. Если после JOIN получаются миллионы строк - значит нужно сначала отфильтровать и/или агрегировать, а потом соединять. Самый мощный прием для больших таблиц: сначала выбрать маленький набор ключей (CTE или подзапрос), и только потом JOIN к тяжелой таблице. Это резко уменьшает работу базы, потому что она перестает "перемножать" всё со всем.

ПЛОХО: тяжелый JOIN сразу, база тащит миллионы строк
SELECT u.id, COUNT(e.*) AS events_30d
FROM users u
JOIN events e ON e.user_id = u.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
  AND u.country = 'TH'
GROUP BY u.id;

-- ХОРОШО: сначала сузить пользователей до маленького набора, потом JOIN
WITH target_users AS (
  SELECT id
  FROM users
  WHERE country = 'TH'
)
SELECT tu.id, COUNT(*) AS events_30d
FROM target_users tu
JOIN events e ON e.user_id = tu.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
GROUP BY tu.id;

-- Индексы, которые реально помогают этому паттерну
CREATE INDEX IF NOT EXISTS idx_users_country_id ON users (country, id);
CREATE INDEX IF NOT EXISTS idx_events_user_time ON events (user_id, created_at);

-- Всегда проверяй, что база использует индекс, а не Seq Scan
EXPLAIN (ANALYZE, BUFFERS)
WITH target_users AS (
  SELECT id FROM users WHERE country = 'TH'
)
SELECT tu.id, COUNT(*)
FROM target_users tu
JOIN events e ON e.user_id = tu.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
GROUP BY tu.id;

Импортозамещение СУБД: как не прогадать и выбрать подходящую отечественную платформу? При миграции на российскую СУБД очень в
Импортозамещение СУБД: как не прогадать и выбрать подходящую отечественную платформу? При миграции на российскую СУБД очень важно выбрать решение, которое не просто подходит по определенным критериям, а действительно впишется в вашу инфраструктуру и не подведет в долгосрочной перспективе. Команда K2Тех поучаствовала в исследовании рынка СУБД, организованном аналитическим порталом «ИТ-инфраструктура». На портале вы найдете таблицы сравнения ключевых отечественных СУБД по 30+ критически важным параметрам, в том числе: Надежность и High Availability Производительность Управление и мониторинг Особенности эксплуатации Таблицы позволят сопоставить решения по архитектурным и эксплуатационным характеристикам и станут основой для технической оценки перед пилотом. 🔗 Получите доступ к материалам портала «ИТ-инфраструктура» для первичного анализа решений по ссылке

⚡ Anthropic выложили 6 полноценных курсов по ИИ - бесплатно. По уровню это легко заменяет обучение на десятки или даже сотни
⚡ Anthropic выложили 6 полноценных курсов по ИИ - бесплатно. По уровню это легко заменяет обучение на десятки или даже сотни тысяч рублей. Внутри: - сотни уроков и практики - интерактивные задания и квизы - реальные кейсы работы с Claude - сертификаты после прохождения Если работаешь с AI, агентами или API - это база, которую сейчас проходят разработчики в топ-компаниях. Что можно изучить: • Работа с Claude API https://anthropic.skilljar.com/claude-with-the-anthropic-api • Введение в Model Context Protocol (MCP) https://anthropic.skilljar.com/introduction-to-model-context-protocol • Claude в Amazon Bedrock https://anthropic.skilljar.com/claude-in-amazon-bedrock • Claude в Google Cloud (Vertex AI) https://anthropic.skilljar.com/claude-with-google-vertex • Продвинутый MCP https://anthropic.skilljar.com/model-context-protocol-advanced-topics • Claude Code на практике https://anthropic.skilljar.com/claude-code-in-action Это не «обзорные лекции». Это реальные навыки для тех, кто хочет строить AI-продукты, агентов и автоматизацию.

Oracle на самом деле ушел из России? И может ли PostgreSQL заменить его в корпоративных системах? Обсуждаем в первом выпуске подкаста «Слон в IT-лавке» с генеральным директором Postgres Professional Иваном Панченко и Марком Ривкиным. Марк много лет работал в Oracle и был одним из авторов внутреннего документа «Почему PostgreSQL никогда не заменит Oracle». Сейчас он руководит отделом технического консалтинга Postgres Professional. Postgres Professional — российская компания-разработчик СУБД Postgres Pro и решений на базе PostgreSQL для бизнеса и государства. В подкасте:  Разберем, что изменилось после ухода Oracle: офис, техподдержка и облачные сервисы, и почему Oracle как СУБД продолжает жить в ряде компаний. Обсудим, когда PostgreSQL и Postgres Pro могут заменить Oracle, а когда все упирается в масштаб, архитектуру и требования к системе. Поговорим про зависимость от Oracle и про переход на PostgreSQL и Postgres Pro. Коротко пройдемся по этапам миграции и местам, где чаще всего возникают сложности. За час узнаете, что именно Oracle обрубил в России, где он все еще незаменим и почему. И услышите взгляд человека, который много лет продвигал Oracle, а теперь помогает компаниям переходить на Postgres Pro. Смотрите подкаст на VK Видео. Реклама ООО «ППГ» Инн: 7707083893 Erid: 2VtzqvsViVa

🌟 Топ-10 open-source AI-моделей на февраль 2026. Открытые модели больше не «облегчённая версия». Сегодня многие из них уже конкурируют с коммерческими решениями и подходят для реальных продуктов, агентов и локального запуска. Вот модели, на которые стоит обратить внимание: 1. GLM-5 — автономная разработка и создание приложений https://github.com/THUDM/GLM-5 2. MiniMax M2.5 — мощная модель для кодинга (80%+ на SWE-bench) https://github.com/MiniMax-AI 3. Kimi K2.5 — мультимодальность, код и продвинутое reasoning https://github.com/MoonshotAI 4. DeepSeek V3.2 — эффективная sparse-архитектура, конкурент GPT-уровня https://github.com/deepseek-ai 5. Qwen 3 — сильная логика и отличная поддержка множества языков https://github.com/QwenLM 6. MiMo V2 Flash — высокая эффективность и низкая стоимость инференса https://github.com/MiMo-AI 7. Mistral Large 3 — большой контекст и удобная коммерческая лицензия https://github.com/mistralai 8. LongCat Flash Chat — для сверхдлинных диалогов и памяти контекста https://github.com/LongCatAI 9. Gemma 3 — открытая модель от Google с хорошим качеством диалогов https://github.com/google/gemma 10. INTELLECT-3 — полностью открытый стек обучения модели https://github.com/IntellectAI Почему это важно: - open-weights ≈ уровень топ-моделей - можно запускать локально - полный контроль над данными - база для своих AI-агентов и продуктов - экономия на API при масштабировании

Как PostgreSQL обрабатывает CHECK ограничения при массовой вставке с COPY?
Anonymous voting

Последний шанс подать доклад на PGConf.Russia 2026 Прием заявок закрывается уже сегодня! Если хотите выступить на PGConf.Russia 2026 — присылайте тему и тезисы: программный комитет рассмотрит заявку, свяжется с вами и поможет подготовиться. 🐘 PGConf.Russia 2026 — крупнейшая российская конференция по PostgreSQL и решениям на ее основе, главная встреча сообщества в России. 📍 23-24 марта, онлайн и офлайн в Москве: обсудим новые фичи СУБД, обменяемся практикой, идеями и опытом эксплуатации. Будут доклады ведущих российских специалистов, практические мастер-классы и демо-стенды разработчиков Postgres Pro. Будет более 40 докладов на разные темы: ✔️ Новости PostgreSQL ✔️ Оптимизация запросов, мониторинг, отказоустойчивость и безопасность ✔️ Облегченная миграция с Oracle, Microsoft SQL Server и других систем ✔️ Искусственный интеллект в СУБД ✔️ Масштабируемость, шардирование и секционирование ✔️ Совместимость PostgreSQL с другим ПО ✔️ И другие темы Подайте доклад до 16 февраля: поделитесь опытом и сделайте вклад в сообщество. Если не планируете выступать, а хотите прийти послушать — регистрируйтесь до 28 февраля со скидкой 15%. Реклама ООО «ППГ» Инн: 7707083893 Erid: 2Vtzqw9iCtU

⚡️ Могут ли LLM переводить код Polars в SQL? Да - и это начинает менять то, как мы работаем с данными. Идея простая, но мощна
⚡️ Могут ли LLM переводить код Polars в SQL? Да - и это начинает менять то, как мы работаем с данными. Идея простая, но мощная: большие языковые модели могут переводить натуральный язык и выражения из Polars DataFrame API в эквивалентный SQL. Это мост между Python-подходом к анализу данных и миром аналитических баз. Что это даёт на практике: Пишешь трансформации в стиле Polars - быстро, in-memory, удобно для Python-разработчика LLM превращает логику в SQL - можно запускать в DWH, BI-системах, дата-платформах Не нужно вручную переписывать логику из DataFrame-цепочек в SELECT, JOIN, GROUP BY Особенно полезно, когда: прототип делается локально в Polars, а прод работает на SQL-движке аналитики думают SQL, а инженеры - DataFrame API нужно быстро объяснить, что делает код, в виде SQL-запроса Комбинация Polars (скорость и удобство in-memory) + LLM (понимание семантики кода) позволяет использовать знакомые SQL-паттерны, даже если ты изначально не писал сырой SQL. Это не просто перевод синтаксиса. Модель восстанавливает семантику трансформаций - фильтры, агрегации, группировки, оконные операции - и выражает их в терминах SQL. По сути LLM становится слоем совместимости между DataFrame-мышлением и SQL-мышлением. И это серьёзный сдвиг для аналитических пайплайнов. https://labs.quansight.org/blog/llm_polars_to_sql

Repost from Machinelearning
🌟 Zvec: встраиваемая векторная база данных для RAG без внешних сервисов. Alibaba открыла исходный код Zvec - встраиваемой ве
+2
🌟 Zvec: встраиваемая векторная база данных для RAG без внешних сервисов. Alibaba открыла исходный код Zvec - встраиваемой векторной СУБД, которую авторы называют «SQLite для векторных баз данных». Проект заточен на локальные RAG-пайплайны, семантический поиск и агентские сценарии на ноутбуках, мобильных устройствах или другом edge-железе. Идея в том, что разворачивать отдельный сервер ради векторного поиска и фильтрации по метаданным избыточно. Zvec встраивается в процесс Python-приложения и не требует ни отдельного демона, ни сетевых вызовов.
Существующие решения не подходят для маломощных устройств: Faiss дает только ANN-индекс без скалярного хранилища и крэш-рекавери; DuckDB-VSS ограничен в опциях индексирования; Milvus и облачные векторные хранилища требуют сеть.
Под капотом - Proxima, векторный движок продакшен-уровня, который Alibaba сама использует в собственных сервисах. Поверх него сделали лаконичный Python API: 🟢полный CRUD и поддержка схем; 🟢поиск по нескольким векторам для комбинации разных эмбеддинг-моделей; 🟢встроенный реранкер с weighted и RRF; 🟢гибридный поиск (векторный + фильтры по скалярным полям) с инвертированными индексами. Это позволяет собирать локальных ассистентов, которые одновременно используют семантический поиск, множественную фильтрацию и несколько эмбеддинг-моделей - все в одном движке. По производительности Zvec заявляет победу на бенче VectorDBBench с датасетом Cohere 10M - более 8 000 QPS при сопоставимом реколле. Это вдвое больше, чем у лидера ZillizCloud и с более быстрым построением индекса. Авторы объясняют успех глубокой оптимизацией под CPU: SIMD, кэш-эффективные структуры, многопоточность и prefetching. Пока платформенная поддержка ограничена (Windows отсутствует), но для Linux x86/ARM64 и macOS Zvec уже готов к экспериментам на Python 3.10–3.12. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Документация 🖥GitHub @ai_machinelearning_big_data #AI #ML #VDB #ZVEC #Alibaba