ar
Feedback
Data Science. SQL hub

Data Science. SQL hub

الذهاب إلى القناة على Telegram

По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo #VRHSZ

إظهار المزيد

📈 نظرة تحليلية على قناة تيليجرام Data Science. SQL hub

تُعد قناة Data Science. SQL hub (@sqlhub) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 35 857 مشتركاً، محتلاً المرتبة 3 833 في فئة التكنولوجيات والتطبيقات والمرتبة 18 125 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 35 857 مشتركاً.

بحسب آخر البيانات بتاريخ 12 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار 8، وفي آخر 24 ساعة بمقدار -2، مع بقاء الوصول العام مرتفعاً.

  • حالة التحقق: غير موثّقة
  • معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 10.08‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 4.38‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
  • وصول المنشورات: يحصل كل منشور على متوسط 3 614 مشاهدة. وخلال اليوم الأول يجمع عادةً 1 571 مشاهدة.
  • التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 15.
  • الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل sql, индекс, postgres, index, sqlite.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo #VRHSZ

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 13 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

35 857
المشتركون
-224 ساعات
-287 أيام
+830 أيام
أرشيف المشاركات
Как правильно установить и использовать браузер в Linux. Если браузер работает медленно или ломается после обновлений - проблема часто не в Linux, а в установке. Многие ставят браузер из случайных источников или вручную скачивают архивы, из-за чего нет автообновлений, слетают зависимости и появляются ошибки. Правильный подход - устанавливать браузер из официального репозитория или через пакетный менеджер системы. Тогда вы получаете: • автоматические обновления безопасности • корректные зависимости • стабильную работу • удобный запуск из системы Для примера установим Google Chrome официальным способом.

Установка Google Chrome (Ubuntu / Debian)
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
sudo apt install -y ./google-chrome-stable_current_amd64.deb

Запуск браузера
google-chrome

Обновление системы (включая браузер)
sudo apt update && sudo apt upgrade -y

Проверка версии
google-chrome --version

Устали от бесконечных миграций схемы под каждый новый атрибут в логах? Выбираете между скоростью запросов и гибкостью хранения динамических JSON? На живом примере разберем стратегии работы с полуструктурированными данными в ClickHouse: ✅Schema-on-Read vs Schema-on-Write: Когда и какой подход выбрать для баланса скорости, гибкости и стоимости. ✅Гибридные модели и Native JSON: Практическое использование современных возможностей ClickHouse. ✅Настройка и типичные запросы: Пишем DDL и сравниваем производительность разных подходов на реальных данных. Спикер — Никита Елисеев, Senior Data Engineer. Узнайте из первых рук, как строить эффективные решения, а не костыли. Зарегистрируйтесь, чтобы получить работающие решения и перестать «ломать» данные под базу: регистрация Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

📊 Real-time SQL Traffic Viewer sql-tap — это прокси-демон, который перехватывает SQL-запросы между вашим приложением и базой
📊 Real-time SQL Traffic Viewer sql-tap — это прокси-демон, который перехватывает SQL-запросы между вашим приложением и базой данных (PostgreSQL или MySQL), отображая их в интерактивном терминальном интерфейсе. Позволяет анализировать запросы и транзакции без изменения кода приложения. 🚀Основные моменты: - Перехват SQL-запросов в реальном времени - Поддержка PostgreSQL и MySQL - Интерактивный интерфейс для анализа запросов - Возможность использования EXPLAIN для оптимизации запросов 📌 GitHub: https://github.com/mickamy/sql-tap #go

Создатель Linux — обычный стол, минимум техники, ничего лишнего. Обычный «тех-бро» — три монитора, RGB, мощный ПК, студийный
Создатель Linux — обычный стол, минимум техники, ничего лишнего. Обычный «тех-бро» — три монитора, RGB, мощный ПК, студийный свет, полный сетап. Иногда разница между «легендой» и «тех-инфлюенсером» - не в железе, а в том, что у тебя в голове.

🖥 Большинство “парсеров” умирают через 2 дня. Ты научишься делать те, которые живут в проде. Это не про BeautifulSoup ради г
🖥 Большинство “парсеров” умирают через 2 дня. Ты научишься делать те, которые живут в проде. Это не про BeautifulSoup ради галочки. Это про системы сбора данных, которые: • не падают от мелких правок на сайте • собирают данные в разы быстрее • обновляют всё сами по расписанию • обходят ограничения и баны • выглядят как сервис, а не хаос из файлов Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться. В итоге ты сможешь: • забирать данные для своих проектов • автоматизировать чужую рутину • делать инструменты для аналитики • брать коммерческие заказы на сбор данных Это навык, который напрямую превращается в деньги. Не “знаю Python”, а умею добывать данные из интернета профессионально. 🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/

DeepSeek готовится выпустить новую модель V4 - релиз ожидается в ближайшее время (по данным CNBC). И рынок уже нервничает. NA
DeepSeek готовится выпустить новую модель V4 - релиз ожидается в ближайшее время (по данным CNBC). И рынок уже нервничает. NASDAQ находится под давлением — инвесторы закладывают сценарий, при котором новый релиз может резко усилить конкуренцию и изменить расклад в AI-индустрии. Почему такая реакция? DeepSeek V4, по слухам, должен стать серьёзным скачком вперёд: - более сильное reasoning - лучшая эффективность - более низкая стоимость Если это подтвердится, давление на американские AI-компании и их оценки может усилиться. Контекст становится ещё интереснее на фоне недавнего заявления Anthropic, где компания сообщила о масштабных попытках distillation через API. Во времени это выглядит как совпадение: - готовится крупный релиз DeepSeek - рынок нервничает - и одновременно звучат обвинения в копировании возможностей моделей Если V4 действительно окажется сильным, это может означать новую фазу AI-гонки. Ответ узнаем очень скоро. Следующий релиз может повлиять не только на технологии - но и на рынок. https://www.cnbc.com/2026/02/23/deepseek-to-release-new-ai-model-a-rough-period-for-nasdaq-stocks-could-follow.html

🎯Продвинутая миграция в SQL, которая спасает продакшен от падения Самая частая проблема при миграциях - блокировки. Обычный CREATE INDEX или ALTER TABLE на большой таблице может: остановить записи заморозить сервис создать очередь запросов и положить базу. Продвинутый подход - выполнять изменения без блокировки. В PostgreSQL для этого есть режим CONCURRENTLY. Он создаёт индекс в фоне, не блокирует INSERT и UPDATE, и позволяет делать миграции без даунтайма. Если таблица большая - это не оптимизация. Это обязательная практика. -- Создание индекса без блокировки таблицы CREATE INDEX CONCURRENTLY idx_payments_user_id ON payments(user_id); -- Удаление индекса без блокировки DROP INDEX CONCURRENTLY idx_payments_user_id;

В Python 3.14 появилось решение, которое помогает избавиться от SQL-инъекций - t-strings 🔒 Проблема Когда вы используете f-s
В Python 3.14 появилось решение, которое помогает избавиться от SQL-инъекций - t-strings 🔒 Проблема Когда вы используете f-strings для SQL:

query = f"SELECT * FROM users WHERE name = '{user_input}'"
пользовательский ввод напрямую попадает в запрос. Если злоумышленник передаст:

admin'; DROP TABLE users; --
— база выполнит вредоносную команду. Это классическая SQL injection. Почему это неудобно сейчас Безопасный способ — параметризованные запросы:

cursor.execute(
    "SELECT * FROM users WHERE name = %s",
    (user_input,)
)
Но приходится: • запускать шаблон отдельно • передавать значения отдельно • поддерживать две структуры Что изменилось в Python 3.14 Появились template string literals (t-strings). В отличие от f-strings, они: • не возвращают готовую строку • возвращают объект Template • отдельно хранят текст и подставленные значения Пример:

query = t"SELECT * FROM users WHERE name = {user_input}"
Теперь можно: • получить все интерполяции • проверить значения • экранировать или валидировать их • и только потом собрать финальный SQL

safe = safe_sql(query)
Результат: • вредоносный ввод очищается • SQL-инъекции блокируются • таблицы остаются на месте Почему это важно f-strings - быстрые, но опасные для SQL. t-strings позволяют сохранить удобство шаблонов и добавить контроль безопасности. Python движется к безопасным шаблонам по умолчанию, меньше ручной защиты, меньше уязвимостей в продакшене.

📌 EXISTS РАБОТАЕТ БЫСТРЕЕ COUNT SQL-совет: перестаньте считать всё через COUNT(*) Многие пишут так: SELECT COUNT(*) FROM orders WHERE user_id = 123; Чтобы проверить — есть ли записи. Проблема: COUNT(*) считает все строки, даже если нужна просто проверка существования. На больших таблицах это лишняя нагрузка и медленный запрос. Правильнее использовать EXISTS. Почему это лучше: - База останавливается на первой найденной строке - Меньше чтения данных - Быстрее на больших таблицах - Использует индексы эффективнее Пример:

-- Плохо
SELECT COUNT(*)
FROM orders
WHERE user_id = 123;

-- Хорошо
SELECT EXISTS (
    SELECT 1
    FROM orders
    WHERE user_id = 123
);

-- Или в условии
SELECT *
FROM users u
WHERE EXISTS (
    SELECT 1
    FROM orders o
    WHERE o.user_id = u.id
);

Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion* 2026! 💙 Шестая ежего
Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion* 2026! 💙 Шестая ежегодная конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов». 60+ актуальных сессий, докладов, кейсов, дискуссий по теме анализа данных/ DS/ ML. Среди тем – ИИ-агенты, RL, CV, NLP, Open Source, Embodied AI и робототехника, рекомендательные системы, применение ИИ в кибербезопасности, AI+ естественные науки, AgentOps и многое другое! Всю программу ищите на сайте (подавайте ваши доклады, welcome!). Конференция объединит лидов ML-команд, DS-специалистов, молодых ученых, инженеров, аналитиков и руководителей, принимающих решения о внедрении технологий в бизнес и государственные сервисы. Среди спикеров конференции: Суржко Денис (ВТБ), Оселедец Иван (AIRI), Райгородский Андрей (МФТИ), Бурнаев Евгений (Сколтех,AIRI), Саркисов Тигран (Х5), Крайнов Александр (Яндекс), Зима Андрей (Ростелеком) и другие эксперты из науки и индустрии. Все мы любим конференции не только ради знаний, но и, конечно, ради нетворкинга и новых знакомств! Живое общение в кругу коллег, друзей и единомышленников – важная часть Data Fusion! ➡ Не пропустите, регистрируйтесь. *Data Fusion — Объединение данных Информация о рекламодателе

📌 UI-TARS-desktop — открытое приложение-агент с GUI, которое превращает ваш компьютер в **интерактивного AI-ассистента** с визуальным восприятием и управлением интерфейсом. Что это и зачем: 🤖 AI-агент, который видит и кликает Проект основан на модели UI-TARS (User Interface — Task Automation & Reasoning System). Агент реально *видит экран*, распознаёт элементы интерфейса и может управлять мышью, клавиатурой и браузером по простым естественным командам. 🖥️ Контроль компьютера на естественном языке Вместо интеграций через API вы пишете команды, а модель сама ищет кнопки, поля ввода и прочие UI-элементы, затем *выполняет действия*. Это работает с приложениями, браузером и элементами рабочего стола. ⚙️ Open-source и кросс-платформа Проект распространяется под Apache-лицензией, есть релизы, активная история версий и документация для запуска на Windows и macOS. : 📦 Цели проекта UI-TARS-desktop — это не просто демонстрация: это полноценный мультимодальный AI-агентный стек, который можно использовать для автоматизации повседневных задач без ручного вмешательства. Страница репозитория: github.com/bytedance/UI-TARS-desktop

🖥 Большие таблицы в SQL - сначала план, потом запрос Самый полезный апгрейд, который реально экономит часы: не "оптимизировать запрос на глаз", а заставить базу самой показать, что она делает. На больших таблицах скорость почти всегда решают 3 вещи: правильный индекс, правильная форма запроса и правильный JOIN-порядок. Железное правило: прежде чем трогать код, запускают EXPLAIN ANALYZE и смотрят две красные зоны - Seq Scan на большой таблице и огромные строки после JOIN. Если видишь Seq Scan - значит фильтр не поддержан индексом или условие написано так, что индекс не используется. Если после JOIN получаются миллионы строк - значит нужно сначала отфильтровать и/или агрегировать, а потом соединять. Самый мощный прием для больших таблиц: сначала выбрать маленький набор ключей (CTE или подзапрос), и только потом JOIN к тяжелой таблице. Это резко уменьшает работу базы, потому что она перестает "перемножать" всё со всем.

ПЛОХО: тяжелый JOIN сразу, база тащит миллионы строк
SELECT u.id, COUNT(e.*) AS events_30d
FROM users u
JOIN events e ON e.user_id = u.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
  AND u.country = 'TH'
GROUP BY u.id;

-- ХОРОШО: сначала сузить пользователей до маленького набора, потом JOIN
WITH target_users AS (
  SELECT id
  FROM users
  WHERE country = 'TH'
)
SELECT tu.id, COUNT(*) AS events_30d
FROM target_users tu
JOIN events e ON e.user_id = tu.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
GROUP BY tu.id;

-- Индексы, которые реально помогают этому паттерну
CREATE INDEX IF NOT EXISTS idx_users_country_id ON users (country, id);
CREATE INDEX IF NOT EXISTS idx_events_user_time ON events (user_id, created_at);

-- Всегда проверяй, что база использует индекс, а не Seq Scan
EXPLAIN (ANALYZE, BUFFERS)
WITH target_users AS (
  SELECT id FROM users WHERE country = 'TH'
)
SELECT tu.id, COUNT(*)
FROM target_users tu
JOIN events e ON e.user_id = tu.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
GROUP BY tu.id;

Импортозамещение СУБД: как не прогадать и выбрать подходящую отечественную платформу? При миграции на российскую СУБД очень в
Импортозамещение СУБД: как не прогадать и выбрать подходящую отечественную платформу? При миграции на российскую СУБД очень важно выбрать решение, которое не просто подходит по определенным критериям, а действительно впишется в вашу инфраструктуру и не подведет в долгосрочной перспективе. Команда K2Тех поучаствовала в исследовании рынка СУБД, организованном аналитическим порталом «ИТ-инфраструктура». На портале вы найдете таблицы сравнения ключевых отечественных СУБД по 30+ критически важным параметрам, в том числе: Надежность и High Availability Производительность Управление и мониторинг Особенности эксплуатации Таблицы позволят сопоставить решения по архитектурным и эксплуатационным характеристикам и станут основой для технической оценки перед пилотом. 🔗 Получите доступ к материалам портала «ИТ-инфраструктура» для первичного анализа решений по ссылке

⚡ Anthropic выложили 6 полноценных курсов по ИИ - бесплатно. По уровню это легко заменяет обучение на десятки или даже сотни
⚡ Anthropic выложили 6 полноценных курсов по ИИ - бесплатно. По уровню это легко заменяет обучение на десятки или даже сотни тысяч рублей. Внутри: - сотни уроков и практики - интерактивные задания и квизы - реальные кейсы работы с Claude - сертификаты после прохождения Если работаешь с AI, агентами или API - это база, которую сейчас проходят разработчики в топ-компаниях. Что можно изучить: • Работа с Claude API https://anthropic.skilljar.com/claude-with-the-anthropic-api • Введение в Model Context Protocol (MCP) https://anthropic.skilljar.com/introduction-to-model-context-protocol • Claude в Amazon Bedrock https://anthropic.skilljar.com/claude-in-amazon-bedrock • Claude в Google Cloud (Vertex AI) https://anthropic.skilljar.com/claude-with-google-vertex • Продвинутый MCP https://anthropic.skilljar.com/model-context-protocol-advanced-topics • Claude Code на практике https://anthropic.skilljar.com/claude-code-in-action Это не «обзорные лекции». Это реальные навыки для тех, кто хочет строить AI-продукты, агентов и автоматизацию.

Oracle на самом деле ушел из России? И может ли PostgreSQL заменить его в корпоративных системах? Обсуждаем в первом выпуске подкаста «Слон в IT-лавке» с генеральным директором Postgres Professional Иваном Панченко и Марком Ривкиным. Марк много лет работал в Oracle и был одним из авторов внутреннего документа «Почему PostgreSQL никогда не заменит Oracle». Сейчас он руководит отделом технического консалтинга Postgres Professional. Postgres Professional — российская компания-разработчик СУБД Postgres Pro и решений на базе PostgreSQL для бизнеса и государства. В подкасте:  Разберем, что изменилось после ухода Oracle: офис, техподдержка и облачные сервисы, и почему Oracle как СУБД продолжает жить в ряде компаний. Обсудим, когда PostgreSQL и Postgres Pro могут заменить Oracle, а когда все упирается в масштаб, архитектуру и требования к системе. Поговорим про зависимость от Oracle и про переход на PostgreSQL и Postgres Pro. Коротко пройдемся по этапам миграции и местам, где чаще всего возникают сложности. За час узнаете, что именно Oracle обрубил в России, где он все еще незаменим и почему. И услышите взгляд человека, который много лет продвигал Oracle, а теперь помогает компаниям переходить на Postgres Pro. Смотрите подкаст на VK Видео. Реклама ООО «ППГ» Инн: 7707083893 Erid: 2VtzqvsViVa

🌟 Топ-10 open-source AI-моделей на февраль 2026. Открытые модели больше не «облегчённая версия». Сегодня многие из них уже конкурируют с коммерческими решениями и подходят для реальных продуктов, агентов и локального запуска. Вот модели, на которые стоит обратить внимание: 1. GLM-5 — автономная разработка и создание приложений https://github.com/THUDM/GLM-5 2. MiniMax M2.5 — мощная модель для кодинга (80%+ на SWE-bench) https://github.com/MiniMax-AI 3. Kimi K2.5 — мультимодальность, код и продвинутое reasoning https://github.com/MoonshotAI 4. DeepSeek V3.2 — эффективная sparse-архитектура, конкурент GPT-уровня https://github.com/deepseek-ai 5. Qwen 3 — сильная логика и отличная поддержка множества языков https://github.com/QwenLM 6. MiMo V2 Flash — высокая эффективность и низкая стоимость инференса https://github.com/MiMo-AI 7. Mistral Large 3 — большой контекст и удобная коммерческая лицензия https://github.com/mistralai 8. LongCat Flash Chat — для сверхдлинных диалогов и памяти контекста https://github.com/LongCatAI 9. Gemma 3 — открытая модель от Google с хорошим качеством диалогов https://github.com/google/gemma 10. INTELLECT-3 — полностью открытый стек обучения модели https://github.com/IntellectAI Почему это важно: - open-weights ≈ уровень топ-моделей - можно запускать локально - полный контроль над данными - база для своих AI-агентов и продуктов - экономия на API при масштабировании

Как PostgreSQL обрабатывает CHECK ограничения при массовой вставке с COPY?
Anonymous voting

Последний шанс подать доклад на PGConf.Russia 2026 Прием заявок закрывается уже сегодня! Если хотите выступить на PGConf.Russia 2026 — присылайте тему и тезисы: программный комитет рассмотрит заявку, свяжется с вами и поможет подготовиться. 🐘 PGConf.Russia 2026 — крупнейшая российская конференция по PostgreSQL и решениям на ее основе, главная встреча сообщества в России. 📍 23-24 марта, онлайн и офлайн в Москве: обсудим новые фичи СУБД, обменяемся практикой, идеями и опытом эксплуатации. Будут доклады ведущих российских специалистов, практические мастер-классы и демо-стенды разработчиков Postgres Pro. Будет более 40 докладов на разные темы: ✔️ Новости PostgreSQL ✔️ Оптимизация запросов, мониторинг, отказоустойчивость и безопасность ✔️ Облегченная миграция с Oracle, Microsoft SQL Server и других систем ✔️ Искусственный интеллект в СУБД ✔️ Масштабируемость, шардирование и секционирование ✔️ Совместимость PostgreSQL с другим ПО ✔️ И другие темы Подайте доклад до 16 февраля: поделитесь опытом и сделайте вклад в сообщество. Если не планируете выступать, а хотите прийти послушать — регистрируйтесь до 28 февраля со скидкой 15%. Реклама ООО «ППГ» Инн: 7707083893 Erid: 2Vtzqw9iCtU

⚡️ Могут ли LLM переводить код Polars в SQL? Да - и это начинает менять то, как мы работаем с данными. Идея простая, но мощна
⚡️ Могут ли LLM переводить код Polars в SQL? Да - и это начинает менять то, как мы работаем с данными. Идея простая, но мощная: большие языковые модели могут переводить натуральный язык и выражения из Polars DataFrame API в эквивалентный SQL. Это мост между Python-подходом к анализу данных и миром аналитических баз. Что это даёт на практике: Пишешь трансформации в стиле Polars - быстро, in-memory, удобно для Python-разработчика LLM превращает логику в SQL - можно запускать в DWH, BI-системах, дата-платформах Не нужно вручную переписывать логику из DataFrame-цепочек в SELECT, JOIN, GROUP BY Особенно полезно, когда: прототип делается локально в Polars, а прод работает на SQL-движке аналитики думают SQL, а инженеры - DataFrame API нужно быстро объяснить, что делает код, в виде SQL-запроса Комбинация Polars (скорость и удобство in-memory) + LLM (понимание семантики кода) позволяет использовать знакомые SQL-паттерны, даже если ты изначально не писал сырой SQL. Это не просто перевод синтаксиса. Модель восстанавливает семантику трансформаций - фильтры, агрегации, группировки, оконные операции - и выражает их в терминах SQL. По сути LLM становится слоем совместимости между DataFrame-мышлением и SQL-мышлением. И это серьёзный сдвиг для аналитических пайплайнов. https://labs.quansight.org/blog/llm_polars_to_sql

Repost from Machinelearning
🌟 Zvec: встраиваемая векторная база данных для RAG без внешних сервисов. Alibaba открыла исходный код Zvec - встраиваемой ве
+2
🌟 Zvec: встраиваемая векторная база данных для RAG без внешних сервисов. Alibaba открыла исходный код Zvec - встраиваемой векторной СУБД, которую авторы называют «SQLite для векторных баз данных». Проект заточен на локальные RAG-пайплайны, семантический поиск и агентские сценарии на ноутбуках, мобильных устройствах или другом edge-железе. Идея в том, что разворачивать отдельный сервер ради векторного поиска и фильтрации по метаданным избыточно. Zvec встраивается в процесс Python-приложения и не требует ни отдельного демона, ни сетевых вызовов.
Существующие решения не подходят для маломощных устройств: Faiss дает только ANN-индекс без скалярного хранилища и крэш-рекавери; DuckDB-VSS ограничен в опциях индексирования; Milvus и облачные векторные хранилища требуют сеть.
Под капотом - Proxima, векторный движок продакшен-уровня, который Alibaba сама использует в собственных сервисах. Поверх него сделали лаконичный Python API: 🟢полный CRUD и поддержка схем; 🟢поиск по нескольким векторам для комбинации разных эмбеддинг-моделей; 🟢встроенный реранкер с weighted и RRF; 🟢гибридный поиск (векторный + фильтры по скалярным полям) с инвертированными индексами. Это позволяет собирать локальных ассистентов, которые одновременно используют семантический поиск, множественную фильтрацию и несколько эмбеддинг-моделей - все в одном движке. По производительности Zvec заявляет победу на бенче VectorDBBench с датасетом Cohere 10M - более 8 000 QPS при сопоставимом реколле. Это вдвое больше, чем у лидера ZillizCloud и с более быстрым построением индекса. Авторы объясняют успех глубокой оптимизацией под CPU: SIMD, кэш-эффективные структуры, многопоточность и prefetching. Пока платформенная поддержка ограничена (Windows отсутствует), но для Linux x86/ARM64 и macOS Zvec уже готов к экспериментам на Python 3.10–3.12. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Документация 🖥GitHub @ai_machinelearning_big_data #AI #ML #VDB #ZVEC #Alibaba