Всё про Алгоритмы и Структуры данных
Open in Telegram
Мы не претендуем на оригинальность контента, мы лишь собираем материал из открытых источников. Ссылка: @Portal_v_IT Сотрудничество, авторские права: @oleginc, @tatiana_inc Канал на бирже: https://telega.in/c/structuredata
Show more7 760
Subscribers
-324 hours
-77 days
-3630 days
Posts Archive
Объясняем векторные базы данных на трех уровнях сложности
Из этого материала вы узнаете о том, как работают векторные базы данных, разобравшись с широким диапазоном тем — от основ поиска по сходству, до стратегий индексирования, которые позволяют применять на практике крупномасштабный поиск данных.
https://habr.com/ru/companies/wunderfund/articles/1022820/
Алгоритмы и Структуры данных
Как мы перестали молиться на AI и собрали параноидальный конвейер для МРТ (с открытым кодом)
На каждой второй конференции по медицинскому AI звучит один и тот же сценарий: «Дообучим мультимодальную модель, скормим ей DICOM, и она сама выдаст диагноз». На практике, когда этот скрипт пытается попасть в реальную клинику, начинаются неожиданности. OOM на GPU, врачи не понимают, где галлюцинация модели, а где финальный отчёт, двухгигабайтные NIfTI-исследования рвут таймауты балансировщика.
Я какое-то время тоже думала, что главное — это модель. А потом пересмотрела собственный код. У меня уже есть MRI Second Opinion. Но это не нейросеть. Это контур с доменной моделью, конвейером приёма данных, циклом обработки, обязательным врачебным рецензированием, финализацией и отдельным репозиторием с открытым кодом. В медицинском IT модель — не главная проблема. Главная проблема — чтобы между входом и выходом ничего не потерялось и не сломалось.
https://habr.com/ru/articles/1022436/
Алгоритмы и Структуры данных
AGC или как перестать подстраивать громкость вручную
Я не являюсь профессиональным DSP разработчиком, моя стезя — системное программирование и разработках встраиваемых систем, в частности, специальных систем связи для работы с VoIP. Данная статья рассчитана на тех, кому интересны алгоритмы обработки звука и кто начинает свой путь в их изучении. Здесь я хочу описать свой путь в исследовании и реализации одного из алгоритмов. На Хабре уже выходили статьи на данную тему. Первая касалась аппаратной реализации, а вторая вышла довольно давно, но теория в ней не потеряла актуальности.
https://habr.com/ru/articles/1022424/
Алгоритмы и Структуры данных
Парадокс ансамблей: почему «слабые» модели иногда побеждают «сильные»
Недавно я провёл эксперимент, который противоречит интуиции большинства практиков: пул из индивидуально более слабых моделей стабильно превосходит пул из более качественных моделей при объединении в ансамбль.
https://habr.com/ru/articles/1022318/
Алгоритмы и Структуры данных
Как попасть в ответы нейросетей: ChatGPT, Google AI, Яндекс.Алиса, Perplexity, Claude, Gemini, DeepSeek
Как далеко вперёд собирается рынок?
Цифры и впечатляют, и оставляют за собой кучу вопросов одновременно:
Глобальный рынок генеративного ИИ растёт кратно: оценки доходят до $1,3–1,5 трлн к 2032–2035 году
Только рынок LLM прогнозируется на уровне $149+ млрд к 2035 году
В России — рынок ИИ уже измеряется сотнями миллиардов рублей и растёт двузначными темпами ежегодно
И главное — каждый третий пользователь уже использует ИИ для принятия решений (покупки, выбор подрядчиков, анализ)
58% потребителей уже заменяют традиционные поисковики генеративным ИИ при поиске рекомендаций товаров и услуг, а 71% хотят видеть такие инструменты встроенными в покупательский опыт.
https://habr.com/ru/articles/1021980/
Алгоритмы и Структуры данных
Поиск по коду: почему просто проиндексировать все коммиты — плохая идея
Привет, Хабр! Меня зовут Владимир Бобров, я разработчик в Yandex Infrastructure. Занимаюсь навигацией и поиском по коду на нашей платформе для полного цикла разработки IT-продуктов — SourceCraft.
Все мы сталкивались с классическими алгоритмами на курсах, олимпиадах или собеседованиях и, куда более редко, на практике. Но даже в реальной разработке возникают ситуации, когда готового решения нет, а простое не подходит.
Сегодня расскажу как раз о такой задаче, над которой работала наша команда, — поиск по коду относительно произвольного коммита. Покажу, как много вариантов мы перебрали, что в итоге выбрали и почему.
https://habr.com/ru/companies/sourcecraft/articles/1021852/
Алгоритмы и Структуры данных
Лови список полезных IT каналов в Max 🇷🇺
Архиватор – крупная база слитых айти курсов по программированию
Сливакер – отобранный архив полезных курсов для программистов
Полка Разработчика – сборник книг для изучения Python, JS, Java и других языков программирования;
Записки Фронтендера -- опытный Frontend-разработчик собрал все самое основное
Записки Бэкендера -- а тут опытный Backend-разработчик подбирает самое полезное
Записки Питониста -- здесь думаю итак понятно, питонисты заходите
Code Learning – ютуб в мире программистов, сборник видео для обучения
Графика и Дизайн – сборник полезных курсов и видео для полного погружения в дизайн
Нейролента – публикуем самое актуальное из мира нейросетей
Windows Community -- все что связанно с Windows
DevHumor – все что выше, без юмора не понять
Находки Программиста – подбираем все самое нужно для программистов
Как Pizza Tycoon симулировала дорожное движение на процессоре с частотой 25 МГц
Я работал над Pizza Legacy — опенсорсным воссозданием игры 1994 года Pizza Tycoon для DOS. В игре есть вид на улицы города, при скроллинге которого игрок наблюдает постоянный поток машин. Это примерно 20-30 маленьких спрайтов, однако они едут по дорожной сети, создают очереди на перекрёстках и в целом выглядят как оживлённый город. Да, симуляция иногда глючит, машины проезжают друг через друга, но этого достаточно, чтобы придать карте ощущение жизни. И всё это на процессоре 386 с частотой 25 МГц.
https://habr.com/ru/articles/1021804/
Алгоритмы и Структуры данных
Простая нейронная сеть на чистом C++
Ни Python, ни PyTorch, ни NumPy, … всего 260 строк кода на чистом C++ достаточно, чтобы обучить, оценить и протестировать простой двоичный классификатор, различающий рукописные цифры 0 и 1.
https://habr.com/ru/companies/piter/articles/1021738/
Алгоритмы и Структуры данных
Как я выбираю моменты для Shorts: почему LLM + транскрипт почти всегда дают мусор
Это третья статья про мой "аниме завод" — систему, которая автоматически превращает длинные эпизоды в Shorts.
Если хотите полный контекст, вот предыдущие части:
https://habr.com/ru/articles/1021552/
Алгоритмы и Структуры данных
Обзор последних исследований Semrush про AI-поиск: как на самом деле формируются ИИ-ответы
Рынок потихоньку обретает опору вновь.
Semrush выкатывает одни из первых внятных исследований про механику AI-ответов: какая логика отбора, какие используются источники и критерии контента.
https://habr.com/ru/articles/1025504/
Алгоритмы и Структуры данных
Укрощаем рыночный хаос: Пишем Liquid Neural Network (LNN) на PyTorch для алготрейдинга
Если вы когда-нибудь пытались натравить классическую LSTM на минутные свечи волатильных активов, вы знаете эту боль. Сначала Loss красиво падает на трейне, вы предвкушаете покупку острова, а на тесте модель превращается в тыкву. Она либо предсказывает скользящую среднюю со сдвигом на один шаг, либо упирается в «стену» Loss = 0.693 (то есть −ln(0.5)), сводя всё к подбрасыванию монетки.
Проблема не в вас. Проблема в том, что рекуррентные сети (RNN, LSTM, GRU) живут в дискретном времени. Для них шаг между 10:00 и 10:01 абсолютно идентичен шагу между пятницей и утром понедельника. Они не умеют сжимать и растягивать восприятие времени, когда волатильность взрывается.
В этой статье мы отойдем от мейнстримных архитектур и напишем с нуля Liquid Neural Network (Жидкую Нейронную Сеть). Мы заставим время течь непрерывно, используя численные методы дифференциальных уравнений прямо внутри PyTorch-графа, и посмотрим, как она вытаскивает скрытый макро-тренд из абсолютного рыночного хаоса.
https://habr.com/ru/articles/1020630/
Алгоритмы и Структуры данных
Краткий справочник про внимания (self-attention, cross-attention, multi-head attention)
Механизм внимания (Attention) - это метод в искусственном интеллекте, который позволяет нейросети динамически определять, какие части входных данных наиболее важны для текущей задачи. Он работает через вычисление весов важности для разных элементов входа: более важные элементы получают больший вес, а менее важные - меньший. Затем модель формирует взвешенную сумму представлений, создавая новый контекстный вектор.
Self-attention, в свою очередь, помогает модели понимать, как разные элементы входных данных связаны между собой. Например, как разные части информации взаимодействуют и влияют друг на друга в общем контексте. Этот механизм обеспечивает логическую связность и целостное понимание всей структуры данных
https://habr.com/ru/articles/1020624/
Алгоритмы и Структуры данных
Как бы я рассказал про линейную регрессию (если б меня кто-то спросил)
Да не читайте вы этот абзац, — лучше проскролльте статью в течение двух минут до конца. Акцентируя внимание только на визуализациях вы сможете понять стоит ли вчитываться (поскольку все ключевые темы обозначены не только в тексте, но и в графиках и анимациях). От себя же добавлю, что данный пост может быть полезен как и начинающим дата саентистам и всем специалистам кто так или иначе работает с данными, так и коллегам с опытом, которым хочется освежить в памяти некоторые аспекты.
https://habr.com/ru/articles/1013998/
Алгоритмы и Структуры данных
Как мы пересобрали сборку мусора в Vinyl
В предыдущей статье о Vinyl я рассказывал об архитектуре LSM-движка Tarantool. Восемь лет, прошедшие с момента с написания статьи, показали, что Vinyl сразу получился идеальным и менять его не нужно :). Если серьёзно, сегодня я расскажу о тех изменениях, которые мы внесли в алгоритм в форке Tarantool от Picodata, и неизбежно коснусь более глубокой проблематики работы LSM-деревьев, а конкретнее – работы планировщика слияний (compaction scheduler).
https://habr.com/ru/companies/arenadata/articles/1018042/
Алгоритмы и Структуры данных
Зачем дата-сайенсу дисперсия
Дисперсия — один из важнейших статистических показателей: oна играет центральную роль в оценке изменчивости данных, понимании поведения ML-моделей и снижении ошибок. В этой статье мы разберeм, почему правильное использование дисперсии критично для Data Science и разработаем нашу собственную модель Random Forest.
https://proglib.io/p/zachem-data-sayentistu-dispersiya-2025-04-11
Алгоритмы и Структуры данных
Зная эти паттерны ты решишь 60% задач на собеседовании
У меня 1000+ баллов на Codewars, много решённых задач на LeetCode и просто бесконечное множество решенных задач из разных приложений и собеседований.
Но каждый раз я сталкиваюсь с одними проблемами: при решении задачи я часто путаюсь, выбираю не самый оптимальный путь, трачу время на странные подходы и в итоге прихожу к неоптимальному решению с лишними затратами времени, знакомо?
Проведя небольшую рефлексию, я понял в чем проблема: решая задачи, я вообще не задумывался о паттернах, хотя это главное из чего должно строиться решение задачи!
https://habr.com/ru/articles/1020222/
Алгоритмы и Структуры данных
Как собрать дашборд для анализа алготрейдинга без программирования: кейс на HTML + LLM
400 000 строк в файле Excel, а пропущенный день это дырка в истории и отчёты, которые тормозят даже на мощном ПК — именно с этим столкнулся алготрейдер Дмитрий Овчинников. Но он смог при помощи ИИ ассистента создать дашборд, который упрощает управлением его 100+ стратегиями в алготрейдинге. И это, по его словам, как пересесть с запорожца на вертолёт.
На Хабре вообще очень мало пишут про алготрейдеров, а уж про работающие алгоритмы так и вообще ничего. А есть такая важная для любого сторонника алгоритмов тема как управление и отображение результатов трейдинга и она определенно заслуживает внимания.
https://habr.com/ru/articles/1019640/
Алгоритмы и Структуры данных
Пост-квантовый гибридный алгоритм шифрования для высоко-нагруженных систем с реализацией на TypeScript
Данный алгоритм реализовывался как часть сетевого протокола, но из него было исключено много лишнего, чтобы дать возможность для внедрения в различные системы без привязки к архитектуре.
Далее в статье представлен алгоритм QuarkDash включая реализацию библиотеки на языке TypeScript в качестве основы для клиент-серверных веб приложений. Сама реализация библиотеки есть на GitHub и NPM, для тех, кто хочет пропустить детали и покопаться на практике.
Алгоритм QuarkDash (или если хотите, протокол) - сочетает пост‑квантовый обмен ключами на основе Ring‑LWE, быстрый потоковый шифр на выбор (ChaCha20 или Gimli), квантово‑устойчивую KDF и MAC на базе SHAKE256, а также встроенные механизмы защиты от replay‑атак и timing‑атак.
https://habr.com/ru/articles/1020092/
Алгоритмы и Структуры данных
Available now! Telegram Research 2025 — the year's key insights 
