Data Portal | DS & ML

Kanalga Telegram’da o‘tish

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

Ko'proq ko'rsatish

Tarmoq:IT Portal Rossiya75 941 Texnologiyalar & Aralashmalar13 882

8 404

Obunachilar

-724 soatlar

-77 kunlar

-430 kunlar

951

Post ko'rishlar

~ 57524 soatlar

~ 69048 soatlar

11.31%

Muloqot nisbati

~ 2

Kuniga postlar

Ads index

beta

Postlar arxiv

8 402

📘 На Stepik вышел курс — «LLMOps & Evaluation (PRO)» Уже работаете с RAG/агентами и хотите навести порядок с качеством и наблюдаемостью? Курс про то, как измерять, улучшать и сопровождать LLM-фичи в реальных условиях. Что внутри: • оффлайн и онлайн-оценки (golden set, LLM-as-judge) • quality-гейты в CI/CD • наблюдаемость: p95 latency, cost/req, дрейф, алерты • практика для RAG: гибридный поиск + cross-encoder rerank 🎓 Сертификат Stepik по завершении — можно добавить в резюме или профиль LinkedIn 🚀 Начните сегодня. Действует стартовая скидка 25% в течение 48 часов 👉 Пройти курс на Stepik

8 402

Получайте RAG-ready данные из любого неструктурированного файла Tensorlake преобразует неструктурированные документы в RAG-ready данные в несколько строк кода. Возвращает layout документа, структурированное извлечение, bounding boxes и т. д. Работает с любым сложным layout, рукописными документами и многоязычными данными https://github.com/tensorlakeai/tensorlake 👉 @DataSciencegx

8 402

Вышло годное видео «Adventures in State Space» на YouTube-канале 2swap. Очень качественный ролик в открытом доступе, рекомендую к просмотру Кстати, другие видео там не менее достойные 🤓 👉 @DataSciencegx

8 402

Создавайте схемы архитектур нейросетей на основе параметров Знакомьтесь: NN-SVG — бесплатный опенсорс инструмент, который делает создание диаграмм архитектур нейросетей быстрым и удобным. Что он предлагает: - Генерация диаграмм архитектур нейросетей по параметрам - Экспорт в SVG для простой интеграции в статьи и презентации - Настройка внешнего вида: цвета, размеры и схемы расположения Поддерживаются три типа диаграмм: 🔹 Полносвязные сети (FCNN) 🔹 Сверточные сети (по примеру LeNet) 🔹 Глубокие нейросети (по примеру AlexNet) Ссылка на репо: https://github.com/alexlenail/NN-SVG 👉 @DataSciencegx

8 402

📘 На Stepik стартовал курс — «Cursor AI» Cursor — это современный AI-редактор кода, созданный для ускорения и упрощения разработки. Он берёт на себя рутинные задачи: автогенерацию кода, документации и тестов, помогает находить баги, оптимизировать алгоритмы и даже проводить Code Review. 🔍 На курсе вы: • Освоите интерфейс и горячие клавиши Cursor, научитесь работать с AI-панелью • Разберётесь, как писать промпты для рефакторинга, документации и автогенерации тестов • Получите готовые шаблоны запросов и чек-листы для командной работы • Научитесь делать Code Review и работать с Git прямо через AI 🎓 Итог — вы научитесь использовать Cursor как полноценного помощника: писать код быстрее, находить ошибки раньше и документировать проект без лишней рутины. 🚀 Ускорьте разработку с Cursor AI. Освойте инструмент, который уже меняет подход к программированию. По промокоду CURSOR20 получите скидку 20% в течение 72 часов 👉 Пройти курс на Stepik

8 402

Все недооценивают эту новую OCR-модель dots-ocr — это новая vision-language модель с 1.7B параметров, которая показывает SOTA-результаты в мультиязычном парсинге документов - Поддержка 100+ языков - Работает как с изображениями, так и с PDF - Без проблем обрабатывает текст, таблицы и формулы Полностью опенсорс: https://github.com/rednote-hilab/dots.ocr 👉 @DataSciencegx

8 402

Рецептивное поле в CNN, или как нейросети «видят» В сверточных нейронных сетях (Convolutional Neural Networks, CNN) рецептивное поле — это область входного изображения, с которой работает конкретный нейрон. Оно соответствует максимальной области, которую сеть способна обработать. Иными словами, рецептивное поле определяет ту часть изображения, которую нейрон «видит» при выполнении вычислений. По мере того как в CNN наслаиваются новые уровни, рецептивное поле увеличивается, и более глубокие слои могут захватывать более сложные паттерны на больших фрагментах изображения. 👉 @DataSciencegx

8 402

8 402

Repost from IT Portal

Нашёл крутейшую платформу для подготовки к DS-собесам Внутри: 1000+ реальных интервью-вопросов от Facebook, Google, Amazon, Microsoft и других топовых компаний. Практика по SQL, Python, R, статистике, алгоритмам, product sense и даже system design Есть встроенный IDE с датасетами, где можно сразу писать и валидировать код. База регулярно обновляется Бесплатно доступно 75 кодинг-задач, 600 вопросов и 50 тестовых заданий. Забираем здесь 🍯 @IT_Portal

8 402

Создай свою собственную модель ИИ Этот репозиторий содержит код для разработки, предобучения и fine-tuning’а LLM наподобие GPT с нуля: https://github.com/rasbt/LLMs-from-scratch Недавно там появился новый раздел: Gemma 3 с нуля Является официальным репозиторием к книге Build a Large Language Model (From Scratch). 👉 @DataSciencegx

8 402

📘 На Stepik вышел курс — «LangChain: с нуля до продакшн LLM-приложений» Нужен не игрушечный бот, а воспроизводимый RAG-пайплайн с метриками и сервисом? Этот курс — про путь «ноутбук → FastAPI → прод». 🔍 Что вы получите • RAG по PDF с цитированием источников и гибридным поиском (BM25 + вектор + rerank); контроль галлюцинаций через метрики (precision/recall@K, citation-rate) • Инструменты и агенты для анализа данных: Pandas-задачи, структурированный JSON-вывод под отчёты/дашборды • Продакшн-контур: FastAPI-сервис, логирование латентности/токенов, PromptOps (версии/A/B), базовый SLA-мониторинг 🎓 Сертификат по завершении — можно добавить в резюме или LinkedIn 🚀 Начните сегодня и получите скидку 25% в течение 72 часов 👉 Пройти курс на Stepik

8 402

Это один из самых впечатляющих технических блогпостов, которые я читал в последнее время: построение веб-поисковика с нуля за два месяца с 3 миллиардами нейронных эмбеддингов 👉 @DataSciencegx

8 402

Иллюстрированное руководство об AI-агентах в одном PDF В нём: 🔸Основы работы агентов 🔸LLM vs RAG vs агенты 🔸Паттерны проектирования агентов 🔸Базовые компоненты агентов 🔸Создание кастомных инструментов через MCP 🔸12 практических проектов для AI-инженеров https://drive.google.com/file/d/1Th8mN_IF7Ttc8bI_OLtUuQ7Mjx3aJ6Hi/view 👉 @DataSciencegx

8 402

Google выложили в опенсорс Python-библиотеку LangExtract! Она использует LLM для извлечения сущностей, атрибутов и связей, с точной привязкой к источнику, из неструктурированных документов. Поддержка любых LLM (Gemini, OpenAI, Ollama). https://github.com/google/langextract 👉 @DataSciencegx

8 402

Фреймворк для создания мультиагентных AI-систем в Telegram, готовый к запуску с минимальными настройками evi-run подходит для создания AI-ассистентов, виртуальных персонажей, автоматизированной службы поддержки, аналитиков данных, торговых агентов на DEX и других кастомных мультиагентных систем Архитектура построена на Python, OpenAI Agents SDK, Telegram Bot API, PostgreSQL и Redis. Deploy через Docker за 5 минут GitHub репозиторий → https://github.com/pipedude/evi-run 👉 @DataSciencegx

8 402

Каждый повторный вызов LLM — это просто сжигание денег Обычный кэш тут не поможет, если только промпт не совпадает дословно. Redis 8 меняет правила игры с семантическим кэшированием, которое понимает смысл, а не только ключ. LangCache + Vector Sets + Redis Flex = быстрее, дешевле, умнее Полный разбор: https://newsletter.systemdesignclassroom.com/p/every-repeated-llm-call-is-money-on-fire 👉 @DataSciencegx

8 402

Изучайте Data Science через реальные задачи — погружаемся в мир ИИ, машинного обучения и Python на практическом бесплатном мини-курсе! Этот мини-курс поможет прокачать понимание Data Science, если вы уже немного в теме: — Узнаете, как автоматизировать задачи с помощью нейросетей и использовать их в реальных задачах — Попробуете себя в роли ML-инженера, аналитика и дата-инженера — Научитесь визуализировать данные и писать простой код на Python — На практике создадите чат-бота и нейросеть Регистрируйтесь: https://epic.st/Fi8-CK?erid=2VtzqwfaPww 🔥 Бонус: откроем доступ к записям конференции по нейросетям после первого урока. Узнаете, как использовать ИИ в работе и жизни. 🎁 А ещё будут подарки: сертификат на скидку 10 000 рублей на любой курс, гайд «Как пользоваться ChatGPT и Midjourney» и подборка полезных материалов.

8 402

Бесплатные Google Colab-ноутбуки для реализации каждого алгоритма машинного обучения с нуля https://udlbook.github.io/udlbook/ 👉 @DataSciencegx

8 402

Отслеживайте и оценивайте любое LLM-приложение всего одним декоратором DeepEval позволяет трейсить и оценивать LLM-приложения на уровне отдельных компонентов. Это помогает выявлять узкие места и эффективнее оптимизировать сложные пайплайны. Полностью опенсорс: https://github.com/confident-ai/deepeval 👉 @DataSciencegx

8 402

Если вы работаете в айти и не хотите вылететь с рынка через 3-4 года, развивайте софт-скиллы. Тимлиду не нужно уметь писать код – с этим лучше справляется его команда и даже нейронки, а вот грамотно менеджерить команду и выстраивать процессы – реально важный навык. Прокачивайте не только хард-скиллы, но и «гибкие» навыки — это то, что останется востребованным даже в эпоху ИИ. А если с головой нырять в обучение лень, читайте канал Тимлид на удалёнке. Там вся внутрянка от первого лица: как справляться с выгоранием, не терять фокус в условиях многозадачности и развить управленческие качества. С юмором, честно и без занудства. Почитайте на досуге, много нового узнаете: @teamleadonline