Data Portal | DS & ML
رفتن به کانال در Telegram
Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx
نمایش بیشتر8 404
مشترکین
-724 ساعت
-77 روز
-430 روز
آرشیو پست ها
Microsoft недавно выпустили бесплатный курс по созданию AI-агентов.
В нем 11 уроков с теорией, примерами кода на Python, заданиями и ссылками на доп. материалы
https://github.com/microsoft/ai-agents-for-beginners/tree/main
👉 @DataSciencegx
💲Каналы с Junior IT вакансиями и стажировками
Подписывайся и забирай свой оффер⚡
1. IT вакансии по СНГ
2. IT стажировки по СНГ
3. IT стажировки в топовых компаниях мира
4. Удалённые IT вакансии и стажировки
5. Python вакансии и стажировки
6. БИГТЕХ вакансии и стажировки
7. Design вакансии и стажировки
8. QA вакансии и стажировки
9. Junior вакансии и стажировки
10. Frontend вакансии и вопросы собесов
11. Вакансии и стажировки для аналитиков
12. Вакансии в русских стартапах за границей
13. Вакансии и стажировки для DevOps
14. Вакансии, которых нет на ХХ.РУ
Самый быстрый движок для сервинга LLM
LMCache — это движок для сервинга LLM, разработанный для минимизации time-to-first-token и повышения throughput, особенно в сценариях с длинным контекстом.
Он ускоряет vLLM, обеспечивая в 7 раз более быстрый доступ к кэшу ключей/значений (KV cache) и поддерживая объём в 100 раз больше.
Полностью опенсорс: https://github.com/LMCache/LMCache
👉 @DataSciencegx
Это делает ваше RAG-приложение в 10 раз лучше
Большинство людей, которых я знаю, просто разбивают документы на чанки и строят эмбеддинги для этих фрагментов.
Но создавать действительно хорошие чанки — сложно. Идеального способа нет, но есть простой приём, который значительно улучшает качество чанков.
Добавьте к каждому чанку дополнительную метаинформацию.
Например, вы работаете с научными статьями. Каждый чанк — это всего лишь абзац, но сам по себе он часто оказывается слишком размытым.
Вместо того чтобы использовать только абзац, я добавляю к каждому чанку следующую информацию:
🔸Название статьи
🔸Номер страницы
🔸Заголовок секции, к которой относится абзац
🔸Ключевые слова или теги, содержащиеся в абзаце
🔸Одно предложение, кратко резюмирующее содержание абзаца
Этот дополнительный контекст делает эмбеддинг гораздо богаче и значительно повышает его полезность при извлечении.
Эту метаинформацию можно либо извлекать автоматически, либо генерировать с помощью LLM.
Это дополнительный шаг. Если вы только начинаете внедрять RAG, можно пока его пропустить. Но как только у вас заработает базовая версия — обязательно реализуйте это улучшение.
Вы больше не захотите работать по-другому.
👉 @DataSciencegx
Крутейший иллюстрированный гайд по MCP
74 страницы, охватывающие основы, решаемые задачи, архитектуру, инструменты, промпты и 11 практических проектов
Бесплатно. Забираем отсюда
👉 @DataSciencegx
💡 77% ИТ-руководителей уже знают, что такое Data Lakehouse. А вы?
🚀 TAdviser и DIS Group выпустили первое трендвотчинг-исследование рынка Data Lakehouse в России.
💧Data Lakehouse (озеро-хранилище данных) - это современная архитектура данных, объединяющая преимущества Data Lake (гибкость хранения любых типов данных) и Data Warehouse (высокая производительность и управляемость)
Вот ключевые цифры:
✅ 77% ИТ-руководителей знакомы с концепцией Data Lakehouse
✅ 41% компаний уже мигрировали с классического Data Warehouse на Lakehouse
✅ 85% используют Data Lakehouse как основу для проектов ИИ
🔍 В исследовании:
– Как меняется подход к данным в России
– Зачем компаниям Lakehouse, а не просто DWH
– Как Data Lakehouse становится базой для AI-проектов
– Что говорят CIO крупнейших организаций
📈 Почему это важно?Data Lakehouse — это не просто тренд, а ответ на вызовы хранения, скорости доступа и масштабирования данных в бизнесе.
👉🏻 Скачать полное исследование по ссылке
#реклама
О рекламодателе
Нашёл бесплатную книгу на Arxiv — "Pen and Paper Exercises in Machine Learning"
Книга на 200+ страниц с более чем 75 заданиями — отличный способ освежить знания по Python и теоретическим аспектам машинного обучения.
https://arxiv.org/pdf/2206.13446
👉 @DataSciencegx
10 репозиториев на GitHub, которые помогут вам начать карьеру AI-инженера (полностью бесплатно): Ссылки:
🔸ML для начинающих: http://github.com/microsoft/ML-For-Beginners
🔸AI для начинающих: http://github.com/microsoft/AI-For-Beginners
🔸Нейросети с нуля до профи: http://github.com/karpathy/nn-zero-to-hero
🔸Имплементации статей: http://github.com/labmlai
🔸Сделано с использованием ML: http://github.com/GokuMohandas/Made-With-ML
🔸Практика с LLM: http://github.com/HandsOnLLM
🔸Продвинутые техники RAG: http://github.com/NirDiamant
🔸Агенты для начинающих: http://github.com/microsoft/ai-agents-for-beginners
🔸Агенты на пути к продакшену: http://github.com/NirDiamant
🔸Хаб AI-инженера: http://github.com/patchy631/ai-engineering-hub
👉 @DataSciencegx
Стань архитектором метасценариев в Сбере 🦾
Мы создаем среду, где ИИ не просто помогает, а становится соавтором решений. Если тебе близка методологическая точность, ты понимаешь специфику ИИ-продуктов и хочешь влиять на будущее — присоединяйся.
Ты будешь:
✔️ Проектировать ИИ-сценарии и ИИ-агентов
✔️ Создавать масштабируемые фреймворки для разработки
✔️ Формировать стандарты интеграции интеллектуальных решений
Мы предлагаем: гибридный формат, современное железо, ДМС, обучение и всё, для твоего комфорта и профессионального роста.
Смотреть вакансию и откликнуться!
Этот репозиторий с туториалами по AI-агентам недавно преодолел отметку в 45 тысяч звёзд на GitHub.
Он полностью опенсорсный и содержит более 75 пошаговых гайдов по AI-агентам и RAG.
10 классных AI-агентов, а также туториалы по MCP и RAG:
https://github.com/Shubhamsaboo/awesome-llm-apps
👉 @DataSciencegx
У Microsoft вышел бесплатный курс по MCP для начинающих с 10 практическими лабораторными работами
Изучайте основы MCP на практике с примерами на .NET, Java, TypeScript, JavaScript и Python в среде VS Code. Все структурно и доступно на 40+ языках мира (есть русский, но машинный перевод)
https://github.com/microsoft/mcp-for-beginners/
👉 @DataSciencegx
Когда один из крупнейших игроков на рынке — Yandex Cloud — говорит, что Cloudberry это "про будущее Greenplum", хочется послушать, что за этим стоит.
В свежем интервью Леонид Савченков (Yandex Cloud) рассказал, как они отвечают на закрытие открытых версий популярных СУБД. Вместо паники — поддержка Greenplum 6 и параллельная разработка решения на базе Apache Cloudberry, который снова обгоняет Greenplum 7 по функционалу.
Обсудили и то, как Яндекс участвует в развитии опенсорса: кворумная репликация в Postgres, активные коммиты в Cloudberry, открытые репозитории с кодом — всё по-настоящему, а не ради галочки.
Плюс — апдейт по YTsaurus и BI-инструменту DataLens: новая публичная галерея дашбордов, возможность гибкой кастомизации и сертификация аналитиков.
Полный разговор — тут
AI-агенты наконец-то могут взаимодействовать с вашим фронтендом
Протокол AG-UI устраняет критически важный разрыв между AI-агентами и фронтенд-приложениями, обеспечивая бесшовное взаимодействие между человеком и агентом.
MCP: от агентов к инструментам
A2A: от агентов к агентам
AG-UI: от агентов к пользователям
Полностью с открытым исходным кодом. Вот официальный репозиторий AG-UI от CopilotKit на GitHub
Прикрепляю отличную иллюстрацию того, как это работает
👉 @DataSciencegx
End-to-end проект по машинному обучению
Нашёл годный пошаговый гайд по ML-проекту.
Он начинается с базового EDA и обучает интеграции с MLOps с использованием таких инструментов, как ZenML и MLflow для отслеживания экспериментов и деплоймента.
https://www.youtube.com/watch?si=CoFmlaniXlD17UHz&v=o6vbe5G7xNo&feature=youtu.be
👉 @DataSciencegx
🎓 Узнайте все про Анализ данных и машинное обучение 2025 года!
Приглашаем вас на день открытых дверей от ТГУ, где участники узнают больше о программах по анализу данных и машинному обучению, находящихся в реализации и новых, стартующих в 2025 году.
Узнайте подробнее и подайте заявку:
https://tglink.io/61a6b5220cba?erid=2W5zFGemWFr
Участники смогут задать интересующие вопросы экспертам и организаторам мероприятия и посетить мастер-класс «Навыки создания дашбордов в DataLens».
Что вам даст вебинар:
🔸 Узнаете о направлении
🔸 Расскажем про университет
🔸 Обзор процесса обучения и зачислении
🔸 Мастер-класс «Создание дашбордов в DataLens»
Формат: Онлайн
Когда: 26 июня в 15:00 по МСК
Количество мест ограничено!
Подписывайтесь на наш телеграм и следите за новостями @tsuproject
Движок RAG для глубокого понимания документов
RAGFlow позволяет создавать корпоративного уровня RAG-воркфлоу для работы со сложными документами с обоснованными цитированиями.
Поддерживает мультимодальное понимание данных, веб-поиск, глубокие исследования и т.д.
Полностью локальный и с открытым исходным кодом, более 55 тысяч звёзд на GitHub
https://github.com/infiniflow/ragflow
👉 @DataSciencegx
О, занятно. Знал ли ты, что есть библиотека на Python под названием Pix2TeX, которая умеет превращать изображения с формулами в LaTeX-код?
Ссылка на репозиторий GitHub: https://github.com/lukas-blecher/LaTeX-OCR
👉 @DataSciencegx
🌐 WAICORE — хостинг, за который не надо переживать
Устали от лагов, сложных панелей и переплат? Переходите на VPS с AMD Ryzen 9 — быстро, просто, без нервов.
💬 Почему клиенты выбирают нас:
— Цена начинается от 2€
— Скорость канала до 10 Гбит/с
— Поддержка 24/7 — отвечаем быстро и без шаблонов
☀Приятный бонус: Бесплатный VPN — расширение для браузера в подарок каждому нашему юзеру
VPN | Расширение для браузера
📍 Локации: Германия (Франкфурт), Москва, Нидерланды (уже скоро) — стабильный пинг, DDoS-защита.
🔥 Успейте сегодня
⤵ Выбрать сервер | 💬 Наш канал
MIT выложил в открытый доступ шикарный учебник по компьютерному зрению:
https://visionbook.mit.edu
Foundations of Computer Vision — концентрат базовых концепций CV через призму image processing и ML. Книга написана Торральбой, Исолой и Фрименом — ребята знают, о чём говорят.
Без воды: короткие главы, мощные визуализации, акцент на интуитивное понимание. Отлично зайдёт тем, кто входит в тему, но и опытным спецам будет чем поживиться.
👉 @DataSciencegx
Наткнулся на PDF с топ-50 вопросами для собеседований по LLM
Местами, конечно, поверхностно, но в целом — неплохой стартовый чеклист или разминка перед интервью
Ссылка: https://drive.google.com/file/d/1wolNOcHzi7-sKhj5Hdh9awC9Z9dWuWMC/view
👉 @DataSciencegx
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
