Data Portal | DS & ML

前往频道在 Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

显示更多

网络:IT Portal 俄罗斯75 882 技术与应用13 843

8 400

订阅者

-324 小时

-207 天

-930 天

949

帖子浏览量

~ 58124 小时

~ 69048 小时

11.30%

参与率

~ 2

每日帖子数

Ads index

beta

帖子存档

8 402

Фреймворк для подключения любого LLM к любому MCP-серверу (опенсорс). mcp-use позволяет подключать любую LLM к любому MCP-серверу и создавать кастомные MCP-агенты — без необходимости использовать проприетарные решения вроде Cursor или Claude Совместим с Ollama, LangChain и другими. GitHub репозиторий → https://github.com/mcp-use/mcp-use 👉 @DataSciencegx

8 402

Если вы действительно хотите понять, как работают LLM-модели, попробуйте реализовать свою собственную с нуля. И именно этим вы займётесь в этом курсе: соберёте LLM, похожую на Llama 4, с нуля. Вы создадите токенизатор, разберётесь с механизмом внимания, углубитесь в Rotary Positional Embeddings и многое другое https://www.freecodecamp.org/news/code-your-own-llama-4-llm-from-scratch/ 👉 @DataSciencegx

8 402

E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥 🗓 Регистрация: https://cnrlink.com/ecup25dataportal 💻 Формат участия: онлайн 👥 Команда: от 1 до 5 человек 🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS. Что вас ждёт: 🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России. 🔹 Обмен опытом с экспертами Ozon Tech. 🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку. Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде. 1️⃣ Рекомендации: предсказание следующей покупки пользователя 2️⃣ Логистика: автопланирование курьеров 3️⃣ Контроль качества: автоматическое выявление поддельных товаров Регистрация на платформе Codenrock: https://cnrlink.com/ecup25dataportal

8 402

Этот репозиторий на GitHub — настоящая находка для каждого дата-сайентиста Интерактивный Python-репозиторий по DS содержит дашборды для изучения статистики, ML-моделей и других ключевых концепций Data Science. В темах: PCA, bagging и boosting, кластеризация, нейросети и многое другое. Полностью опенсорс и бесплатный: https://github.com/GeostatsGuy/DataScienceInteractivePython 👉 @DataSciencegx

8 402

Вы когда-нибудь задумывались о том, что с помощью ИИ можно значительно ускорить время, затрачиваемое на поиск информации и повысить точность бизнес-решений? На вебинаре “Будущее бизнеса с RAG и LLM: автоматизация, выгоды и новые возможности искусственного интеллекта” мы покажем конкретные кейсы, а также сравним облачные и локальные решения. В том числе: 1. Разберём примеры автоматизации поддержки, аналитики и работы с коопоративными знаниями. 2. Обсудим выгоды, которые получают компании, и шаги по подготовке компании к внедрению ИИ. Вебинар будет полезен тем, кто ищет практическое применение ИИ в компании уже сегодня. 📅 17 июля в 14:00 по Москве ➡️ Зарегистрироваться Слушатели вебинара получат запись и презентацию выступающего, которые можно использовать в работе! Реклама. ООО "ДССЛ-ПЕРВЫЙ". ИНН 7701081730. erid: 2W5zFJBYMqz

8 402

Комбинация из трёх курсов, охватывающих важную математику для ML и DL. Основное внимание уделяется теоретическим концепциям, сопровождаемым качественными разобранными задачами. https://www.youtube.com/watch?v=0z6AhrOSrRs 👉 @DataSciencegx

8 402

Microsoft недавно выпустили бесплатный курс по созданию AI-агентов. В нем 11 уроков с теорией, примерами кода на Python, заданиями и ссылками на доп. материалы https://github.com/microsoft/ai-agents-for-beginners/tree/main 👉 @DataSciencegx

8 402

💲Каналы с Junior IT вакансиями и стажировками Подписывайся и забирай свой оффер⚡ 1. IT вакансии по СНГ 2. IT стажировки по СНГ 3. IT стажировки в топовых компаниях мира 4. Удалённые IT вакансии и стажировки 5. Python вакансии и стажировки 6. БИГТЕХ вакансии и стажировки 7. Design вакансии и стажировки 8. QA вакансии и стажировки 9. Junior вакансии и стажировки 10. Frontend вакансии и вопросы собесов 11. Вакансии и стажировки для аналитиков 12. Вакансии в русских стартапах за границей 13. Вакансии и стажировки для DevOps 14. Вакансии, которых нет на ХХ.РУ

8 402

Самый быстрый движок для сервинга LLM LMCache — это движок для сервинга LLM, разработанный для минимизации time-to-first-token и повышения throughput, особенно в сценариях с длинным контекстом. Он ускоряет vLLM, обеспечивая в 7 раз более быстрый доступ к кэшу ключей/значений (KV cache) и поддерживая объём в 100 раз больше. Полностью опенсорс: https://github.com/LMCache/LMCache 👉 @DataSciencegx

8 402

Это делает ваше RAG-приложение в 10 раз лучше Большинство людей, которых я знаю, просто разбивают документы на чанки и строят эмбеддинги для этих фрагментов. Но создавать действительно хорошие чанки — сложно. Идеального способа нет, но есть простой приём, который значительно улучшает качество чанков. Добавьте к каждому чанку дополнительную метаинформацию. Например, вы работаете с научными статьями. Каждый чанк — это всего лишь абзац, но сам по себе он часто оказывается слишком размытым. Вместо того чтобы использовать только абзац, я добавляю к каждому чанку следующую информацию: 🔸Название статьи 🔸Номер страницы 🔸Заголовок секции, к которой относится абзац 🔸Ключевые слова или теги, содержащиеся в абзаце 🔸Одно предложение, кратко резюмирующее содержание абзаца Этот дополнительный контекст делает эмбеддинг гораздо богаче и значительно повышает его полезность при извлечении. Эту метаинформацию можно либо извлекать автоматически, либо генерировать с помощью LLM. Это дополнительный шаг. Если вы только начинаете внедрять RAG, можно пока его пропустить. Но как только у вас заработает базовая версия — обязательно реализуйте это улучшение. Вы больше не захотите работать по-другому. 👉 @DataSciencegx

8 402

Крутейший иллюстрированный гайд по MCP 74 страницы, охватывающие основы, решаемые задачи, архитектуру, инструменты, промпты и 11 практических проектов Бесплатно. Забираем отсюда 👉 @DataSciencegx

8 402

💡 77% ИТ-руководителей уже знают, что такое Data Lakehouse. А вы? 🚀 TAdviser и DIS Group выпустили первое трендвотчинг-исследование рынка Data Lakehouse в России. 💧Data Lakehouse (озеро-хранилище данных) - это современная архитектура данных, объединяющая преимущества Data Lake (гибкость хранения любых типов данных) и Data Warehouse (высокая производительность и управляемость) Вот ключевые цифры: ✅ 77% ИТ-руководителей знакомы с концепцией Data Lakehouse ✅ 41% компаний уже мигрировали с классического Data Warehouse на Lakehouse ✅ 85% используют Data Lakehouse как основу для проектов ИИ 🔍 В исследовании: – Как меняется подход к данным в России – Зачем компаниям Lakehouse, а не просто DWH – Как Data Lakehouse становится базой для AI-проектов – Что говорят CIO крупнейших организаций 📈 Почему это важно?Data Lakehouse — это не просто тренд, а ответ на вызовы хранения, скорости доступа и масштабирования данных в бизнесе. 👉🏻 Скачать полное исследование по ссылке #реклама О рекламодателе

8 402

Нашёл бесплатную книгу на Arxiv — "Pen and Paper Exercises in Machine Learning" Книга на 200+ страниц с более чем 75 заданиями — отличный способ освежить знания по Python и теоретическим аспектам машинного обучения. https://arxiv.org/pdf/2206.13446 👉 @DataSciencegx

8 402

10 репозиториев на GitHub, которые помогут вам начать карьеру AI-инженера (полностью бесплатно): Ссылки: 🔸ML для начинающих: http://github.com/microsoft/ML-For-Beginners 🔸AI для начинающих: http://github.com/microsoft/AI-For-Beginners 🔸Нейросети с нуля до профи: http://github.com/karpathy/nn-zero-to-hero 🔸Имплементации статей: http://github.com/labmlai 🔸Сделано с использованием ML: http://github.com/GokuMohandas/Made-With-ML 🔸Практика с LLM: http://github.com/HandsOnLLM 🔸Продвинутые техники RAG: http://github.com/NirDiamant 🔸Агенты для начинающих: http://github.com/microsoft/ai-agents-for-beginners 🔸Агенты на пути к продакшену: http://github.com/NirDiamant 🔸Хаб AI-инженера: http://github.com/patchy631/ai-engineering-hub 👉 @DataSciencegx

8 402

Стань архитектором метасценариев в Сбере 🦾 Мы создаем среду, где ИИ не просто помогает, а становится соавтором решений. Если тебе близка методологическая точность, ты понимаешь специфику ИИ-продуктов и хочешь влиять на будущее — присоединяйся. Ты будешь: ✔️ Проектировать ИИ-сценарии и ИИ-агентов ✔️ Создавать масштабируемые фреймворки для разработки ✔️ Формировать стандарты интеграции интеллектуальных решений Мы предлагаем: гибридный формат, современное железо, ДМС, обучение и всё, для твоего комфорта и профессионального роста. Смотреть вакансию и откликнуться!

8 402

Этот репозиторий с туториалами по AI-агентам недавно преодолел отметку в 45 тысяч звёзд на GitHub. Он полностью опенсорсный и содержит более 75 пошаговых гайдов по AI-агентам и RAG. 10 классных AI-агентов, а также туториалы по MCP и RAG: https://github.com/Shubhamsaboo/awesome-llm-apps 👉 @DataSciencegx

8 402

У Microsoft вышел бесплатный курс по MCP для начинающих с 10 практическими лабораторными работами Изучайте основы MCP на практике с примерами на .NET, Java, TypeScript, JavaScript и Python в среде VS Code. Все структурно и доступно на 40+ языках мира (есть русский, но машинный перевод) https://github.com/microsoft/mcp-for-beginners/ 👉 @DataSciencegx

8 402

Когда один из крупнейших игроков на рынке — Yandex Cloud — говорит, что Cloudberry это "про будущее Greenplum", хочется послушать, что за этим стоит. В свежем интервью Леонид Савченков (Yandex Cloud) рассказал, как они отвечают на закрытие открытых версий популярных СУБД. Вместо паники — поддержка Greenplum 6 и параллельная разработка решения на базе Apache Cloudberry, который снова обгоняет Greenplum 7 по функционалу. Обсудили и то, как Яндекс участвует в развитии опенсорса: кворумная репликация в Postgres, активные коммиты в Cloudberry, открытые репозитории с кодом — всё по-настоящему, а не ради галочки. Плюс — апдейт по YTsaurus и BI-инструменту DataLens: новая публичная галерея дашбордов, возможность гибкой кастомизации и сертификация аналитиков. Полный разговор — тут

8 402

AI-агенты наконец-то могут взаимодействовать с вашим фронтендом Протокол AG-UI устраняет критически важный разрыв между AI-агентами и фронтенд-приложениями, обеспечивая бесшовное взаимодействие между человеком и агентом. MCP: от агентов к инструментам A2A: от агентов к агентам AG-UI: от агентов к пользователям Полностью с открытым исходным кодом. Вот официальный репозиторий AG-UI от CopilotKit на GitHub Прикрепляю отличную иллюстрацию того, как это работает 👉 @DataSciencegx

8 402

End-to-end проект по машинному обучению Нашёл годный пошаговый гайд по ML-проекту. Он начинается с базового EDA и обучает интеграции с MLOps с использованием таких инструментов, как ZenML и MLflow для отслеживания экспериментов и деплоймента. https://www.youtube.com/watch?si=CoFmlaniXlD17UHz&v=o6vbe5G7xNo&feature=youtu.be 👉 @DataSciencegx