Data Portal | DS & ML
Kanalga Telegram’da o‘tish
Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx
Ko'proq ko'rsatish8 404
Obunachilar
-724 soatlar
-77 kunlar
-430 kunlar
Postlar arxiv
📘 На Stepik вышел курс — «LLMOps & Evaluation (PRO)»
Уже работаете с RAG/агентами и хотите навести порядок с качеством и наблюдаемостью? Курс про то, как измерять, улучшать и сопровождать LLM-фичи в реальных условиях.
Что внутри:
• оффлайн и онлайн-оценки (golden set, LLM-as-judge)
• quality-гейты в CI/CD
• наблюдаемость: p95 latency, cost/req, дрейф, алерты
• практика для RAG: гибридный поиск + cross-encoder rerank
🎓 Сертификат Stepik по завершении — можно добавить в резюме или профиль LinkedIn
🚀 Начните сегодня. Действует стартовая скидка 25% в течение 48 часов
👉 Пройти курс на Stepik
Получайте RAG-ready данные из любого неструктурированного файла
Tensorlake преобразует неструктурированные документы в RAG-ready данные в несколько строк кода. Возвращает layout документа, структурированное извлечение, bounding boxes и т. д.
Работает с любым сложным layout, рукописными документами и многоязычными данными
https://github.com/tensorlakeai/tensorlake
👉 @DataSciencegx
Вышло годное видео «Adventures in State Space» на YouTube-канале 2swap. Очень качественный ролик в открытом доступе, рекомендую к просмотру
Кстати, другие видео там не менее достойные 🤓
👉 @DataSciencegx
Создавайте схемы архитектур нейросетей на основе параметров
Знакомьтесь: NN-SVG — бесплатный опенсорс инструмент, который делает создание диаграмм архитектур нейросетей быстрым и удобным.
Что он предлагает:
- Генерация диаграмм архитектур нейросетей по параметрам
- Экспорт в SVG для простой интеграции в статьи и презентации
- Настройка внешнего вида: цвета, размеры и схемы расположения
Поддерживаются три типа диаграмм:
🔹 Полносвязные сети (FCNN)
🔹 Сверточные сети (по примеру LeNet)
🔹 Глубокие нейросети (по примеру AlexNet)
Ссылка на репо: https://github.com/alexlenail/NN-SVG
👉 @DataSciencegx
📘 На Stepik стартовал курс — «Cursor AI»
Cursor — это современный AI-редактор кода, созданный для ускорения и упрощения разработки. Он берёт на себя рутинные задачи: автогенерацию кода, документации и тестов, помогает находить баги, оптимизировать алгоритмы и даже проводить Code Review.
🔍 На курсе вы:
• Освоите интерфейс и горячие клавиши Cursor, научитесь работать с AI-панелью
• Разберётесь, как писать промпты для рефакторинга, документации и автогенерации тестов
• Получите готовые шаблоны запросов и чек-листы для командной работы
• Научитесь делать Code Review и работать с Git прямо через AI
🎓 Итог — вы научитесь использовать Cursor как полноценного помощника: писать код быстрее, находить ошибки раньше и документировать проект без лишней рутины.
🚀 Ускорьте разработку с Cursor AI. Освойте инструмент, который уже меняет подход к программированию. По промокоду CURSOR20 получите скидку 20% в течение 72 часов
👉 Пройти курс на Stepik
Все недооценивают эту новую OCR-модель
dots-ocr — это новая vision-language модель с 1.7B параметров, которая показывает SOTA-результаты в мультиязычном парсинге документов
- Поддержка 100+ языков
- Работает как с изображениями, так и с PDF
- Без проблем обрабатывает текст, таблицы и формулы
Полностью опенсорс:
https://github.com/rednote-hilab/dots.ocr
👉 @DataSciencegx
Рецептивное поле в CNN, или как нейросети «видят»
В сверточных нейронных сетях (Convolutional Neural Networks, CNN) рецептивное поле — это область входного изображения, с которой работает конкретный нейрон. Оно соответствует максимальной области, которую сеть способна обработать.
Иными словами, рецептивное поле определяет ту часть изображения, которую нейрон «видит» при выполнении вычислений. По мере того как в CNN наслаиваются новые уровни, рецептивное поле увеличивается, и более глубокие слои могут захватывать более сложные паттерны на больших фрагментах изображения.
👉 @DataSciencegx
👨👨👨👨👨👨👨👨👨👨
Каналы с Junior IT вакансиями
и стажировками
Подписывайся и забирай свой оффер 🤘
1. IT вакансии по СНГ
2. Стажировки и вакансии по России и миру
3. IT стажировки и волонтерства
4. IT стажировки по СНГ
5. IT стажировки в топовых компаниях мира
6. Удалённые IT вакансии и стажировки
7. Python вакансии и стажировки
8. БИГТЕХ вакансии и стажировки
9. Design вакансии и стажировки
10. QA вакансии и стажировки
11. Junior вакансии и стажировки
12. Frontend вакансии и вопросы собесов
13. Вакансии и стажировки для аналитиков
14. Вакансии в русских стартапах за границей
15. Вакансии и стажировки для DevOps
16. Вакансии, которых нет на ХХ.РУ
Repost from IT Portal
Нашёл крутейшую платформу для подготовки к DS-собесам
Внутри: 1000+ реальных интервью-вопросов от Facebook, Google, Amazon, Microsoft и других топовых компаний. Практика по SQL, Python, R, статистике, алгоритмам, product sense и даже system design
Есть встроенный IDE с датасетами, где можно сразу писать и валидировать код. База регулярно обновляется
Бесплатно доступно 75 кодинг-задач, 600 вопросов и 50 тестовых заданий. Забираем здесь 🍯
@IT_Portal
+1
Создай свою собственную модель ИИ
Этот репозиторий содержит код для разработки, предобучения и fine-tuning’а LLM наподобие GPT с нуля: https://github.com/rasbt/LLMs-from-scratch
Недавно там появился новый раздел: Gemma 3 с нуля
Является официальным репозиторием к книге Build a Large Language Model (From Scratch).
👉 @DataSciencegx
📘 На Stepik вышел курс — «LangChain: с нуля до продакшн LLM-приложений»
Нужен не игрушечный бот, а воспроизводимый RAG-пайплайн с метриками и сервисом? Этот курс — про путь «ноутбук → FastAPI → прод».
🔍 Что вы получите
• RAG по PDF с цитированием источников и гибридным поиском (BM25 + вектор + rerank); контроль галлюцинаций через метрики (precision/recall@K, citation-rate)
• Инструменты и агенты для анализа данных: Pandas-задачи, структурированный JSON-вывод под отчёты/дашборды
• Продакшн-контур: FastAPI-сервис, логирование латентности/токенов, PromptOps (версии/A/B), базовый SLA-мониторинг
🎓 Сертификат по завершении — можно добавить в резюме или LinkedIn
🚀 Начните сегодня и получите скидку 25% в течение 72 часов
👉 Пройти курс на Stepik
Это один из самых впечатляющих технических блогпостов, которые я читал в последнее время: построение веб-поисковика с нуля за два месяца с 3 миллиардами нейронных эмбеддингов
👉 @DataSciencegx
Иллюстрированное руководство об AI-агентах в одном PDF
В нём:
🔸Основы работы агентов
🔸LLM vs RAG vs агенты
🔸Паттерны проектирования агентов
🔸Базовые компоненты агентов
🔸Создание кастомных инструментов через MCP
🔸12 практических проектов для AI-инженеров
https://drive.google.com/file/d/1Th8mN_IF7Ttc8bI_OLtUuQ7Mjx3aJ6Hi/view
👉 @DataSciencegx
Google выложили в опенсорс Python-библиотеку LangExtract!
Она использует LLM для извлечения сущностей, атрибутов и связей, с точной привязкой к источнику, из неструктурированных документов.
Поддержка любых LLM (Gemini, OpenAI, Ollama).
https://github.com/google/langextract
👉 @DataSciencegx
Фреймворк для создания мультиагентных AI-систем в Telegram, готовый к запуску с минимальными настройками
evi-run подходит для создания AI-ассистентов, виртуальных персонажей, автоматизированной службы поддержки, аналитиков данных, торговых агентов на DEX и других кастомных мультиагентных систем
Архитектура построена на Python, OpenAI Agents SDK, Telegram Bot API, PostgreSQL и Redis. Deploy через Docker за 5 минут
GitHub репозиторий → https://github.com/pipedude/evi-run
👉 @DataSciencegx
Каждый повторный вызов LLM — это просто сжигание денег
Обычный кэш тут не поможет, если только промпт не совпадает дословно.
Redis 8 меняет правила игры с семантическим кэшированием, которое понимает смысл, а не только ключ.
LangCache + Vector Sets + Redis Flex = быстрее, дешевле, умнее
Полный разбор:
https://newsletter.systemdesignclassroom.com/p/every-repeated-llm-call-is-money-on-fire
👉 @DataSciencegx
Изучайте Data Science через реальные задачи — погружаемся в мир ИИ, машинного обучения и Python на практическом бесплатном мини-курсе!
Этот мини-курс поможет прокачать понимание Data Science, если вы уже немного в теме:
— Узнаете, как автоматизировать задачи с помощью нейросетей и использовать их в реальных задачах
— Попробуете себя в роли ML-инженера, аналитика и дата-инженера
— Научитесь визуализировать данные и писать простой код на Python
— На практике создадите чат-бота и нейросеть
Регистрируйтесь: https://epic.st/Fi8-CK?erid=2VtzqwfaPww
🔥 Бонус: откроем доступ к записям конференции по нейросетям после первого урока. Узнаете, как использовать ИИ в работе и жизни.
🎁 А ещё будут подарки: сертификат на скидку 10 000 рублей на любой курс, гайд «Как пользоваться ChatGPT и Midjourney» и подборка полезных материалов.
+1
Бесплатные Google Colab-ноутбуки для реализации каждого алгоритма машинного обучения с нуля
https://udlbook.github.io/udlbook/
👉 @DataSciencegx
Отслеживайте и оценивайте любое LLM-приложение всего одним декоратором
DeepEval позволяет трейсить и оценивать LLM-приложения на уровне отдельных компонентов.
Это помогает выявлять узкие места и эффективнее оптимизировать сложные пайплайны.
Полностью опенсорс: https://github.com/confident-ai/deepeval
👉 @DataSciencegx
Если вы работаете в айти и не хотите вылететь с рынка через 3-4 года, развивайте софт-скиллы.
Тимлиду не нужно уметь писать код – с этим лучше справляется его команда и даже нейронки, а вот грамотно менеджерить команду и выстраивать процессы – реально важный навык.
Прокачивайте не только хард-скиллы, но и «гибкие» навыки — это то, что останется востребованным даже в эпоху ИИ. А если с головой нырять в обучение лень, читайте канал Тимлид на удалёнке.
Там вся внутрянка от первого лица: как справляться с выгоранием, не терять фокус в условиях многозадачности и развить управленческие качества. С юмором, честно и без занудства.
Почитайте на досуге, много нового узнаете: @teamleadonline
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
