Data Portal | DS & ML
Відкрити в Telegram
Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx
Показати більше8 404
Підписники
-724 години
-77 днів
-430 день
Архів дописів
+1
Docling
Это мощный инструмент для обработки документов, который позволяет легко экспортировать их в форматы, такие как HTML, Markdown и JSON, поддерживая при этом множество популярных файловых форматов на вход (например, PDF, DOCX, PPTX).
Он предлагает глубокое понимание структуры PDF-документов и обеспечивает единый подход к представлению информации.
Инструмент интегрируется с LlamaIndex и LangChain, поддерживает OCR для сканированных документов, а также предоставляет простой интерфейс командной строки.
👉 Cсылка на GitHub
👉 @DataSciencegx
⚡ Новые каналы с вакансиями и стажировками для джунов
В этих каналах публикуются все свежие вакансии и стажировки
🔺 ВАКАНСИИ
Горячие вакансии с привлекательными офферами для джуниор разработчиков, аналитиков, дизайнеров и QA-специалистов.👉 ПОДПИСАТЬСЯ 🔺СТАЖИРОВКИ
Стажировки для начинающих специалистов в IT независимо от возраста!👉 ПОДПИСАТЬСЯ 🔺IT interns
Свежие стажировки для junior специалистов в топовых компании России и мира👉 ПОДПИСАТЬСЯ 🔺Junojobs
Вакансии и стажировки для junior-разработчиков на удалёнке.👉 ПОДПИСАТЬСЯ 🔺БИГТЕХ
Junior вакансии и стажировки в крупнейших IT-компаниях мира: NVidia, Apple, T-банк, Яндекс, Google и т. д.👉 ПОДПИСАТЬСЯ 🔺Ква инженер - QA junior
Отборные джун вакансии и стажировки для QA, тестировщиков.👉 ПОДПИСАТЬСЯ
ИИ-агент для дата-сайентистов, который создает полноценные рабочие процессы в Jupyter Notebook по одному запросу
Data Copilot — это аналог Cursor, но специально для дата-сайентистов.
Я разработал полный ML-ноутбук: импорт данных, их очистка, обучение моделей и тестирование — все в одном процессе
Полностью с открытым исходным кодом
🔸Репо: https://github.com/mito-ds/mito
🔸Документация: https://docs.trymito.io/mito-ai/data-copilot
👉 @DataSciencegx
⚡️Какой основной инструмент работы у аналитика?
Аналитику часто приходится обрабатывать огромные массивы информации. Чтобы реально что-то «увидеть» за большим массивом цифр, букв и других структур, нужно привести это к максимально простому и наглядному виду.
Это можно долго и тяжело делать с помощью Excel, чуть легче с помощью SQL. А в Pandas, да и в целом в Python, это можно сделать за несколько строк кода. Простой пример - иногда для фильтрации строк по какому-то агрегированному признаку в SQL нужно написать 3 подзапроса, а в Pandas это можно сделать за 2 строки.
Pandas - инструмент, который делает жизнь аналитика проще и приятней, а работу - эффективней.
Научиться работать с Pandas на реальных задачах бизнеса можно на бесплатном курсе от Simulative.
За неделю обучения вы:
🟠Освоите Pandas с нуля до продвинутых функций: сложная агрегация, оконные функции и т.д.
🟠Научитесь решать реальные аналитические задачи: проводить многомерный ABC-анализ, XYZ-анализ, рассчитывать динамику продаж.
🟠Сделаете собственный проект, который сможете добавить в портфолио: реальный кейс автоматизации обработки финансовой отчетности от крупной региональной аптечной сети
🕗 Обучение проходит на платформе школы
😶Начать учиться Pandas
Шпаргалки по Transformers и LLMs для курса Stanford CME-295
Охватывают токенизацию, механизм самовнимания, prompting, дообучение, LLM-as-a-judge, RAG, AI-агентов и модели рассуждений.
Полностью бесплатные и с открытым исходным кодом. Забираем здесь
👉 @DataSciencegx
Топ 10 YouTube-каналов для изучения ИИ с нуля:
Andrej Karpathy – Глубокие, но доступные лекции по глубокому обучению, языковым моделям и вводный курс по нейронным сетям
3Blue1Brown – Впечатляющие визуализации, которые делают абстрактные математические концепции интуитивно понятными
Lex Fridman – Глубокие интервью с лидерами ИИ, предлагающие широкий взгляд на эту область.
Machine Learning Street Talk – Технические обсуждения и глубокие погружения с ведущими исследователями в области ИИ.
StatQuest с Joshua Starmer PhD – Простые объяснения по машинному обучению и статистике для начинающих
Serrano Academy (Luis Serrano) – Понятный и доступный контент по машинному обучению, глубокому обучению и достижениям в ИИ.
Jeremy Howard – Практические курсы по глубокому обучению и руководства по созданию веб-приложений с использованием ИИ.
Hamel Husain – Практические уроки по языковым моделям, RAG (retrieval-augmented generation), тонкой настройке и оценке ИИ
Jason Liu – Лекции от экспертов по RAG и советы по фрилансу в области машинного обучения
Dave Ebbelaar – Практические руководства по созданию ИИ-систем и их реальным приложениям
Какие еще YouTube-каналы, по вашему мнению, обязательны к просмотру?
👉 @DataSciencegx
Электричество для обучения LLM стоит больше, чем ваша зарплата
Счет за энергию растет как нейросеть после dropout-а. Ваш домашний GPU съедает 500 Вт и греется так, что на нем уже можно шашлык жарить.
Забудьте о высоких расходах на электричество. Наши серверы с жидкостным охлаждением работают даже на пиковых нагрузках и никак не влияют на ваш счет за электричество.
Экономьте на ваттах, а не на идеях — выбирайте сервер.
P.S. Промокод на скидку: TGTOP15
«Просто используй RAG», — сказали они. Но КАКОЙ RAG?
Вот 7 различных архитектур RAG, которые стоит знать
1️⃣ Наивный RAG: Классический подход
Наивный RAG — это стандартная реализация с простым процессом:
🔸Пользователь отправляет запрос.
🔸Система извлекает релевантные документы из векторной базы данных.
🔸Извлечённые документы добавляются в контекст запроса.
🔸LLM генерирует ответ на основе запроса и контекста.
Этот метод хорошо работает для простых приложений, таких как базовые системы вопросов-ответов или помощники по документам.
2️⃣ RAG с повторным ранжированием (Retrieve and Rerank RAG)
Добавляет этап повторного ранжирования для повышения качества извлечённых данных:
🔸Изначально извлекается расширенный набор потенциально релевантных документов.
🔸Модель ранжирования оценивает их и присваивает оценки релевантности.
🔸Только документы с наивысшими оценками передаются в LLM.
3️⃣ Мультимодальный RAG
Использует модели, работающие с различными типами данных: текстом, изображениями, аудио, видео и т. д.
4️⃣ Графовый RAG
Использует графовую базу данных для учёта связей между документами:
🔸Документы или их фрагменты представляются узлами графа.
🔸Связи между документами — рёбра графа.
🔸Запрос может следовать по связям, чтобы находить более контекстно релевантную информацию.
5️⃣ Гибридный RAG (Vector DB + Graph DB)
Комбинирует векторный поиск и графовую базу данных:
🔸Векторный поиск находит семантически схожий контент.
🔸Графовая база предоставляет структурированные связи между данными.
🔸Запросы используют как семантическое сходство, так и явные связи.
🔸Ответ может включать информацию, найденную при обходе графа.
6️⃣ Агентный RAG с маршрутизатором (Agentic RAG with Router Agent)
Один агент управляет процессом извлечения знаний:
🔸Анализирует запрос и определяет, какие источники данных использовать.
🔸Принимает стратегические решения о способах извлечения информации.
🔸Координирует процесс извлечения на основе понимания запроса.
7️⃣ Мультиагентный RAG
Использует несколько специализированных агентов:
🔸Главный агент управляет процессом.
🔸Специализированные агенты выполняют разные задачи.
🔸Агенты взаимодействуют, чтобы решать сложные запросы.
Например, один агент отвечает за поиск по источникам, другой за преобразование данных, третий — за персонализацию ответа, а главный агент собирает окончательный результат.
👉 @DataSciencegx
Colab + GitHub: мгновенное открытие ноутбуков
Открывать Jupyter Notebook из GitHub в Colab без скачиваний, возни и лишних кликов? Лови лайфхак
Просто вставляешь "
tocolab" в URL после "github" – и ноутбук сразу открывается в Colab
Запоминаем и пользуемся
👉 @DataSciencegxBrain fog - это настоящая эпидемия нашего времени, но есть вещество, которое способно пробудить даже мертвеца..
Alpha GPC + CDP Choline = увеличение скорости и объема электрических импульсов в синапсах головного мозга🧠
Добавка повышает концентрацию внимания и скорость реакции, а так же действует как очень мягкий антидепрессант 🧘♂️
Не оказывает сильный стимулирующий эффект и не нарушает качество сна 💤
Ты не можешь сделать 36 часов в сутках, но ты можешь увеличить скорость своего мышления ⚡️
👇👇👇
ЗАКАЗАТЬ НА WILDBERRIES
Всего три строки кода — и эта библиотека Python очистит любой ML-дataset: выявит выбросы, найдет ошибки в метках, выполнит активное обучение и многое другое.
100% open-source
https://github.com/cleanlab/cleanlab
👉 @DataSciencegx
Иногда нужно быстро скормить LLM весь репозиторий
Просто меняешь одну букву в URL (
github.com → uithub.com), и вуаля — получаешь весь репозиторий в виде чистого текста со структурой
Плюс есть фильтрация по расширениям, настройка максимального количества токенов и поддержка разных форматов вроде YAML
👉 @DataSciencegx+4
IT_ONE Cup. ML Challenge от IT_ONE и Sk FinTech Hub
Создай AI-ассистента, который будет помогать в работе дизайнерам, системным и бизнес-аналитикам. Участвуй онлайн с 12 по 29 апреля и поборись за 1 500 000 рублей.
Регистрация открыта до 11 апреля: https://cnrlink.com/itonecupmldataportal
Твоя формула победы:
✅ Умеешь работать с готовыми моделями машинного обучения и адаптировать их под специфические задачи.
✅ Знаешь, как реализовать сложные системы на базе LLM и генеративных моделей.
✅ Готов создавать комплексные решения для автоматизации процессов.
Также приглашаем Backend и Frontend-разработчиков, системных и бизнес-аналитиков, UI/UX-дизайнеров. Участвуй онлайн соло или командой до 5 человек.
Задачи IT_ONE Cup. ML Challenge:
🔤 Динамические контекстные подсказки для системного аналитика.
🔤 AI-генератор дизайн-макетов по описанию требований.
🔤 Система визуализации BPMN-диаграмм.
4 апреля приходи на митап с экспертами соревнования — задай вопросы и узнай больше о задачах.
Создай AI-ассистента, который облегчит выполнение рабочих задач — регистрируйся на IT_ONE Cup. ML Challenge: https://cnrlink.com/itonecupmldataportal
Python-библиотека для тонкой настройки Gemma 3
Gemma — это минимальная библиотека для использования и тонкой настройки Gemma. Включает документацию по тонкой настройке, шардингу, LoRA, PEFT, мультимодальности и токенизации в больших языковых моделях (LLMs).
Полностью с открытым исходным кодом.
👉 @DataSciencegx
4 способа запустить LLM, такую как DeepSeek-R1, локально на вашем компьютере:
Запуск LLM локально — это как обладание суперспособностью:
🔸Экономия средств
🔸Конфиденциальность: ваши данные остаются на вашем компьютере
🔸К тому же, это безумно интересно
Сегодня мы рассмотрим лучшие способы сделать это. Поехали:
1. Ollama
Самый простой способ — выполнить команду:
ollama run deepseek-r1
А установить Ollama можно одной строкой:
curl -fsSL https://ollama.com/install.sh | sh
2. LMStudio
Устанавливается как приложение и предоставляет интерфейс, похожий на ChatGPT. Вы можете загружать и выгружать модели, как будто работаете с кассетами в магнитофоне
3. vLLM
Быстрая и удобная библиотека для выполнения и развертывания LLM. Всего несколько строк кода — и вы сможете локально запустить DeepSeek как сервер, совместимый с OpenAI, с поддержкой рассуждений
4. LlamaCPP
Минимальная настройка, топовая производительность. На видео DeepSeek-R1 на Mac Studio
👉 @DataSciencegx"Поступашки — ШАД, Стажировки и Магистратура", - лучше гайд в мире образования и карьеры.
Канал ведут преподаватели Яндекса, ВШЭ и ШАД.
Внутри:
🔺Слив вопросов с собеса в Яндекс
🔺Как бесплатно вкатиться в айти
🔺Подборка топовых магистратур по Data Science
...и еще море полезнейшего контента. Я жалею, что не нашел этот канал раньше.
Подписывайтесь, потом сами себе спасибо скажете: ⬇️
@postypashki_old
Генеративные vs. дискриминативные модели в ML
Генеративные модели:
🔸Изучают распределение данных, чтобы генерировать новые образцы.
🔸Обладают дискриминативными свойствами — их можно использовать для классификации.
Дискриминативные модели не обладают генеративными свойствами
👉 @DataSciencegx
+1
Сегодня стартовала неделя опенсорса от DeepSeek
На прошлой неделе команда анонсировала, что с 24 по 28 февраля они выложат в открытый доступ пять репозиториев из своей внутренней экосистемы
Сегодня — первый релиз: FlashMLA
Это эффективный декодирующий кернел для MLA на GPU Hopper, оптимизированный для обработки последовательностей переменной длины.🔸GitHub: FlashMLA 👉 @DataSciencegx
Используйте эти репозитории на GitHub, чтобы прокачать свои навыки в Python и ML:
🔸 Homemade Machine Learning — Репозиторий содержит коллекцию алгоритмов машинного обучения, реализованных с нуля на Python, что помогает понять их внутреннюю работу.
🔸 Awesome Machine Learning — Подборка отличных фреймворков, библиотек и программного обеспечения для машинного обучения
🔸 Machine Learning Tutorial — Собрание обучающих материалов, статей и других ресурсов по машинному и глубокому обучению
🔸 Best Of ML With Python — Ранжированный список лучших библиотек Python для машинного обучения, обновляемый еженедельно
🔸 Machine Learning Interview — Репозиторий предоставляет ресурсы для подготовки к интервью по машинному обучению, включая примеры вопросов и советы
👉 @DataSciencegx | #ресурсы
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
