Data Portal | DS & ML

Відкрити в Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

Сітка:IT Portal Росія75 941 Технології та додатки13 882

8 404

Підписники

-724 години

-77 днів

-430 день

951

Перегляди допису

~ 57524 години

~ 69048 годин

11.31%

Коефіцієнт залучення

~ 2

Дописів на день

Ads index

beta

Архів дописів

8 404

Docling Это мощный инструмент для обработки документов, который позволяет легко экспортировать их в форматы, такие как HTML, Markdown и JSON, поддерживая при этом множество популярных файловых форматов на вход (например, PDF, DOCX, PPTX). Он предлагает глубокое понимание структуры PDF-документов и обеспечивает единый подход к представлению информации. Инструмент интегрируется с LlamaIndex и LangChain, поддерживает OCR для сканированных документов, а также предоставляет простой интерфейс командной строки. 👉 Cсылка на GitHub 👉 @DataSciencegx

8 404

⚡ Новые каналы с вакансиями и стажировками для джунов В этих каналах публикуются все свежие вакансии и стажировки 🔺 ВАКАНСИИ

Горячие вакансии с привлекательными офферами для джуниор разработчиков, аналитиков, дизайнеров и QA-специалистов.

👉 ПОДПИСАТЬСЯ 🔺СТАЖИРОВКИ

Стажировки для начинающих специалистов в IT независимо от возраста!

👉 ПОДПИСАТЬСЯ 🔺IT interns

Свежие стажировки для junior специалистов в топовых компании России и мира

👉 ПОДПИСАТЬСЯ 🔺Junojobs

Вакансии и стажировки для junior-разработчиков на удалёнке.

👉 ПОДПИСАТЬСЯ 🔺БИГТЕХ

Junior вакансии и стажировки в крупнейших IT-компаниях мира: NVidia, Apple, T-банк, Яндекс, Google и т. д.

👉 ПОДПИСАТЬСЯ 🔺Ква инженер - QA junior

Отборные джун вакансии и стажировки для QA, тестировщиков.

👉 ПОДПИСАТЬСЯ

8 404

Pandas → Polars → SQL → PySpark 👉 @DataSciencegx

8 404

ИИ-агент для дата-сайентистов, который создает полноценные рабочие процессы в Jupyter Notebook по одному запросу Data Copilot — это аналог Cursor, но специально для дата-сайентистов. Я разработал полный ML-ноутбук: импорт данных, их очистка, обучение моделей и тестирование — все в одном процессе Полностью с открытым исходным кодом 🔸Репо: https://github.com/mito-ds/mito 🔸Документация: https://docs.trymito.io/mito-ai/data-copilot 👉 @DataSciencegx

8 404

⚡️Какой основной инструмент работы у аналитика? Аналитику часто приходится обрабатывать огромные массивы информации. Чтобы реально что-то «увидеть» за большим массивом цифр, букв и других структур, нужно привести это к максимально простому и наглядному виду. Это можно долго и тяжело делать с помощью Excel, чуть легче с помощью SQL. А в Pandas, да и в целом в Python, это можно сделать за несколько строк кода. Простой пример - иногда для фильтрации строк по какому-то агрегированному признаку в SQL нужно написать 3 подзапроса, а в Pandas это можно сделать за 2 строки. Pandas - инструмент, который делает жизнь аналитика проще и приятней, а работу - эффективней. Научиться работать с Pandas на реальных задачах бизнеса можно на бесплатном курсе от Simulative. За неделю обучения вы: 🟠Освоите Pandas с нуля до продвинутых функций: сложная агрегация, оконные функции и т.д. 🟠Научитесь решать реальные аналитические задачи: проводить многомерный ABC-анализ, XYZ-анализ, рассчитывать динамику продаж. 🟠Сделаете собственный проект, который сможете добавить в портфолио: реальный кейс автоматизации обработки финансовой отчетности от крупной региональной аптечной сети 🕗 Обучение проходит на платформе школы 😶Начать учиться Pandas

8 404

Шпаргалки по Transformers и LLMs для курса Stanford CME-295 Охватывают токенизацию, механизм самовнимания, prompting, дообучение, LLM-as-a-judge, RAG, AI-агентов и модели рассуждений. Полностью бесплатные и с открытым исходным кодом. Забираем здесь 👉 @DataSciencegx

8 404

Топ 10 YouTube-каналов для изучения ИИ с нуля: Andrej Karpathy – Глубокие, но доступные лекции по глубокому обучению, языковым моделям и вводный курс по нейронным сетям 3Blue1Brown – Впечатляющие визуализации, которые делают абстрактные математические концепции интуитивно понятными Lex Fridman – Глубокие интервью с лидерами ИИ, предлагающие широкий взгляд на эту область. Machine Learning Street Talk – Технические обсуждения и глубокие погружения с ведущими исследователями в области ИИ. StatQuest с Joshua Starmer PhD – Простые объяснения по машинному обучению и статистике для начинающих Serrano Academy (Luis Serrano) – Понятный и доступный контент по машинному обучению, глубокому обучению и достижениям в ИИ. Jeremy Howard – Практические курсы по глубокому обучению и руководства по созданию веб-приложений с использованием ИИ. Hamel Husain – Практические уроки по языковым моделям, RAG (retrieval-augmented generation), тонкой настройке и оценке ИИ Jason Liu – Лекции от экспертов по RAG и советы по фрилансу в области машинного обучения Dave Ebbelaar – Практические руководства по созданию ИИ-систем и их реальным приложениям Какие еще YouTube-каналы, по вашему мнению, обязательны к просмотру? 👉 @DataSciencegx

8 404

Электричество для обучения LLM стоит больше, чем ваша зарплата Счет за энергию растет как нейросеть после dropout-а. Ваш домашний GPU съедает 500 Вт и греется так, что на нем уже можно шашлык жарить. Забудьте о высоких расходах на электричество. Наши серверы с жидкостным охлаждением работают даже на пиковых нагрузках и никак не влияют на ваш счет за электричество. Экономьте на ваттах, а не на идеях — выбирайте сервер. P.S. Промокод на скидку: TGTOP15

8 404

«Просто используй RAG», — сказали они. Но КАКОЙ RAG? Вот 7 различных архитектур RAG, которые стоит знать 1️⃣ Наивный RAG: Классический подход Наивный RAG — это стандартная реализация с простым процессом: 🔸Пользователь отправляет запрос. 🔸Система извлекает релевантные документы из векторной базы данных. 🔸Извлечённые документы добавляются в контекст запроса. 🔸LLM генерирует ответ на основе запроса и контекста. Этот метод хорошо работает для простых приложений, таких как базовые системы вопросов-ответов или помощники по документам. 2️⃣ RAG с повторным ранжированием (Retrieve and Rerank RAG) Добавляет этап повторного ранжирования для повышения качества извлечённых данных: 🔸Изначально извлекается расширенный набор потенциально релевантных документов. 🔸Модель ранжирования оценивает их и присваивает оценки релевантности. 🔸Только документы с наивысшими оценками передаются в LLM. 3️⃣ Мультимодальный RAG Использует модели, работающие с различными типами данных: текстом, изображениями, аудио, видео и т. д. 4️⃣ Графовый RAG Использует графовую базу данных для учёта связей между документами: 🔸Документы или их фрагменты представляются узлами графа. 🔸Связи между документами — рёбра графа. 🔸Запрос может следовать по связям, чтобы находить более контекстно релевантную информацию. 5️⃣ Гибридный RAG (Vector DB + Graph DB) Комбинирует векторный поиск и графовую базу данных: 🔸Векторный поиск находит семантически схожий контент. 🔸Графовая база предоставляет структурированные связи между данными. 🔸Запросы используют как семантическое сходство, так и явные связи. 🔸Ответ может включать информацию, найденную при обходе графа. 6️⃣ Агентный RAG с маршрутизатором (Agentic RAG with Router Agent) Один агент управляет процессом извлечения знаний: 🔸Анализирует запрос и определяет, какие источники данных использовать. 🔸Принимает стратегические решения о способах извлечения информации. 🔸Координирует процесс извлечения на основе понимания запроса. 7️⃣ Мультиагентный RAG Использует несколько специализированных агентов: 🔸Главный агент управляет процессом. 🔸Специализированные агенты выполняют разные задачи. 🔸Агенты взаимодействуют, чтобы решать сложные запросы. Например, один агент отвечает за поиск по источникам, другой за преобразование данных, третий — за персонализацию ответа, а главный агент собирает окончательный результат. 👉 @DataSciencegx

8 404

Colab + GitHub: мгновенное открытие ноутбуков Открывать Jupyter Notebook из GitHub в Colab без скачиваний, возни и лишних кликов? Лови лайфхак Просто вставляешь "tocolab" в URL после "github" – и ноутбук сразу открывается в Colab Запоминаем и пользуемся 👉 @DataSciencegx

8 404

Brain fog - это настоящая эпидемия нашего времени, но есть вещество, которое способно пробудить даже мертвеца.. Alpha GPC + CDP Choline = увеличение скорости и объема электрических импульсов в синапсах головного мозга🧠 Добавка повышает концентрацию внимания и скорость реакции, а так же действует как очень мягкий антидепрессант 🧘‍♂️ Не оказывает сильный стимулирующий эффект и не нарушает качество сна 💤 Ты не можешь сделать 36 часов в сутках, но ты можешь увеличить скорость своего мышления ⚡️ 👇👇👇 ЗАКАЗАТЬ НА WILDBERRIES

8 404

Всего три строки кода — и эта библиотека Python очистит любой ML-дataset: выявит выбросы, найдет ошибки в метках, выполнит активное обучение и многое другое. 100% open-source https://github.com/cleanlab/cleanlab 👉 @DataSciencegx

8 404

Иногда нужно быстро скормить LLM весь репозиторий Просто меняешь одну букву в URL (github.com → uithub.com), и вуаля — получаешь весь репозиторий в виде чистого текста со структурой Плюс есть фильтрация по расширениям, настройка максимального количества токенов и поддержка разных форматов вроде YAML 👉 @DataSciencegx

8 404

IT_ONE Cup. ML Challenge от IT_ONE и Sk FinTech Hub Создай AI-ассистента, который будет помогать в работе дизайнерам, системным и бизнес-аналитикам. Участвуй онлайн с 12 по 29 апреля и поборись за 1 500 000 рублей. Регистрация открыта до 11 апреля: https://cnrlink.com/itonecupmldataportal Твоя формула победы: ✅ Умеешь работать с готовыми моделями машинного обучения и адаптировать их под специфические задачи. ✅ Знаешь, как реализовать сложные системы на базе LLM и генеративных моделей. ✅ Готов создавать комплексные решения для автоматизации процессов. Также приглашаем Backend и Frontend-разработчиков, системных и бизнес-аналитиков, UI/UX-дизайнеров. Участвуй онлайн соло или командой до 5 человек. Задачи IT_ONE Cup. ML Challenge: 🔤 Динамические контекстные подсказки для системного аналитика. 🔤 AI-генератор дизайн-макетов по описанию требований. 🔤 Система визуализации BPMN-диаграмм. 4 апреля приходи на митап с экспертами соревнования — задай вопросы и узнай больше о задачах. Создай AI-ассистента, который облегчит выполнение рабочих задач — регистрируйся на IT_ONE Cup. ML Challenge: https://cnrlink.com/itonecupmldataportal

8 404

Python-библиотека для тонкой настройки Gemma 3 Gemma — это минимальная библиотека для использования и тонкой настройки Gemma. Включает документацию по тонкой настройке, шардингу, LoRA, PEFT, мультимодальности и токенизации в больших языковых моделях (LLMs). Полностью с открытым исходным кодом. 👉 @DataSciencegx

8 404

4 способа запустить LLM, такую как DeepSeek-R1, локально на вашем компьютере: Запуск LLM локально — это как обладание суперспособностью: 🔸Экономия средств 🔸Конфиденциальность: ваши данные остаются на вашем компьютере 🔸К тому же, это безумно интересно Сегодня мы рассмотрим лучшие способы сделать это. Поехали: 1. Ollama Самый простой способ — выполнить команду:

ollama run deepseek-r1

А установить Ollama можно одной строкой:

curl -fsSL https://ollama.com/install.sh | sh

2. LMStudio Устанавливается как приложение и предоставляет интерфейс, похожий на ChatGPT. Вы можете загружать и выгружать модели, как будто работаете с кассетами в магнитофоне 3. vLLM Быстрая и удобная библиотека для выполнения и развертывания LLM. Всего несколько строк кода — и вы сможете локально запустить DeepSeek как сервер, совместимый с OpenAI, с поддержкой рассуждений 4. LlamaCPP Минимальная настройка, топовая производительность. На видео DeepSeek-R1 на Mac Studio 👉 @DataSciencegx

8 404

"Поступашки — ШАД, Стажировки и Магистратура", - лучше гайд в мире образования и карьеры. Канал ведут преподаватели Яндекса, ВШЭ и ШАД. Внутри: 🔺Слив вопросов с собеса в Яндекс 🔺Как бесплатно вкатиться в айти 🔺Подборка топовых магистратур по Data Science ...и еще море полезнейшего контента. Я жалею, что не нашел этот канал раньше. Подписывайтесь, потом сами себе спасибо скажете: ⬇️ @postypashki_old

8 404

Генеративные vs. дискриминативные модели в ML Генеративные модели: 🔸Изучают распределение данных, чтобы генерировать новые образцы. 🔸Обладают дискриминативными свойствами — их можно использовать для классификации. Дискриминативные модели не обладают генеративными свойствами 👉 @DataSciencegx

8 404

Сегодня стартовала неделя опенсорса от DeepSeek На прошлой неделе команда анонсировала, что с 24 по 28 февраля они выложат в открытый доступ пять репозиториев из своей внутренней экосистемы Сегодня — первый релиз: FlashMLA

Это эффективный декодирующий кернел для MLA на GPU Hopper, оптимизированный для обработки последовательностей переменной длины.

🔸GitHub: FlashMLA 👉 @DataSciencegx

8 404

Используйте эти репозитории на GitHub, чтобы прокачать свои навыки в Python и ML: 🔸 Homemade Machine Learning — Репозиторий содержит коллекцию алгоритмов машинного обучения, реализованных с нуля на Python, что помогает понять их внутреннюю работу. 🔸 Awesome Machine Learning — Подборка отличных фреймворков, библиотек и программного обеспечения для машинного обучения 🔸 Machine Learning Tutorial — Собрание обучающих материалов, статей и других ресурсов по машинному и глубокому обучению 🔸 Best Of ML With Python — Ранжированный список лучших библиотек Python для машинного обучения, обновляемый еженедельно 🔸 Machine Learning Interview — Репозиторий предоставляет ресурсы для подготовки к интервью по машинному обучению, включая примеры вопросов и советы 👉 @DataSciencegx | #ресурсы