Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 532 Технологии и приложения2 673...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 258 подписчиков, занимая 2 673 место в категории Технологии и приложения и 12 532 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 258 подписчиков.

Согласно последним данным от 19 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 12, а за последние 24 часа — 11, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.88%. В первые 24 часа после публикации контент обычно набирает 6.13% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 458 просмотров. В течение первых суток публикация набирает 3 081 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 31.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 20 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 258

Подписчики

+1124 часа

+637 дней

+1230 день

4 458

Просмотры поста

~ 3 08124 часа

~ 4 01248 часов

8.88%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 258

GOT (General OCR Theory) - 580M модель OCR-2.0, которая теперь доступна на ▪ Модель: https://huggingface.co/ucaslcl/GOT-OCR2_0 ▪ Github: https://github.com/Ucas-HaoranWei/GOT-OCR2.0/ @data_analysis_ml

50 258

Научитесь эффективно использовать нейросети в своей работе. Приглашаем на бесплатный мини-курс Skillbox «Data Science с нуля: пробуем профессии на практике за 5 дней». Окунитесь в сферу IT и решите, какая специальность вам ближе. 🎁 Регистрация по ссылке: https://epic.st/ieV_x?erid=2VtzqvNvntX Чем займётесь на мини-курсе? Узнаете, где востребована наука о данных, и разберётесь в различиях её основных направлений. Освоите азы главного языка Data Science — Python, а также визуализируете с помощью него данные. Изучите базовые конструкции языка SQL и наконец поймёте, как же работают нейросети. В знакомстве с профессиями вас будет сопровождать Анастасия Борнева — руководитель направления по исследованию данных в «Сбере». В финале мини-курса в прямом эфире она разберёт практические задания и ответит на все вопросы. 🎉 Все участники получат крутые бонусы и подарки! Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

50 258

🤖 Microsoft представляет Windows Agent Arena Инструмент для оценки мультимодальных агентов Работающих с ОС Windows Windows Agent Arena: среда, ориентированная исключительно на Windows, где агенты могут свободно работать в реальных задачах и использовать тот же широкий спектр приложений, инструментов и веб-браузеров, которые доступны пользователям при работе. Это адаптарованный фреймворк OSWorld (Xie et al., 2024) для создания 150+ разнообразных задач Windows в различных областях, требующих от агентов способностей к планированию, пониманию происходящего на экране пк и применение инструментов для реальных задач. huggingface.co/papers/2409.08264 @data_analysis_ml

50 258

🏆 Российский AutoML побеждает на международной арене Команда “LightAutoML testers” победила в международном соревновании Kaggle AutoML Grand Prix! Наши ребята: Александр Рыжков, Дмитрий Симаков, Ринчин Дамдинов и Иван Глебов с помощью решений на основе LightAutoML обошли известных конкурентов по индустрии, включая команды из Amazon и H2O! 🚀 LightAutoML - бесплатный и открытый инструмент Ключом к успеху стала open-source библиотека LightAutoML (LAMA), которая автоматизирует построение моделей машинного обучения. Благодаря использованию библиотеки ускоряется построение моделей и, зачастую, повышается качество. Инструмент подойдет как новичкам, так и профессионалам - решение можно получить как в несколько строк, так и с полной кастомизацией. 🌍 Kaggle AutoML Grand Prix 2024 Это - онлайн соревнование, приуроченное к ежегодной международной конференции International Conference on Automated Machine Learning, которая в этом году пройдет в Париже. Соревнование проходило на Kaggle (самой масштабной мировой платформе для соревнований по анализу данных) в 5 этапов, в каждом из которых было необходимо создать качественную модель машинного обучения всего за 24 часа. 🎓 Делимся опытом Хотите узнать секреты победителей? Не пропустите вебинар, где команда расскажет о своих решениях и ответит на ваши вопросы! Он пройдет в 17:30 уже сегодня в канале @lightautoml!

50 258

Repost from Machinelearning

Новостной дайджест ✔️ Поколение Z будет чаще использовать ИИ для покупок на предстоящих праздниках. Согласно опросу, проведенному компанией Fiverr, розничные продавцы разрабатывают стратегии по привлечению новых покупателей, особенно из поколения Z (термин, применяемый в мире для поколения людей, родившихся, по разным классификациям, примерно с середины 1990-х до начала 2010-х годов), с помощью ИИ. Более половины опрошенных покупателей поколения Z планируют использовать ИИ в качестве помощника по покупкам к Новому Году. Например, некоторые используют ChatGPT для поиска лучших цен или генерации идей подарков. Розничные продавцы уверены, что эти функции захватят покупательские привычки поколения Z, и планируют инвестировать в ИИ. 70% предприятий планируют инвестировать в ИИ, 39% увеличивают свои расходы на рекламу в социальных сетях, а 35% инвестируют в маркетинговые стратегии с привлечением инфлюэнсеров. cbsnews.com ✔️ Audible планирует создавать голосовые копии дикторов аудиокниг. Audible запустил бета-версию сервиса, который позволяет озвучивать книги с помощью синтеза речи, используя голос диктора. Сервис позволит авторам создавать реплики собственного голоса с помощью ИИ, что позволит им браться за большее количество проектов и увеличить свой доход. В данный момент бета-версия доступна только в США для ограниченного числа рассказчиков, и Audible планирует вскоре предоставить доступ к ней владельцам авторских прав книг. Audible обещает, что будет тщательно отслеживать влияние этой технологии сообщество. acx.com ✔️ ell: Библиотека программирования LLM. ell - это легкая библиотека промпт-проектирования, которая оперирует промптами как функциями. После многих лет создания и использования языковых моделей в OpenAI и в экосистеме стартапов, ell была выпущена в открытый доступ. Она разработана на основе принципов, которые делают работу с промптами более структурированной и эффективной. ell позволяет создавать "language model program" (LMP), которые представляют собой функции, генерирующие промпты для языковых моделей. В ell есть инструменты для отслеживания, управления версиями и визуализации. Библиотека поддерживает мультимодальность: работает с текстом, изображениями, аудио и видео. ell старается быть максимально легкой и не интрузивной, не требуя от разработчиков менять свой стиль программирования. docs.ell.so ✔️ Loopy: генеративная модель портретного видео на основе аудио. Loopy - разработка Bytedance, которая генерирует анимированные аватары на основе аудиозаписи с липсинком и угловой адаптацией. Модель способна создавать реалистичные движения головы, мимику и движения, связанные с эмоциями. Loopy не требует ручного указания шаблонов движения, это позволяет создавать более реалистичные аватары для разных сценариев. Она может генерировать движения в зависимости от аудиовхода, например, быстрые, спокойные или пение. Модель также работает с изображениями в профиль и реальными портретами. Информации о релизе кода и доступности модели в опен-сорсе не публиковалось. Пейпер. Демо. loopyavatar.github.io ✔️ Туториал: Использование PostgreSQL в качестве векторной базы данных для RAG. В туториале показан пошаговый сценарий к созданию векторной базы данных в PostgreSQL для хранения фрагментов текста из нескольких статей Википедии. В нем описывается процесс встраивания фрагментов текста и их сохранения в базе данных вместе с соответствующим заголовком, текстом и URL-адресом статьи. Также приведен пример, как использовать векторное сходство для поиска релевантного контекста из базы данных с учетом запроса пользователя. Как извлеченный контекст используется для дополнения исходного запроса, прежде чем он будет передан в LLM для создания окончательного инференса. infoworld.com @ai_machinelearning_big_data #news #ai #ml

50 258

Пофиксил баг — устроил перерыв с бесплатными печеньками, зарелизил новую программу — выпил чай на офисной кухне 😅 Если хочешь получать реальные бонусы и признание коллег — приходи в Сбер. Обещаем, у тебя будут только масштабные и интересные таски, а ещё ты станешь частью сообщества амбициозных и классных IT-специалистов. Прокачивай скилы за счёт банка, получай премии и пользуйся ДМС с первого дня работы. ~~Но и печеньки у нас тоже есть~~! 😉 Звучит заманчиво? Присоединяйся!

50 258

🤖Deep mind выпустил 2️⃣ новые системы искусственного интеллекта для робототехники: 🤖 ALOHA Unleashed для выполнения задач манипулирования двумя руками 🦾 DemoStart для управления роботизированной рукой. Они научились выполнять целый ряд действий, требующих ловкости рук. 🧵Релиз: https://deepmind.google/discover/blog/advances-in-robot-dexterity/

50 258

Repost from Machinelearning

⚡️ OpenAI релизнули новую модель OpenAI o1, которая в разы мощнее GPT-4o, Главная фишка - это цепочка рассуждений (CoT) которую выстраивает алгоритм прежде, чем дать ответ. Заявлено, что модель будет сильно лучше писать код и понимать физику мира Тот самый секретны проект, над которым так долго работала компания. Доступ обещают дать уже сегодня. @ai_machinelearning_big_data #openai #chatgpt

50 258

Agent Workflow Memory Интрумент, который значительно улучшает базовые результаты агентов на 24,6 % и 51,1 % относительного показателя успешности на бенчмарках Mind2Web и WebArena, уменьшая при этом количество шагов, необходимых для успешного решения задач. репозиторий: https://github.com/zorazrw/agent-workflow-memory abs: https://arxiv.org/abs/2409.07429 @data_analysis_ml

50 258

🎉МТС Web Services запустили подкаст PRO Данные — о больших данных в облаках! 🌟В первом выпуске гости обсудили облачные хранилища, их возможности и зачем они нужны бизнесу. Участники: 🌟Крестина Андреева, руководитель центра Data MTС Web Services 🌟Антон Близгарев, директор по развитию облачных продуктов Arenadata 🌟Максим Ситников, ведущий выпуска 📊 Количество данных растёт экспоненциально: расширять физические системы становится очень дорого, локальное хранение перестаёт быть рентабельным. Размещение в облаке серьёзно удешевляет хранение и переносит затраты из капитальных в операционные. А ещё позволяет добиться нужной производительности и модернизировать хранилища on-prem, которые «так исторически сложились». 🎙 Другие плюсы хранения данных в облаке, тенденции развития индустрии и интересные инсайты — в подкасте! Смотрите и слушайте где удобно. 🎼VK видео 🎼Mave 🎼Строки 🎼Яндекс.Музыка 🎼Apple Podcasts Реклама. Информация о рекламодателе.

50 258

🪨 Google представляет GenMS: генеративный иерархический поиск материалов Инструмент для управляемой генерации кристаллических структур. GenMS использует графическую нейронную сеть для прогнозирования свойств (например, энергии образования) генерируемых кристаллических структур. Эксперименты показывают, что GenMS превосходит другие альтернативыные модели для генераций как в удовлетворении запросов пользователей, так и в генерации новых низкоэнергетических структур. GenMS способна генерировать обычные кристаллические структуры, такие как двойные перовскиты (сравнительно редкий для поверхности Земли минерал, титанат кальция. Эмпирическая формула: CaTiO3. Был впервые обнаружен в 1839 году на Урале; назван в честь русского государственного и военного деятеля сенатора Льва Перовского) или шпинели (минерал кубической сингонии, смешанный оксид магния и алюминия MgAl2O4. Бывает окрашен минеральными примесями в различные цвета: бурый, чёрный, розовый, красный, синий.), исключительно на основе данных естественного языка и, следовательно, может стать основой для создания более сложных структур для изучения. ▪проект: https://generative-materials.github.io/genms/ ▪abs: https://arxiv.org/abs/2409.06762 @data_analysis_ml

50 258

🔍 OCR-2.0 на подходе, генеративный ИИ и мультимодальные LLM станут его основой! GOT (General OCR Theory) - это модель 580M OCR-2.0, превосходящая все существующие методы оптического распознавания символов. GOT состоит из Vision-Encoder для преобразования изображений в трансформеры изображений, а затем токены и для распознавания OCR в различных форматах (например, обычный текст, markdown, Mathpix). GOT разработан для обработки сложных документов, таких как громадные таблици, формулы и геометрические фигуры. Реализация 1️⃣Vision Предварительное обучение кодировщика: Кодировщик VitDet 2️⃣ Совместное обучение: Кодер соединен с декодером (Qwen-0.5B), 3️⃣ Фантюнинг модели на конкретных задачах 🧠 Encoder-Decoder с 80 М (VitDet) и 500 М (Qwen2) с контекстом 8k 🥇Достигает 0,035 Расстояние Левенштейна (метрика, измеряющая по модулю разность между двумя последовательностями символов.) и оценка BLEU 0,972 для обычного OCR 📊 Превосходит LLaVA-NeXT и Qwen-VL-Max в распознавании текстов документов и сцен 🧮 Может извлекать формулы LaTeX из Arxiv и конвертировать их в формат Mathpix 📃 Поддерживает динамическое разрешение и многостраничный OCR 🖼️ Принимает разрешение до 1024x1024 ▪Статья: https://huggingface.co/papers/2409.01704 ▪ Github (обещают скоро): https://github.com/Ucas-HaoranWei/GOT-OCR2.0 @data_analysis_ml

50 258

🖥 Tato: Terminal Text Effects Полезный инструмент для форматирования файлов на Python, который уделяет внимание организации кода в четыре основные секции: импорты, константы, классы и функции. В отличие от других автоформатеров, ориентированных на выравнивание и оформление кода, Tato делает акцент на упорядочивании структуры файла, что повышает его читаемость и упрощает работу с вашим кодом. #opensource #python #terminal #полезныйсофт ▪ Github @data_analysis_ml

50 258

✔️ Open-MAGVIT2, семейство авторегрессионных моделей генерации изображений от 300M до 1,5B. В рамках проекта Open-MAGVIT2 создается открытая копия токенизатора MAGVIT-v2 компании Google и достигается SOTA производительности (1.17 rFID) на ImageNet. ▪Github ▪Hf @data_analysis_ml

50 258

Ищем людей, которые пройдут по нехоженым тропам трэвел-теха и предложат оригинальные решения. Собираемся на О! Хакатоне — мероприятии от Островка с призовым фондом в один миллион рублей. Тебя ждут задания на двух треках: 👉🏻 динамическое ценообразование, 👉🏻 система ранжирования отелей. Также можно будет посетить лекции, мок-интервью и AMA-сессии с разработчиками Островка. Все активности пройдут в онлайн-формате с 28 сентября по 5 октября 2024 года. Участвовать можно из любой точки мира. Регистрируйся по ссылке до 19 сентября и стань автором лучшего тревел-тех-решения.

50 258

🔥 Новая модель Qwen2-VL-7B Instruct с точностью *100 %* извлекает текст из этого рукописного документа. Это первая открытая весовая модель (Apache 2.0), которую я видел настолько точным OCR. https://huggingface.co/spaces/GanymedeNil/Qwen2-VL-7B @data_analysis_ml

50 258

Попробуй написать свою имплементацию 🔹Изучите популярный алгоритм коллаборативной фильтрации и примените его на практике урока «Библиотека Surprise для коллаборативных рекомендательных систем» от Otus. Рассмотрим основные принципы построения рекомендательных систем ✅ Практика: Построение рекомендательной системы с помощью библиотеки surprise. Урок приурочен продвинутому курсу «Machine Learning. Advanced» от Otus. 👉 Регистрация и подробности: https://otus.pw/OWvm/?erid=LjN8K94zC

50 258

✔ xLAM: семейство больших моделей действий для расширения возможностей систем агентов ИИ Серия больших моделей действий от Salesforce, предназначенных для задач агентов ИИ. Включает пять моделей с плотной и смешанной экспертной архитектурой, варьирующейся от 1B до 8x22B параметров. По использованию инструментов превосходит GPT-4, Claude-3 и многие другие модели. ▪Статья: https://arxiv.org/abs/2409.03215 ▪Модели: https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4 @data_analysis_ml

50 258

Когда ментор Слёрма Николай Марков решил стать Data-инженером, он не представлял, какие сюрпризы его ждут в профессии. А участники первого реалити-шоу про Data-инженеров уже успели прочувствовать эту атмосферу. От неожиданных сбоев в коде до неуловимых багов — они испытали на себе вызовы, которые стоят за работой с большими данными. Кто смог раскрыть потенциал в нашей гонке, а кто слился после первых заданий? 👉🏻 Переходите, чтобы узнать, кто готов идти до конца и как стать Data-инженером Внутри — гайд «Инструменты Data-специалиста», Roadmap для начинающего Data-инженера и ещё много полезного — статьи, ссылки, рекомендации и бесплатные вебинары 👉🏻 @gdedata Реклама. ИП Аердинов Н.В. ИНН 638103515932 erid: LjN8K97oM