uk
Feedback
Анализ данных (Data analysis)

Анализ данных (Data analysis)

Відкрити в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Показати більше

📈 Аналітичний огляд Telegram-каналу Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 50 258 підписників, посідаючи 2 673 місце в категорії Технології та додатки та 12 532 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 50 258 підписників.

За останніми даними від 19 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на 12, а за останні 24 години на 11, загальне охоплення залишається високим.

  • Статус верифікації: Не верифікований
  • Рівень залученості (ER): Середній показник залученості аудиторії становить 8.88%. Протягом перших 24 годин після публікації контент зазвичай збирає 6.13% реакцій від загальної кількості підписників.
  • Охоплення публікацій: В середньому кожен допис отримує 4 458 переглядів. Протягом першої доби публікація в середньому набирає 3 081 переглядів.
  • Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 31.
  • Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, контекст, openai, архитектура, deepseek.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Завдяки високій частоті оновлень (останні дані отримано 20 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

50 258
Підписники
+1124 години
+637 днів
+1230 день
Архів дописів
GOT (General OCR Theory) - 580M модель OCR-2.0, которая теперь доступна на ▪ Модель: https://huggingface.co/ucaslcl/GOT-OCR2_
GOT (General OCR Theory) - 580M модель OCR-2.0, которая теперь доступна на ▪ Модель: https://huggingface.co/ucaslcl/GOT-OCR2_0 ▪ Github: https://github.com/Ucas-HaoranWei/GOT-OCR2.0/ @data_analysis_ml

Научитесь эффективно использовать нейросети в своей работе. Приглашаем на бесплатный мини-курс Skillbox «Data Science с нуля:
Научитесь эффективно использовать нейросети в своей работе. Приглашаем на бесплатный мини-курс Skillbox «Data Science с нуля: пробуем профессии на практике за 5 дней». Окунитесь в сферу IT и решите, какая специальность вам ближе. 🎁 Регистрация по ссылке: https://epic.st/ieV_x?erid=2VtzqvNvntX Чем займётесь на мини-курсе? Узнаете, где востребована наука о данных, и разберётесь в различиях её основных направлений. Освоите азы главного языка Data Science — Python, а также визуализируете с помощью него данные. Изучите базовые конструкции языка SQL и наконец поймёте, как же работают нейросети. В знакомстве с профессиями вас будет сопровождать Анастасия Борнева — руководитель направления по исследованию данных в «Сбере». В финале мини-курса в прямом эфире она разберёт практические задания и ответит на все вопросы. 🎉 Все участники получат крутые бонусы и подарки! Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

🤖 Microsoft представляет Windows Agent Arena Инструмент для оценки мультимодальных агентов Работающих с ОС Windows Windows Agent Arena: среда, ориентированная исключительно на Windows, где агенты могут свободно работать в реальных задачах и использовать тот же широкий спектр приложений, инструментов и веб-браузеров, которые доступны пользователям при работе. Это адаптарованный фреймворк OSWorld (Xie et al., 2024) для создания 150+ разнообразных задач Windows в различных областях, требующих от агентов способностей к планированию, пониманию происходящего на экране пк и применение инструментов для реальных задач. huggingface.co/papers/2409.08264 @data_analysis_ml

🏆 Российский AutoML побеждает на международной арене Команда “LightAutoML testers” победила в международном соревновании Kaggle AutoML Grand Prix! Наши ребята: Александр Рыжков, Дмитрий Симаков, Ринчин Дамдинов и Иван Глебов с помощью решений на основе LightAutoML обошли известных конкурентов по индустрии, включая команды из Amazon и H2O! 🚀 LightAutoML - бесплатный и открытый инструмент Ключом к успеху стала open-source библиотека LightAutoML (LAMA), которая автоматизирует построение моделей машинного обучения. Благодаря использованию библиотеки ускоряется построение моделей и, зачастую, повышается качество. Инструмент подойдет как новичкам, так и профессионалам - решение можно получить как в несколько строк, так и с полной кастомизацией. 🌍 Kaggle AutoML Grand Prix 2024 Это - онлайн соревнование, приуроченное к ежегодной международной конференции International Conference on Automated Machine Learning, которая в этом году пройдет в Париже. Соревнование проходило на Kaggle (самой масштабной мировой платформе для соревнований по анализу данных) в 5 этапов, в каждом из которых было необходимо создать качественную модель машинного обучения всего за 24 часа. 🎓 Делимся опытом Хотите узнать секреты победителей? Не пропустите вебинар, где команда расскажет о своих решениях и ответит на ваши вопросы! Он пройдет в 17:30 уже сегодня в канале @lightautoml!

Repost from Machinelearning
Новостной дайджест ✔️ Поколение Z будет чаще использовать ИИ для покупок на предстоящих праздниках. Согласно опросу, проведенному компанией Fiverr, розничные продавцы разрабатывают стратегии по привлечению новых покупателей, особенно из поколения Z (термин, применяемый в мире для поколения людей, родившихся, по разным классификациям, примерно с середины 1990-х до начала 2010-х годов), с помощью ИИ. Более половины опрошенных покупателей поколения Z планируют использовать ИИ в качестве помощника по покупкам к Новому Году. Например, некоторые используют ChatGPT для поиска лучших цен или генерации идей подарков. Розничные продавцы уверены, что эти функции захватят покупательские привычки поколения Z, и планируют инвестировать в ИИ. 70% предприятий планируют инвестировать в ИИ, 39% увеличивают свои расходы на рекламу в социальных сетях, а 35% инвестируют в маркетинговые стратегии с привлечением инфлюэнсеров. cbsnews.com ✔️ Audible планирует создавать голосовые копии дикторов аудиокниг. Audible запустил бета-версию сервиса, который позволяет озвучивать книги с помощью синтеза речи, используя голос диктора. Сервис позволит авторам создавать реплики собственного голоса с помощью ИИ, что позволит им браться за большее количество проектов и увеличить свой доход. В данный момент бета-версия доступна только в США для ограниченного числа рассказчиков, и Audible планирует вскоре предоставить доступ к ней владельцам авторских прав книг. Audible обещает, что будет тщательно отслеживать влияние этой технологии сообщество. acx.com ✔️ ell: Библиотека программирования LLM. ell - это легкая библиотека промпт-проектирования, которая оперирует промптами как функциями. После многих лет создания и использования языковых моделей в OpenAI и в экосистеме стартапов, ell была выпущена в открытый доступ. Она разработана на основе принципов, которые делают работу с промптами более структурированной и эффективной.  ell позволяет создавать "language model program" (LMP), которые представляют собой функции, генерирующие промпты для языковых моделей. В ell есть инструменты для отслеживания, управления версиями и визуализации. Библиотека поддерживает мультимодальность: работает с текстом, изображениями, аудио и видео. ell старается быть максимально легкой и не интрузивной, не требуя от разработчиков менять свой стиль программирования. docs.ell.so ✔️ Loopy: генеративная модель портретного видео на основе аудио. Loopy - разработка Bytedance, которая генерирует анимированные аватары на основе аудиозаписи с липсинком и угловой адаптацией. Модель способна создавать реалистичные движения головы, мимику и движения, связанные с эмоциями. Loopy не требует ручного указания шаблонов движения, это позволяет создавать более реалистичные аватары для разных сценариев. Она может генерировать движения в зависимости от аудиовхода, например, быстрые, спокойные или пение. Модель также работает с изображениями в профиль и реальными портретами. Информации о релизе кода и доступности модели в опен-сорсе не публиковалось. Пейпер. Демо. loopyavatar.github.io ✔️ Туториал: Использование PostgreSQL в качестве векторной базы данных для RAG. В туториале показан пошаговый сценарий к созданию векторной базы данных в PostgreSQL для хранения фрагментов текста из нескольких статей Википедии. В нем описывается процесс встраивания фрагментов текста и их сохранения в базе данных вместе с соответствующим заголовком, текстом и URL-адресом статьи. Также приведен пример, как использовать векторное сходство для поиска релевантного контекста из базы данных с учетом запроса пользователя. Как извлеченный контекст используется для дополнения исходного запроса, прежде чем он будет передан в LLM для создания окончательного инференса. infoworld.com @ai_machinelearning_big_data #news #ai #ml

Пофиксил баг — устроил перерыв с бесплатными печеньками, зарелизил новую программу — выпил чай на офисной кухне 😅 Если хочешь получать реальные бонусы и признание коллег — приходи в Сбер. Обещаем, у тебя будут только масштабные и интересные таски, а ещё ты станешь частью сообщества амбициозных и классных IT-специалистов. Прокачивай скилы за счёт банка, получай премии и пользуйся ДМС с первого дня работы. Но и печеньки у нас тоже есть! 😉 Звучит заманчиво? Присоединяйся!

🤖Deep mind выпустил 2️⃣ новые системы искусственного интеллекта для робототехники: 🤖 ALOHA Unleashed для выполнения задач манипулирования двумя руками 🦾 DemoStart для управления роботизированной рукой. Они научились выполнять целый ряд действий, требующих ловкости рук. 🧵Релиз: https://deepmind.google/discover/blog/advances-in-robot-dexterity/

Repost from Machinelearning
⚡️ OpenAI релизнули новую модель OpenAI o1, которая в разы мощнее GPT-4o, Главная фишка - это цепочка рассуждений (CoT) котор
⚡️ OpenAI релизнули новую модель OpenAI o1, которая в разы мощнее GPT-4o, Главная фишка - это цепочка рассуждений (CoT) которую выстраивает алгоритм прежде, чем дать ответ. Заявлено, что модель будет сильно лучше писать код и понимать физику мира Тот самый секретны проект, над которым так долго работала компания. Доступ обещают дать уже сегодня. @ai_machinelearning_big_data #openai #chatgpt

Agent Workflow Memory Интрумент, который значительно улучшает базовые результаты агентов на 24,6 % и 51,1 % относительного по
Agent Workflow Memory Интрумент, который значительно улучшает базовые результаты агентов на 24,6 % и 51,1 % относительного показателя успешности на бенчмарках Mind2Web и WebArena, уменьшая при этом количество шагов, необходимых для успешного решения задач. репозиторий: https://github.com/zorazrw/agent-workflow-memory abs: https://arxiv.org/abs/2409.07429 @data_analysis_ml

🎉МТС Web Services запустили подкаст PRO Данные — о больших данных в облаках! 🌟В первом выпуске гости обсудили облачные хран
🎉МТС Web Services запустили подкаст PRO Данные — о больших данных в облаках! 🌟В первом выпуске гости обсудили облачные хранилища, их возможности и зачем они нужны бизнесу. Участники: 🌟Крестина Андреева, руководитель центра Data MTС Web Services 🌟Антон Близгарев, директор по развитию облачных продуктов Arenadata 🌟Максим Ситников, ведущий выпуска 📊 Количество данных растёт экспоненциально: расширять физические системы становится очень дорого, локальное хранение перестаёт быть рентабельным. Размещение в облаке серьёзно удешевляет хранение и переносит затраты из капитальных в операционные. А ещё позволяет добиться нужной производительности и модернизировать хранилища on-prem, которые «так исторически сложились». 🎙 Другие плюсы хранения данных в облаке, тенденции развития индустрии и интересные инсайты — в подкасте! Смотрите и слушайте где удобно. 🎼VK видео 🎼Mave 🎼Строки 🎼Яндекс.Музыка 🎼Apple Podcasts Реклама. Информация о рекламодателе.

🪨 Google представляет GenMS: генеративный иерархический поиск материалов Инструмент для управляемой генерации кристаллических структур. GenMS использует графическую нейронную сеть для прогнозирования свойств (например, энергии образования) генерируемых кристаллических структур. Эксперименты показывают, что GenMS превосходит другие альтернативыные модели для генераций как в удовлетворении запросов пользователей, так и в генерации новых низкоэнергетических структур. GenMS способна генерировать обычные кристаллические структуры, такие как двойные перовскиты (сравнительно редкий для поверхности Земли минерал, титанат кальция. Эмпирическая формула: CaTiO3. Был впервые обнаружен в 1839 году на Урале; назван в честь русского государственного и военного деятеля сенатора Льва Перовского) или шпинели (минерал кубической сингонии, смешанный оксид магния и алюминия MgAl2O4. Бывает окрашен минеральными примесями в различные цвета: бурый, чёрный, розовый, красный, синий.), исключительно на основе данных естественного языка и, следовательно, может стать основой для создания более сложных структур для изучения. ▪проект: https://generative-materials.github.io/genms/abs: https://arxiv.org/abs/2409.06762 @data_analysis_ml

🔍 OCR-2.0 на подходе, генеративный ИИ и мультимодальные LLM станут его основой! GOT (General OCR Theory) - это модель 580M O
+1
🔍 OCR-2.0 на подходе, генеративный ИИ и мультимодальные LLM станут его основой! GOT (General OCR Theory) - это модель 580M OCR-2.0, превосходящая все существующие методы оптического распознавания символов. GOT состоит из Vision-Encoder для преобразования изображений в трансформеры изображений, а затем токены и для распознавания OCR в различных форматах (например, обычный текст, markdown, Mathpix). GOT разработан для обработки сложных документов, таких как громадные таблици, формулы и геометрические фигуры. Реализация 1️⃣Vision Предварительное обучение кодировщика: Кодировщик VitDet 2️⃣ Совместное обучение: Кодер соединен с декодером (Qwen-0.5B), 3️⃣ Фантюнинг модели на конкретных задачах 🧠 Encoder-Decoder с 80 М (VitDet) и 500 М (Qwen2) с контекстом 8k 🥇Достигает 0,035 Расстояние Левенштейна (метрика, измеряющая по модулю разность между двумя последовательностями символов.) и оценка BLEU 0,972 для обычного OCR 📊 Превосходит LLaVA-NeXT и Qwen-VL-Max в распознавании текстов документов и сцен 🧮 Может извлекать формулы LaTeX из Arxiv и конвертировать их в формат Mathpix 📃 Поддерживает динамическое разрешение и многостраничный OCR 🖼️ Принимает разрешение до 1024x1024 ▪Статья: https://huggingface.co/papers/2409.01704Github (обещают скоро): https://github.com/Ucas-HaoranWei/GOT-OCR2.0 @data_analysis_ml

🖥 Tato: Terminal Text Effects Полезный инструмент для форматирования файлов на Python, который уделяет внимание организации кода в четыре основные секции: импорты, константы, классы и функции. В отличие от других автоформатеров, ориентированных на выравнивание и оформление кода, Tato делает акцент на упорядочивании структуры файла, что повышает его читаемость и упрощает работу с вашим кодом. #opensource #python #terminal #полезныйсофт ▪ Github @data_analysis_ml

✔️ Open-MAGVIT2, семейство авторегрессионных моделей генерации изображений от 300M до 1,5B. В рамках проекта Open-MAGVIT2 соз
✔️ Open-MAGVIT2, семейство авторегрессионных моделей генерации изображений от 300M до 1,5B. В рамках проекта Open-MAGVIT2 создается открытая копия токенизатора MAGVIT-v2 компании Google и достигается SOTA производительности (1.17 rFID) на ImageNet. ▪GithubHf @data_analysis_ml

Ищем людей, которые пройдут по нехоженым тропам трэвел-теха и предложат оригинальные решения. Собираемся на О! Хакатоне — мер
Ищем людей, которые пройдут по нехоженым тропам трэвел-теха и предложат оригинальные решения. Собираемся на О! Хакатоне — мероприятии от Островка с призовым фондом в один миллион рублей. Тебя ждут задания на двух треках: 👉🏻 динамическое ценообразование, 👉🏻 система ранжирования отелей. Также можно будет посетить лекции, мок-интервью и AMA-сессии с разработчиками Островка. Все активности пройдут в онлайн-формате с 28 сентября по 5 октября 2024 года. Участвовать можно из любой точки мира. Регистрируйся по ссылке до 19 сентября и стань автором лучшего тревел-тех-решения.

🔥 Новая модель Qwen2-VL-7B Instruct с точностью *100 %* извлекает текст из этого рукописного документа. Это первая открытая
🔥 Новая модель Qwen2-VL-7B Instruct с точностью *100 %* извлекает текст из этого рукописного документа. Это первая открытая весовая модель (Apache 2.0), которую я видел настолько точным OCR. https://huggingface.co/spaces/GanymedeNil/Qwen2-VL-7B @data_analysis_ml

🔥 Новая модель Qwen2-VL-7B Instruct с точностью *100 %* извлекает текст из этого рукописного документа. Это первая открытая
🔥 Новая модель Qwen2-VL-7B Instruct с точностью *100 %* извлекает текст из этого рукописного документа. Это первая открытая весовая модель (Apache 2.0), которую я видел настолько точным OCR. https://huggingface.co/spaces/GanymedeNil/Qwen2-VL-7B @data_analysis_ml

Попробуй написать свою имплементацию 🔹Изучите популярный алгоритм коллаборативной фильтрации и примените его на практике уро
Попробуй написать свою имплементацию 🔹Изучите популярный алгоритм коллаборативной фильтрации и примените его на практике урока «Библиотека Surprise для коллаборативных рекомендательных систем» от Otus. Рассмотрим основные принципы построения рекомендательных систем ✅ Практика: Построение рекомендательной системы с помощью библиотеки surprise. Урок приурочен продвинутому курсу «Machine Learning. Advanced» от Otus. 👉 Регистрация и подробности: https://otus.pw/OWvm/?erid=LjN8K94zC

✔ xLAM: семейство больших моделей действий для расширения возможностей систем агентов ИИ Серия больших моделей действий от Sa
xLAM: семейство больших моделей действий для расширения возможностей систем агентов ИИ Серия больших моделей действий от Salesforce, предназначенных для задач агентов ИИ. Включает пять моделей с плотной и смешанной экспертной архитектурой, варьирующейся от 1B до 8x22B параметров. По использованию инструментов превосходит GPT-4, Claude-3 и многие другие модели. Статья: https://arxiv.org/abs/2409.03215Модели: https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4 @data_analysis_ml

Когда ментор Слёрма Николай Марков решил стать Data-инженером, он не представлял, какие сюрпризы его ждут в профессии. А участники первого реалити-шоу про Data-инженеров уже успели прочувствовать эту атмосферу. От неожиданных сбоев в коде до неуловимых багов — они испытали на себе вызовы, которые стоят за работой с большими данными. Кто смог раскрыть потенциал в нашей гонке, а кто слился после первых заданий? 👉🏻 Переходите, чтобы узнать, кто готов идти до конца и как стать Data-инженером Внутри — гайд «Инструменты Data-специалиста», Roadmap для начинающего Data-инженера и ещё много полезного — статьи, ссылки, рекомендации и бесплатные вебинары 👉🏻 @gdedata Реклама. ИП Аердинов Н.В. ИНН 638103515932 erid: LjN8K97oM