uk
Feedback
Data Secrets

Data Secrets

Відкрити в Telegram

Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

Показати більше

📈 Аналітичний огляд Telegram-каналу Data Secrets

Канал Data Secrets (@data_secrets) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 90 794 підписників, посідаючи 1 406 місце в категорії Технології та додатки та 6 168 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 90 794 підписників.

За останніми даними від 30 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на 572, а за останні 24 години на 8, загальне охоплення залишається високим.

  • Статус верифікації: Верифікований (Офіційно підтверджено Telegram)
  • Рівень залученості (ER): Середній показник залученості аудиторії становить 26.18%. Протягом перших 24 годин після публікації контент зазвичай збирає 19.14% реакцій від загальної кількості підписників.
  • Охоплення публікацій: В середньому кожен допис отримує 23 775 переглядів. Протягом першої доби публікація в середньому набирає 17 377 переглядів.
  • Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 311.
  • Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як claude, openai, контекст, стартап, llm.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

Завдяки високій частоті оновлень (останні дані отримано 01 липня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

90 794
Підписники
+824 години
+1957 днів
+57230 день
Архів дописів
Ой-ой, кажется Цукерберг вновь навел шумиху со своей политикой найма. На этот раз он увольняет 600 человек в подразделении Su
Ой-ой, кажется Цукерберг вновь навел шумиху со своей политикой найма. На этот раз он увольняет 600 человек в подразделении Superintelligence Labs В компании решили уволить такое количество сотрудников, чтобы «опередить своих соперников в гонке за ИИ».
"Уменьшая размер нашей команды, мы уменьшаем время для принятия решений и увеличиваем влияние каждого сотрудника, - написал Александр Ванг в записке для коллег.
Есть одно утешение для уволенных сотрудников: Meta активно поощрает бывших коллег устраиваться в другие подразделения. Хочется ли им оставаться в компании после такого увольнения – уже другой вопрос.

Лол.
Лол.

Очередной скандал с участием OpenAI В начале сентября по Интернету ходила жуткая история о 16-летнем подростке Адаме, который
Очередной скандал с участием OpenAI В начале сентября по Интернету ходила жуткая история о 16-летнем подростке Адаме, который покончил с собой после общения с ChatGPT. Его родители подали на стартап в суд. ChatGPT вел с Адамом длительные депрессивные беседы, обсуждал с ним различные варианты и способы самоубийства, предоставлял технические инструкции и уточнял детали процесса. В отдельных диалогах чат-бот помогал подростку сочинять предсмертную записку. Подробнее о произошедшем мы писали тут. Теперь история обрастает новыми неприятными подробностями. Оказывается, в ответ на иск родителей Адама юристы стартапа отправили им запрос с требованием предоставить полный список гостей на его мемориальной церемонии, а также любые фотографии, видео и тексты произнесенных речей. Юристы семьи говорят, что это намеренное давление, и что таким образом OpenAI пытаются идентифицировать ближайших друзей и родственников Адама для возможных судебных допросов, чтобы построить свою линию защиты. Вообще-то это часто считается нормой, но здесь выглядит максимальным вторжением в частную жизнь и даже нарушает некоторые права скорбящих.

Вы не готовы к этой новости, но у Ильи Суцкевера выйдет своя коллекция одежды 🐄 Давайте начнем с предыстории. Есть такая изв
Вы не готовы к этой новости, но у Ильи Суцкевера выйдет своя коллекция одежды 🐄 Давайте начнем с предыстории. Есть такая известная исследовательница Карина Нгуен. Некотрое время она работала на очень высокой позиции в Anthropic, а потом возглавляля направление исследований и продуктовой разработки в области ИИ-интерфейсов в OpenAI. В частности, она занималась проектами ChatGPT Canvas, Tasks, серией o1–o4, а также обучением с подкреплением. Так вот примерно неделю назад она объявила, что уходит из стартапа чтобы открыть свой... модный дом, посвященный ИИ. Карина назвала его Maison AGI и объявила, что будет создавать "культурные артефакты эпохи искусственного интеллекта". Карьерный путь что надо. Сегодня Maison AGI выпустила первый дроп своей первой коллекции, разработанной, как оказалось, совместно с Ильей Суцкевером. Сейчас доступно три футболки: The Gaze, Multi-Head и Attention. Вы только посмотрите на этот дизайн. Кстати, глаз на футболке The Gaze, судя по рекламе, срисован имено с глаза Ильи. А еще в коллекцию войдет та самая панамка, созданная по образцу его головы 😐 В удивительное время живем https://www.maisonagi.com/shop

Как внедрить GenAI в бизнесе? 1. Отбор инициатив: выберите 1-3 направления деятельности компании, в которые будет внедряться
Как внедрить GenAI в бизнесе? 1. Отбор инициатив: выберите 1-3 направления деятельности компании, в которые будет внедряться GenAI 2. Сужение воронки: составьте список топ-инициатив по выбранным направлениям с предполагаемыми эффектами 3. Фрейминг инициатив: проработайте инициативы с верхнего уровня на средний, составляя непосредственный план работ 4. Быстрое прототипирование: создайте модель и проведите тестирование на узких задачах, проводя доработку по мере необходимости 5. Создание MVP: интегрируйте решение с корпоративными ИТ-системами, отловите ошибки и дообучите модель на реальных данных Весь процесс можно завершить менее чем за полгода. Помните, что сегодня зеленый свет получают те проекты, которые достигают обозримых эффектов не в течение лет, а в течение месяцев! Если вы хотите интегрировать GenAI в ваш бизнес, но не знаете, с чего начать и как сделать эту работу системной — переходите в канал AXENIX (экс-Аксенчер), где эксперты в ИТ-консалтинге мирового уровня детально рассказывают обо всех аспектах внедрения искусственного интеллекта в разные сферы бизнесы, делятся крутыми кейсами, проводят интересные опросы и анонсируют эксклюзивные мероприятия по GenAI 🔥 Поднимите свой бизнес к новым вершинам с AXENIX! Реклама. ООО «Акстим Тех». ИНН 6950259732. erid: 2Vtzqw8Vn5B

Bloomberg пишут, что ChatGPT Atlas все еще не сильно похож на убийцу Chrome Во-первых, после выхода ИИ-браузера от OpenAI у A
Bloomberg пишут, что ChatGPT Atlas все еще не сильно похож на убийцу Chrome Во-первых, после выхода ИИ-браузера от OpenAI у Alphabet даже не сильно обвалились акции: всего на 2.2% – вполне себе рутинно. Во-вторых, такие ИИ-браузеры все еще (а) не бесплатные и (б) работают медленно и с запинками. Капчи, авторизации, динамические скрипты, пэйволы и тд – все это пока нерешенные проблемы, хотя стартапы над ними и работают. Это уже не говоря о галлюцинациях и бесконечных подтверждениях действий агента. А когда все эти «если» будут решены, то Google уже, скорее всего, сами добавят агентов в Chrome, и получится абсолютно то же самое. Их доля рынка на протяжении нескольких лет сохранялась на уровне 70%, и вряд ли они планируют от нее отказываться. Кстати, кто-нибудь уже пробовал Atlas? Вам как?

Quantum Echoes: Google впервые в истории продемонтрировали верифицируемое квантовое превосходство Сегодня в Nature вышла очень громкая статья от Google под названием "Наш алгоритм Quantum Echoes – это большой шаг на пути к реальным прикладным задачам квантовых вычислений". В ней, по сути, описано первое в истории выполнение физически осмысленного и верифицируемого алгоритма на квантовом чипе. Эксперимент провели на чипе Willow. Мы о нем вот тут подробно рассказывали, он тоже в свое время был прорывом. Сам алгоритм называется Quantum Echoes и суть его вот в чем: ➖ В систему из 105 кубитов запускают некоторый сигнал – длинную последовательность операций. Эти операции перемешивают состояния кубитов и создают сложную квантовую суперпозицию. ➖ После этого один конкретный кубит слегка возмущают (например, применяют к нему фазовый сдвиг). Это наш источник ошибки и событие, от которого мы хотим отследить распространение. ➖ Теперь выполняется обратная эволюция: те же самые операции, но в обратном порядке. Если бы возмущения не было, система бы вернулась точно в исходное состояние. Но квантовые вычисления – это хаос, и наш возмущенный кубит может очень быстро заразить остальные. Тогда информацию уже просто так не восстановишь. ➖ После обратной эволюции мы измеряем разницу между исходным состоянием и итоговым. И вот тут кроется главный прорыв: Google доказали, что их система впервые оказалась настолько стабильна, чтобы даже после возмущения сохранять информацию с достаточно точно. Раньше подобное работало только на игрушечных системах до 10 кубитов. 105 кубит – совсем другой уровень. К тому же, на обычных суперкомпьютерах такие вычисления провести уже почти невозможно: это заняло бы в 13000 раз больше времени. А еще это воспроизводимый результат, что само по себе тоже редкость для квантовых систем. Все это значит, что понемногу мы приближаемся к возможности моделировать сложные квантовые явления, от молекул до черных дыр. Например, Google вместе с UC Berkeley уже попробовали запустить Quantum Echoes для моделирования пары молекул на 15 и 28 атомов. Результаты совпали с традиционной НМР-спектроскопией, но дополнительно дали информацию, обычно недоступную НМР. Получится этакий квантовый микроскоп на минималках, который на горизонте может стать абсолютным прорывом в материаловедении и поиске лекарств. www.nature.com/articles/s41586-025-09526-6

Уже начали появляться прикольные кейсы применения новой DeepSeek OCR Создатели alphaXiv (помните таких?) вот сделали такую ве
Уже начали появляться прикольные кейсы применения новой DeepSeek OCR Создатели alphaXiv (помните таких?) вот сделали такую вещь: они прогнали через модель 500к+ статей по ИИ и извлекли из таблиц и диаграмм данные о самых популярных бенчмарках и датасетах. Обошлось это всего в 1000 долларов. Для сравнения, с Mistral OCR (которая до этого считалась сотой по цена/качество) процесс встал бы в $7500. Если интересно, получившийся лидерборд можно посмотреть здесь. Проект больше игрушечный, конечно, но как демо модели – занятно. Плюс, это видимо просто разминка. На следующей неделе alphaXiv пообещали релизнуть датасет со статьями с архива, сразу переведенными из pdf в формат markdown (опять же, с помощью дипсика). И вот это уже действительно ультра полезно. Наш разбор статьи про DeepSeek OCR здесь

🚀 AI Journey Contest 2025: Брось вызов задачам уровня профи в мире ИИ! Участвуй в международном онлайн-соревновании по ИИ и
🚀 AI Journey Contest 2025: Брось вызов задачам уровня профи в мире ИИ! Участвуй в международном онлайн-соревновании по ИИ и получи возможность побороться за денежный приз! Призовой фонд — 6,5 млн рублей! Выбери один или несколько треков:
🤖 Agent-as-Judge — универсальный «судья», способный оценивать ИИ-тексты. 🧠 Human-centered AI Assistant — персонализированный ассистент на основе GigaChat, имитирующий поведение людей и способный предугадать их предпочтения. Бонус: Участникам предоставляются токены для API + возможность получить дополнительно 1 млн токенов! 💾 GigaMemory — механизм долговременной памяти для LLM, помогающий ассистенту запоминать и использовать важные факты в диалоге.
Не упусти возможность не только прокачать свои скиллы, получить заветную строчку в списке своих достижений и выиграть солидный приз, но и заявить о себе на AI Journey — главной международной конференции по ИИ в России! ➡️ Соревнование заканчивается уже 30 октября. Спеши зарегистрироваться по ссылке.

Кто код потерял?
Кто код потерял?

LLMs Can Get Brain Rot: статья о том, что модельки тоже деградируют от думскролинга Исследователи из Техаса выпустили ну очен
+2
LLMs Can Get Brain Rot: статья о том, что модельки тоже деградируют от думскролинга Исследователи из Техаса выпустили ну очень интересную работу, вызвавшую волну обсуждений. Они показали, что если LLM начать дообучать на низкокачественных данных из соцсетей (коротких, популярных, кликабельных постах), то она начинает терять свои когнитивные способности. Примерно так же, как человек теряет внимание и память, когда слишком много думсерфит. Разбираемся, почему так, с технической точки зрения. По факту, эксперимент был следующий. Взяли Llama 3 8B Instruct и начали дообучать на (а) коротких и очень популярных постах, у которых много лайков, ретвитов и реплаев; и (б) на контенте с низкой смысловой ценностью: кликбейт, конспирология, все такое. После этого замерили метрики и сравнили с результатами до дообучения. Итоги: – Качество ризонинга упало с 74.9 до 57.2 – Понимание длинного контекста – с 84.4 до 52.3 – На элаймент-тестах выяснилось, что у модели развился нарциссизм, макиавеллизм и психопатия Даже после дополнительного тюнинга на чистых данных деградация не исчезала полностью. Но дело в том, что никакого глобального открытия тут нет. Объясняется все это простым сдвигом распределения. При дообучении на коротких, популярных, эмоционально окрашенных твитах модель видит совсем другой статистический ландшафт, чем во время исходного претрейна на книжках, статьях и тд. Это смещает распределение в пространстве эмбеддингов и меняет attention-паттерны. Модель постоянно видит короткие тексты без логической цепочки, и, естественно, маски внимания начинают больше фокусироваться на последних нескольких токенах и терять долгосрочные зависимости, которые раньше и обеспечивали качественный CoT. Градиентная динамика тут тоже играет против нас. Лосс просто-напросто минимизируется за счет поверхностных корреляций, а параметры, отвечающие за долгие причинно-следственные связи, почти не получают обновлений. Вот и получается, что моделька теряет способность длинно рассуждать. Авторы называют этот феномен thought-skipping. Вот так. Просто еще одно доказательство, что данные – наше все. Теперь можно идти дальше листать рилсы ☕️ arxiv.org/pdf/2510.13928

Пост для всех, кто пишет, что ChatGPT Atlas убил Chrome ChatGPT Atlas – это и есть Chrome. Ну или, точнее, Chromium. Так или
Пост для всех, кто пишет, что ChatGPT Atlas убил Chrome ChatGPT Atlas – это и есть Chrome. Ну или, точнее, Chromium. Так или иначе, это просто обертка над проектом Google. Сюрприз-сюрприииз 😧

OpenAI выпустили собственный ИИ-браузер ChatGPT Atlas Если вы пользовались Comet от Perplexity, то вот: это то же самое, но от OpenAI. То есть – глобальный агент, который может как в принципе выполнять за вас какие-то действия в браузере, так и подключаться локально для ответов на вопросы, анализа веб-страниц и тд. Формально, тот же Computer Use, который уже был, но в новой удобной обертке. Интересный момент: у агента будет память, как в ChatGPT. Для более точных ответов он будет пользоваться и предыдущими диалогами в ChatGPT, и собственной историей взаимодействий с юзером. Уже можно скачать на MacOS бесплатно. Скоро обещают завезти и в остальные ОС, включая iOS и Android Погнали тестить, что-ли

Не совсем про ИИ, но новость интересная: ученые из Массачусетса впервые разработали искусственный нейрон, который работает на
Не совсем про ИИ, но новость интересная: ученые из Массачусетса впервые разработали искусственный нейрон, который работает на мощностях, близких к настоящим нейронам Обычно искусственные нейроны и нейроморфные схемы работают на значительно более высоких напряжениях и потребляют куда больше энергии, чем живые нейроны. С этим связано море ограничений имплантов, например. И вот впервые людям удалось получить устройство, которое работает при напряжении порядка ~0.1В. Это очень близко к биологическому аналогу. Испытания показали, что такой искусственный нейрон может напрямую взаимодействовать с живыми клетками и интерпретировать их состояние. Также, как и реальный нейрон, он реализует фазу интеграции, затем выброс (спайк), затем реполяризацию и рефрактерную паузу. Дискеймер: ни на какой искусственный мозг намека все еще нет. Но шаг большой. Статья в Nature

Больше 20 мощных LLM 👉 Ждут вас тут До 31 октября провайдер Cloud․ru раздает бесплатный доступ к LLM и AI-моделям в сервисе
Больше 20 мощных LLM 👉 Ждут вас тут До 31 октября провайдер Cloud․ru раздает бесплатный доступ к LLM и AI-моделям в сервисе Evolution Foundation Models. Там есть GigaChat-2-Max, Qwen3-Coder-480B-A35B-Instruct, GLM-4.6, gpt-oss-120b и еще 15+ популярных open source моделей. Они уже готовы к использованию, достаточно подключиться через API, совместимый с OpenAI 😎 Успейте воспользоваться акцией, чтобы протестировать LLM на ваших проектах!

Все еще недочинили, кстати
Все еще недочинили, кстати

Очень понравился комментарий Андрея Карпаты ко вчерашней статье от DeepSeek Сделали для вас перевод: Мне достаточно сильно по
Очень понравился комментарий Андрея Карпаты ко вчерашней статье от DeepSeek Сделали для вас перевод:
Мне достаточно сильно понравилась новая статья про DeepSeek-OCR. Там есть нюансы с датасетом и прочим, но это неважно. Для меня гораздо интереснее (особенно как для CV-инженера, временно притворяющегося NLP-специалистом) вопрос о том, не лучше ли подавать в LLM не текст, а пиксели. Может быть, текстовые токены вообще неудачный и расточительный вариант для инпута? Может, правильнее было бы, если все входы для LLM всегда были изображениями. Даже если у нас чисто текстовый ввод, можно ведь просто отрендерить его и подать как картинку. Получается: – Более высокая степень сжатия информации → короче контекстные окна, выше эффективность. – Более универсальный поток данных → не только текст, но и жирный шрифт, цвет, произвольные изображения и другие визуальные элементы. – Можно использовать bidirectional attention по умолчанию, а не авторегрессию, и это гораздо мощнее. – Можно выкинуть токенизатор! Я уже не раз говорил, насколько ненавижу токенайзеры. Они уродливы, тащат за собой весь ужас Unicode, исторического мусора и даже проблемы безопасности. Токенизация должна умереть. OCR это лишь одна из полезных vision2text задач. Получается, что любую text2text задачу можно превратить в vision2text. Но не наоборот. Теперь мне приходится сдерживать соблазн сделать версию nanochat, которая принимает на вход только изображения
Наш разбор статьи читайте здесь

Anthropic запустили новый инструмент Claude Life Sciences Это надстройка над существующей экосистемой Claude, предназначенная специально для биомедицинских и фармацевтических задач. По сути, взяли Claude, немного потюнили его на соответствующие задачки (возможно) и прикрутили кучу полезных инструментов. Поддерживается работа с PubMed, PDB и другими огромными базами данных, а также есть интеграция с лабораторными системами ELN и LIMS. И вуаля: вот вам готовый инструмент, которым из коробки могут пользоваться фармацевты. Буквально Claude Code для медиков. Пока платформа еще доступна только ограниченному числу организаций, но с начала 2026 должна выйти в более широкий доступ www.anthropic.com/news/claude-for-life-sciences

DeepSeek снова выпустили что-то очень интересное: у них вышла OCR модель, но непростая Она не просто распознает текст. Это в
+2
DeepSeek снова выпустили что-то очень интересное: у них вышла OCR модель, но непростая Она не просто распознает текст. Это в какой-то степени система для оптического сжатия контекста. Как работает обычный OCR: получает картинку с текстом или PDF -> распознает символы -> возвращает текст. Что делает DeepSeek OCR: получает документ -> сжимает его как зрительный объект -> восстанавливает в текст. Глобально моделька состоит из двух частей – DeepEncoder и DeepSeek-3B-MoE Decoder. DeepEncoder здесь главная звезда. Он оптически сжимает изображения, превращая его в набор vision токенов. Под капотом тут SAM + CLIP. SAM извлекает главную структуру и символы: буквы, главы, подписи, картинки, формулы. А CLIP добавляет глобальное понимание контекста и того, о чем вообще этот документ. Их выходы затем проходят через сверточное сжатие и вот тут – центральный момент. Свертка уменьшает количество токенов в 10–20 раз, не теряя при этом смысла. То есть вместо 1000 токенов мы получаем, например, 100, а точность при этом сохраняется на уровне 97%. Если сжать в 20 раз – то на уровне 60%. Дальше все в целом как обычно – сжатые визуальные токены отправляются в LLM, и та расшифровывает их в итоговый текст. То есть: DeepSeek по сути придумали, как нам хранить в памяти модели в 10 раз больше информации при том же количестве токенов. DeepSeek-OCR может хранить не сам текст, а его сжатое визуальное представление: например, вместо 10 страниц сырого текста в памяти будет 1 страница его visual эмбеддингов, а информативность при этом не пострадает. Чем вам не замена RAG, например? При этом все это работает в том числе с формулами, сложными структурами, чертежами, картинками и прочим. Полная мультимодальность. Плюс, на практике модель способна обрабатывать 200 000+ страниц в день на одной A100 GPU (ничего себе, как бы). Ну и метрики. На OmniDocBench обходит GOT-OCR2.0, используя 2.5 раз меньше токенов, и превосходит MinerU2.0, используя в 9 раз меньше ресурсов. По факту, SOTA. И по точности, и по эффективности. Все в опенсорсе под лицензией MIT github.com/deepseek-ai/DeepSeek-OCR

Ситуация в AWS прямо сейчас
Ситуация в AWS прямо сейчас

Data Secrets - Статистика та аналітика Telegram каналу @data_secrets