Data Secrets

رفتن به کانال در Telegram

Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

نمایش بیشتر

شبکه:AI Insider روسيا6 168 فناوری و برنامه‌ها1 406...

📈 تحلیل کانال تلگرام Data Secrets

کانال Data Secrets (@data_secrets) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 90 794 مشترک است و جایگاه 1 406 را در دسته فناوری و برنامه‌ها و رتبه 6 168 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 90 794 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 30 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 572 و در ۲۴ ساعت گذشته برابر 8 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید شده (به صورت رسمی توسط تلگرام)
نرخ تعامل (ER): میانگین تعامل مخاطب 26.18% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 19.14% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 23 775 بازدید دریافت می‌کند. در اولین روز معمولاً 17 377 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 311 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند claude, openai, контекст, стартап, llm تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 01 ژوئیه, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

90 794

مشترکین

+824 ساعت

+1957 روز

+57230 روز

23 775

نمایش های پست

~ 17 37724 ساعت

~ 19 12548 ساعت

26.18%

نرخ مشارکت

~ 4

پست های در روز

Ads index

beta

آرشیو پست ها

90 797

Repost from Data Secrets | Карьера

Ой-ой, кажется Цукерберг вновь навел шумиху со своей политикой найма. На этот раз он увольняет 600 человек в подразделении Superintelligence Labs В компании решили уволить такое количество сотрудников, чтобы «опередить своих соперников в гонке за ИИ».

"Уменьшая размер нашей команды, мы уменьшаем время для принятия решений и увеличиваем влияние каждого сотрудника, - написал Александр Ванг в записке для коллег.

Есть одно утешение для уволенных сотрудников: Meta активно поощрает бывших коллег устраиваться в другие подразделения. Хочется ли им оставаться в компании после такого увольнения – уже другой вопрос.

90 797

Лол.

90 797

Очередной скандал с участием OpenAI В начале сентября по Интернету ходила жуткая история о 16-летнем подростке Адаме, который покончил с собой после общения с ChatGPT. Его родители подали на стартап в суд. ChatGPT вел с Адамом длительные депрессивные беседы, обсуждал с ним различные варианты и способы самоубийства, предоставлял технические инструкции и уточнял детали процесса. В отдельных диалогах чат-бот помогал подростку сочинять предсмертную записку. Подробнее о произошедшем мы писали тут. Теперь история обрастает новыми неприятными подробностями. Оказывается, в ответ на иск родителей Адама юристы стартапа отправили им запрос с требованием предоставить полный список гостей на его мемориальной церемонии, а также любые фотографии, видео и тексты произнесенных речей. Юристы семьи говорят, что это намеренное давление, и что таким образом OpenAI пытаются идентифицировать ближайших друзей и родственников Адама для возможных судебных допросов, чтобы построить свою линию защиты. Вообще-то это часто считается нормой, но здесь выглядит максимальным вторжением в частную жизнь и даже нарушает некоторые права скорбящих.

90 797

Вы не готовы к этой новости, но у Ильи Суцкевера выйдет своя коллекция одежды 🐄 Давайте начнем с предыстории. Есть такая известная исследовательница Карина Нгуен. Некотрое время она работала на очень высокой позиции в Anthropic, а потом возглавляля направление исследований и продуктовой разработки в области ИИ-интерфейсов в OpenAI. В частности, она занималась проектами ChatGPT Canvas, Tasks, серией o1–o4, а также обучением с подкреплением. Так вот примерно неделю назад она объявила, что уходит из стартапа чтобы открыть свой... модный дом, посвященный ИИ. Карина назвала его Maison AGI и объявила, что будет создавать "культурные артефакты эпохи искусственного интеллекта". Карьерный путь что надо. Сегодня Maison AGI выпустила первый дроп своей первой коллекции, разработанной, как оказалось, совместно с Ильей Суцкевером. Сейчас доступно три футболки: The Gaze, Multi-Head и Attention. Вы только посмотрите на этот дизайн. Кстати, глаз на футболке The Gaze, судя по рекламе, срисован имено с глаза Ильи. А еще в коллекцию войдет та самая панамка, созданная по образцу его головы 😐 В удивительное время живем https://www.maisonagi.com/shop

90 797

Как внедрить GenAI в бизнесе? 1. Отбор инициатив: выберите 1-3 направления деятельности компании, в которые будет внедряться GenAI 2. Сужение воронки: составьте список топ-инициатив по выбранным направлениям с предполагаемыми эффектами 3. Фрейминг инициатив: проработайте инициативы с верхнего уровня на средний, составляя непосредственный план работ 4. Быстрое прототипирование: создайте модель и проведите тестирование на узких задачах, проводя доработку по мере необходимости 5. Создание MVP: интегрируйте решение с корпоративными ИТ-системами, отловите ошибки и дообучите модель на реальных данных Весь процесс можно завершить менее чем за полгода. Помните, что сегодня зеленый свет получают те проекты, которые достигают обозримых эффектов не в течение лет, а в течение месяцев! Если вы хотите интегрировать GenAI в ваш бизнес, но не знаете, с чего начать и как сделать эту работу системной — переходите в канал AXENIX (экс-Аксенчер), где эксперты в ИТ-консалтинге мирового уровня детально рассказывают обо всех аспектах внедрения искусственного интеллекта в разные сферы бизнесы, делятся крутыми кейсами, проводят интересные опросы и анонсируют эксклюзивные мероприятия по GenAI 🔥 Поднимите свой бизнес к новым вершинам с AXENIX! Реклама. ООО «Акстим Тех». ИНН 6950259732. erid: 2Vtzqw8Vn5B

90 797

Bloomberg пишут, что ChatGPT Atlas все еще не сильно похож на убийцу Chrome Во-первых, после выхода ИИ-браузера от OpenAI у Alphabet даже не сильно обвалились акции: всего на 2.2% – вполне себе рутинно. Во-вторых, такие ИИ-браузеры все еще (а) не бесплатные и (б) работают медленно и с запинками. Капчи, авторизации, динамические скрипты, пэйволы и тд – все это пока нерешенные проблемы, хотя стартапы над ними и работают. Это уже не говоря о галлюцинациях и бесконечных подтверждениях действий агента. А когда все эти «если» будут решены, то Google уже, скорее всего, сами добавят агентов в Chrome, и получится абсолютно то же самое. Их доля рынка на протяжении нескольких лет сохранялась на уровне 70%, и вряд ли они планируют от нее отказываться. Кстати, кто-нибудь уже пробовал Atlas? Вам как?

90 797

Quantum Echoes: Google впервые в истории продемонтрировали верифицируемое квантовое превосходство Сегодня в Nature вышла очень громкая статья от Google под названием "Наш алгоритм Quantum Echoes – это большой шаг на пути к реальным прикладным задачам квантовых вычислений". В ней, по сути, описано первое в истории выполнение физически осмысленного и верифицируемого алгоритма на квантовом чипе. Эксперимент провели на чипе Willow. Мы о нем вот тут подробно рассказывали, он тоже в свое время был прорывом. Сам алгоритм называется Quantum Echoes и суть его вот в чем: ➖ В систему из 105 кубитов запускают некоторый сигнал – длинную последовательность операций. Эти операции перемешивают состояния кубитов и создают сложную квантовую суперпозицию. ➖ После этого один конкретный кубит слегка возмущают (например, применяют к нему фазовый сдвиг). Это наш источник ошибки и событие, от которого мы хотим отследить распространение. ➖ Теперь выполняется обратная эволюция: те же самые операции, но в обратном порядке. Если бы возмущения не было, система бы вернулась точно в исходное состояние. Но квантовые вычисления – это хаос, и наш возмущенный кубит может очень быстро заразить остальные. Тогда информацию уже просто так не восстановишь. ➖ После обратной эволюции мы измеряем разницу между исходным состоянием и итоговым. И вот тут кроется главный прорыв: Google доказали, что их система впервые оказалась настолько стабильна, чтобы даже после возмущения сохранять информацию с достаточно точно. Раньше подобное работало только на игрушечных системах до 10 кубитов. 105 кубит – совсем другой уровень. К тому же, на обычных суперкомпьютерах такие вычисления провести уже почти невозможно: это заняло бы в 13000 раз больше времени. А еще это воспроизводимый результат, что само по себе тоже редкость для квантовых систем. Все это значит, что понемногу мы приближаемся к возможности моделировать сложные квантовые явления, от молекул до черных дыр. Например, Google вместе с UC Berkeley уже попробовали запустить Quantum Echoes для моделирования пары молекул на 15 и 28 атомов. Результаты совпали с традиционной НМР-спектроскопией, но дополнительно дали информацию, обычно недоступную НМР. Получится этакий квантовый микроскоп на минималках, который на горизонте может стать абсолютным прорывом в материаловедении и поиске лекарств. www.nature.com/articles/s41586-025-09526-6

90 797

Уже начали появляться прикольные кейсы применения новой DeepSeek OCR Создатели alphaXiv (помните таких?) вот сделали такую вещь: они прогнали через модель 500к+ статей по ИИ и извлекли из таблиц и диаграмм данные о самых популярных бенчмарках и датасетах. Обошлось это всего в 1000 долларов. Для сравнения, с Mistral OCR (которая до этого считалась сотой по цена/качество) процесс встал бы в $7500. Если интересно, получившийся лидерборд можно посмотреть здесь. Проект больше игрушечный, конечно, но как демо модели – занятно. Плюс, это видимо просто разминка. На следующей неделе alphaXiv пообещали релизнуть датасет со статьями с архива, сразу переведенными из pdf в формат markdown (опять же, с помощью дипсика). И вот это уже действительно ультра полезно. Наш разбор статьи про DeepSeek OCR здесь

90 797

🚀 AI Journey Contest 2025: Брось вызов задачам уровня профи в мире ИИ! Участвуй в международном онлайн-соревновании по ИИ и получи возможность побороться за денежный приз! Призовой фонд — 6,5 млн рублей! Выбери один или несколько треков:

🤖 Agent-as-Judge — универсальный «судья», способный оценивать ИИ-тексты. 🧠 Human-centered AI Assistant — персонализированный ассистент на основе GigaChat, имитирующий поведение людей и способный предугадать их предпочтения. Бонус: Участникам предоставляются токены для API + возможность получить дополнительно 1 млн токенов! 💾 GigaMemory — механизм долговременной памяти для LLM, помогающий ассистенту запоминать и использовать важные факты в диалоге.

Не упусти возможность не только прокачать свои скиллы, получить заветную строчку в списке своих достижений и выиграть солидный приз, но и заявить о себе на AI Journey — главной международной конференции по ИИ в России! ➡️ Соревнование заканчивается уже 30 октября. Спеши зарегистрироваться по ссылке.

90 797

Кто код потерял?

90 797

LLMs Can Get Brain Rot: статья о том, что модельки тоже деградируют от думскролинга Исследователи из Техаса выпустили ну очень интересную работу, вызвавшую волну обсуждений. Они показали, что если LLM начать дообучать на низкокачественных данных из соцсетей (коротких, популярных, кликабельных постах), то она начинает терять свои когнитивные способности. Примерно так же, как человек теряет внимание и память, когда слишком много думсерфит. Разбираемся, почему так, с технической точки зрения. По факту, эксперимент был следующий. Взяли Llama 3 8B Instruct и начали дообучать на (а) коротких и очень популярных постах, у которых много лайков, ретвитов и реплаев; и (б) на контенте с низкой смысловой ценностью: кликбейт, конспирология, все такое. После этого замерили метрики и сравнили с результатами до дообучения. Итоги: – Качество ризонинга упало с 74.9 до 57.2 – Понимание длинного контекста – с 84.4 до 52.3 – На элаймент-тестах выяснилось, что у модели развился нарциссизм, макиавеллизм и психопатия Даже после дополнительного тюнинга на чистых данных деградация не исчезала полностью. Но дело в том, что никакого глобального открытия тут нет. Объясняется все это простым сдвигом распределения. При дообучении на коротких, популярных, эмоционально окрашенных твитах модель видит совсем другой статистический ландшафт, чем во время исходного претрейна на книжках, статьях и тд. Это смещает распределение в пространстве эмбеддингов и меняет attention-паттерны. Модель постоянно видит короткие тексты без логической цепочки, и, естественно, маски внимания начинают больше фокусироваться на последних нескольких токенах и терять долгосрочные зависимости, которые раньше и обеспечивали качественный CoT. Градиентная динамика тут тоже играет против нас. Лосс просто-напросто минимизируется за счет поверхностных корреляций, а параметры, отвечающие за долгие причинно-следственные связи, почти не получают обновлений. Вот и получается, что моделька теряет способность длинно рассуждать. Авторы называют этот феномен thought-skipping. Вот так. Просто еще одно доказательство, что данные – наше все. Теперь можно идти дальше листать рилсы ☕️ arxiv.org/pdf/2510.13928

90 797

Пост для всех, кто пишет, что ChatGPT Atlas убил Chrome ChatGPT Atlas – это и есть Chrome. Ну или, точнее, Chromium. Так или иначе, это просто обертка над проектом Google. Сюрприз-сюрприииз 😧

90 797

OpenAI выпустили собственный ИИ-браузер ChatGPT Atlas Если вы пользовались Comet от Perplexity, то вот: это то же самое, но от OpenAI. То есть – глобальный агент, который может как в принципе выполнять за вас какие-то действия в браузере, так и подключаться локально для ответов на вопросы, анализа веб-страниц и тд. Формально, тот же Computer Use, который уже был, но в новой удобной обертке. Интересный момент: у агента будет память, как в ChatGPT. Для более точных ответов он будет пользоваться и предыдущими диалогами в ChatGPT, и собственной историей взаимодействий с юзером. Уже можно скачать на MacOS бесплатно. Скоро обещают завезти и в остальные ОС, включая iOS и Android Погнали тестить, что-ли

90 797

Не совсем про ИИ, но новость интересная: ученые из Массачусетса впервые разработали искусственный нейрон, который работает на мощностях, близких к настоящим нейронам Обычно искусственные нейроны и нейроморфные схемы работают на значительно более высоких напряжениях и потребляют куда больше энергии, чем живые нейроны. С этим связано море ограничений имплантов, например. И вот впервые людям удалось получить устройство, которое работает при напряжении порядка ~0.1В. Это очень близко к биологическому аналогу. Испытания показали, что такой искусственный нейрон может напрямую взаимодействовать с живыми клетками и интерпретировать их состояние. Также, как и реальный нейрон, он реализует фазу интеграции, затем выброс (спайк), затем реполяризацию и рефрактерную паузу. Дискеймер: ни на какой искусственный мозг намека все еще нет. Но шаг большой. Статья в Nature

90 797

Больше 20 мощных LLM 👉 Ждут вас тут До 31 октября провайдер Cloud․ru раздает бесплатный доступ к LLM и AI-моделям в сервисе Evolution Foundation Models. Там есть GigaChat-2-Max, Qwen3-Coder-480B-A35B-Instruct, GLM-4.6, gpt-oss-120b и еще 15+ популярных open source моделей. Они уже готовы к использованию, достаточно подключиться через API, совместимый с OpenAI 😎 Успейте воспользоваться акцией, чтобы протестировать LLM на ваших проектах!

90 797

Все еще недочинили, кстати

90 797

Очень понравился комментарий Андрея Карпаты ко вчерашней статье от DeepSeek Сделали для вас перевод:

Мне достаточно сильно понравилась новая статья про DeepSeek-OCR. Там есть нюансы с датасетом и прочим, но это неважно. Для меня гораздо интереснее (особенно как для CV-инженера, временно притворяющегося NLP-специалистом) вопрос о том, не лучше ли подавать в LLM не текст, а пиксели. Может быть, текстовые токены вообще неудачный и расточительный вариант для инпута? Может, правильнее было бы, если все входы для LLM всегда были изображениями. Даже если у нас чисто текстовый ввод, можно ведь просто отрендерить его и подать как картинку. Получается: – Более высокая степень сжатия информации → короче контекстные окна, выше эффективность. – Более универсальный поток данных → не только текст, но и жирный шрифт, цвет, произвольные изображения и другие визуальные элементы. – Можно использовать bidirectional attention по умолчанию, а не авторегрессию, и это гораздо мощнее. – Можно выкинуть токенизатор! Я уже не раз говорил, насколько ненавижу токенайзеры. Они уродливы, тащат за собой весь ужас Unicode, исторического мусора и даже проблемы безопасности. Токенизация должна умереть. OCR это лишь одна из полезных vision2text задач. Получается, что любую text2text задачу можно превратить в vision2text. Но не наоборот. Теперь мне приходится сдерживать соблазн сделать версию nanochat, которая принимает на вход только изображения

Наш разбор статьи читайте здесь

90 797

Anthropic запустили новый инструмент Claude Life Sciences Это надстройка над существующей экосистемой Claude, предназначенная специально для биомедицинских и фармацевтических задач. По сути, взяли Claude, немного потюнили его на соответствующие задачки (возможно) и прикрутили кучу полезных инструментов. Поддерживается работа с PubMed, PDB и другими огромными базами данных, а также есть интеграция с лабораторными системами ELN и LIMS. И вуаля: вот вам готовый инструмент, которым из коробки могут пользоваться фармацевты. Буквально Claude Code для медиков. Пока платформа еще доступна только ограниченному числу организаций, но с начала 2026 должна выйти в более широкий доступ www.anthropic.com/news/claude-for-life-sciences

90 797

DeepSeek снова выпустили что-то очень интересное: у них вышла OCR модель, но непростая Она не просто распознает текст. Это в какой-то степени система для оптического сжатия контекста. Как работает обычный OCR: получает картинку с текстом или PDF -> распознает символы -> возвращает текст. Что делает DeepSeek OCR: получает документ -> сжимает его как зрительный объект -> восстанавливает в текст. Глобально моделька состоит из двух частей – DeepEncoder и DeepSeek-3B-MoE Decoder. DeepEncoder здесь главная звезда. Он оптически сжимает изображения, превращая его в набор vision токенов. Под капотом тут SAM + CLIP. SAM извлекает главную структуру и символы: буквы, главы, подписи, картинки, формулы. А CLIP добавляет глобальное понимание контекста и того, о чем вообще этот документ. Их выходы затем проходят через сверточное сжатие и вот тут – центральный момент. Свертка уменьшает количество токенов в 10–20 раз, не теряя при этом смысла. То есть вместо 1000 токенов мы получаем, например, 100, а точность при этом сохраняется на уровне 97%. Если сжать в 20 раз – то на уровне 60%. Дальше все в целом как обычно – сжатые визуальные токены отправляются в LLM, и та расшифровывает их в итоговый текст. То есть: DeepSeek по сути придумали, как нам хранить в памяти модели в 10 раз больше информации при том же количестве токенов. DeepSeek-OCR может хранить не сам текст, а его сжатое визуальное представление: например, вместо 10 страниц сырого текста в памяти будет 1 страница его visual эмбеддингов, а информативность при этом не пострадает. Чем вам не замена RAG, например? При этом все это работает в том числе с формулами, сложными структурами, чертежами, картинками и прочим. Полная мультимодальность. Плюс, на практике модель способна обрабатывать 200 000+ страниц в день на одной A100 GPU (ничего себе, как бы). Ну и метрики. На OmniDocBench обходит GOT-OCR2.0, используя 2.5 раз меньше токенов, и превосходит MinerU2.0, используя в 9 раз меньше ресурсов. По факту, SOTA. И по точности, и по эффективности. Все в опенсорсе под лицензией MIT github.com/deepseek-ai/DeepSeek-OCR

90 797

Ситуация в AWS прямо сейчас