Datalytics

رفتن به کانال در Telegram

Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное Автор – @ax_makarov Отдельный канал про ChatGPT и его практическое применение — @ai_forge Чат канала — @pydata_chat Вакансии — @data_hr

نمایش بیشتر

روسيا72 672 فناوری و برنامه‌ها13 357

8 851

مشترکین

اطلاعاتی وجود ندارد24 ساعت

+77 روز

-3430 روز

922

نمایش های پست

~ 40324 ساعت

~ 46548 ساعت

10.41%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

8 851

🔥 Okko Analysts’ One Day Offer* — твой шанс попасть в команду аналитиков Okko 🛎️ Регистрация скоро закроется: подать заявку можно только до 28 июня, 23:59 МСК. 😁 Okko ищет продуктовых и дата-аналитиков уровня middle+ и senior. ✅Подходит, если у тебя есть опыт в аналитике от 2 лет, ты уверенно работаешь с SQL, Python, BI-инструментами, умеешь быть партнёром для бизнеса и понимаешь влияние задач на продукт. Твои возможности в Okko: 👉 Работа в удобном формате — гибрид или удалённо 👉 Забота о здоровье — ДМС со стоматологией 👉 Льготные условия ипотеки в рамках зарплатного проекта 👉 Задачи, которые влияют на миллионы зрителей 👉 Комьюнити, внутренние активности и многое другое 📎Подробнее об условиях, этапах интервью и возможностях работы в Okko — на сайте. 📌 Подай заявку до 28 июня, 23:59 МСК по ссылке. * Okko Analysts’ One Day Offer — формат быстрого найма для аналитиков от Okko.

8 851

Гарантируем вам трудоустройство в аналитике уже в 2026 году! Ребята, если вы давно смотрите в сторону аналитики или хотите прокачаться как специалист, для вас есть классная новость: сейчас ваше время сделать первый шаг! Симулейтив гарантируют ваше трудоустройство и берут оплату только после вашего трудоустройства! Данных вокруг всё больше, бизнесу нужны люди, которые умеют превращать цифры в решения. И именно этим занимаются аналитики данных - профессия, которая стабильно востребована уже много лет и не собирается сдавать позиции. Курс-симулятор «Аналитик данных» от Simulative Что внутри: ➖12 модулей: SQL, Python, BI, статистика, продуктовые метрики и не только; ➖Практика на реальных кейсах, которые помогут нарастить ваше портфолио; ➖Свободный формат, можно легко совмещать с другой учебой или работой; ➖Наставники, которые реально помогают и ведут за руку; ➖Рекомендации по составлению резюме и поиску работы; ➖Возможность трудоустройства сразу после курса. Кому будет полезно: 1. Тем, кто хочет войти в аналитику с нуля; 2. Тем, кто устал от своей текущей работы и хочет получить новую профессию; 3. Тем, кто начал учиться самостоятельно, но нуждается в системном обучении. Simulative сейчас дают возможность получить грант на обучение и гарантию трудоустройство своих студентов! 🔗 ПОЛУЧИТЬ ГРАНТ НА ОБУЧЕНИЕ

8 851

Почему AI-агенты ошибаются, даже если у них есть доступ ко всем данным? 🤖 Многие компании уже экспериментируют с AI-агентами для поиска информации, аналитики и работы с корпоративными знаниями. Однако на практике доступ к данным еще не гарантирует качественный результат. Причина часто кроется не в самой модели, а в архитектуре данных: отсутствует семантический слой, бизнес-логика не формализована, а данные не готовы к работе с ИИ. 📆 23 июня в 11:00 мск компания Lasmart приглашает на бесплатный вебинар «Почему 90% данных не готовы к работе с ИИ: архитектурный фундамент AI-агентов». 👨‍💻 Спикер: Павел Хамрин — руководитель AI-направления Lasmart. Более 10 лет занимается внедрением аналитических решений, DWH и BI-систем, развивает практики применения AI в аналитике и работе с данными. В программе вебинара: — почему прямого доступа к данным недостаточно для AI-агентов; — откуда берутся «галлюцинации» при работе с корпоративными данными; — зачем нужен семантический слой; — какие компоненты включает AI-Ready архитектура; — как подготовить DWH, BI и корпоративные данные к работе с ИИ; — практическая дорожная карта внедрения и масштабирования AI-агентов. Вебинар будет полезен CTO, CIO, CDO, руководителям AI-проектов, Head of BI, Head of Analytics, архитекторам данных и специалистам, отвечающим за развитие корпоративной аналитики. 🎁 Бонус участникам — персональный разбор стека данных и рекомендации по подготовке архитектуры для запуска AI-агентов. 🔗 Регистрация по ссылке

8 851

Лучший аналитик — ленивый аналитик Если вы когда-нибудь пользовались Авито, то знаете, что в сервисе есть доставка. Она платная, зато удобная: можно купить вещь в городе на другом краю страны. Чтобы рассчитать цену на неё, нужно учесть много деталей: категорию товара, службу доставки, города, скидки и комиссии. Нужно найти такую стоимость, чтобы и бизнес не ушёл в минус, и покупателю с продавцом было выгодно. Эту задачу решал аналитик Илья Цедяков, и в новом выпуске «Диванной аналитики» он рассказал, как подходил к работе: 1️⃣ Сначала оценил исходный алгоритм и его проблему медленной работы. 2️⃣ Затем попробовал эволюционный алгоритм — скорость стала отличной, но упала точность. 3️⃣ В итоге подход пересобрали при помощи линейного программирования. Подробный рассказ о том, как разрабатывали новый алгоритм, смотрите в свежем выпуске «Диванной аналитики»: 📌 YouTube 📌 VK Видео

8 851

Repost from AI Forge

AI-компании начали менять токены на доли в компаниях В мае 2026 OpenAI предложила каждому стартапу текущего батча Y Combinator $2M в API-токенах за долю. И токены — не по себестоимости: маржинальная стоимость инференса в разы ниже розничной цены, по которой считается сделка Но дело не в том, что инференс дёшев. Инференс стоит денег — GPU, электричество, мощности. Дело в другом: эти мощности и так бы крутились. OpenAI отдаёт то, что и так производит Но обычно он продаёт инференс за деньги. Разовая сделка, конец. А здесь он отдаёт тот же инференс — и берёт долю Стартап не может обналичить токены. Не может потратить на зарплаты, на аренду. Токен тратится только на инференс — то есть обратно у OpenAI. И тем же инференсом стартап строит свой продукт быстрее. Тот самый продукт, долей в котором OpenAI теперь владеет Это как если бы магазин давал тебе кашу, от которой ты лучше работаешь, и брал за это долю твоей выросшей зарплаты Токен из операционного расхода становится капитальной валютой. Расход остаётся расходом — мощности всё равно горят. Меняется то, чем он становится: долей в будущем, которое сам же производишь Один и тот же токен и товар, и доля: стартап потребляет товар, OpenAI владеет долей Это уже было. В конце девяностых Cisco, Lucent и Nortel давали телеком-стартапам оборудование в долг и брали долю — стартапы на это оборудование строились, вендоры росли вместе с ними И если довести до конца — это уже не про один батч и не про $2M. Если инференс — это сырьё, то поставщик сырья берёт долю в каждом, кто из сырья что-то строит. Как если бы электрическая компания владела долей в каждом заводе, работающем на её токе Тот, кто владеет вычислениями, начинает владеть тем, что на вычислениях построено

8 851

Как вкатиться в аналитику, с зарплатой в 3 раза выше, чем у остальных 2026 году❓ Если следовать обычному треку развития карьеры аналитика, рост зп будет медленным и постепенным. К тому же во время кризисов бизнес, хуже нанимает и чаще сокращает тех, кто не расширяет свой стек и не прокачивает знания вокруг основной области. Все это не относится к фулл-стек аналитикам, доля вакансий которых активно растет в общей массе вакансий аналитиков. В связи с этим приглашаю вас на эфир 📉📉📉📉📉📉 📹 На эфире будет разобрано: — Почему рынку реже нужны узкие специалисты и чаще — fullstack-аналитики — Как войти в профессию с нуля и устроиться на работу быстро — Кому подходит fullstack-путь, что нужно изучить и как новичку дойти до оффера Эти и ещё кучу важных вопросов для вас разберёт Илья Ковалёв - лид команды клиентской аналитики в Dodo Brands. Илья нанимает аналитиков и проводит собеседования: знает, что реально требует рынок в 2026 🎁 Всем зарегистрировавшимся на вебинар мы пришлют видеоурок по собеседованиям и карту компетенций fullstack-аналитика. 📊 Зарегистрироваться бесплатно

8 851

⚡️Вышло новое исследование Self-Service-круг Громова 2026 Оно показывает, как российские платформы помогают бизнес-пользователям работать автономно во всей архитектуре данных, а не только в BI. В отчет вошло 20+ российских решений: от BI, ETL и IBP-систем до облачных сервисов и платформ по работе с семантическим слоем. Среди которых: Yandex DataLens, Modus BI/ETL, Loginom, Dat. ax, DataForge,Visiology, PIX BI, Rapeed и другие.

➡️Отчет поможет понять: – где self-service – реальная управляемая модель, а где – набор разрозненных функций или маркетинговая декларация, – какие элементы инфраструктуры критичны и как безопасно интегрировать AI, – как балансировать свободу пользователя и управляемость среды. ➡️Особое внимание уделено: – AI в self-service: без бизнес-контекста AI может давать убедительные, но неверные ответы. – и семантическому слою: пользователю недостаточно просто дать доступ к данным; нужно зафиксировать показатели, правила расчета, связи и ограничения интерпретации.

📌Исследование Self-Service-круг Громова 2026 основано на анализе документации и тестировании систем. Полный отчёт доступен на сайте центра «Круги Громова» – скачать бесплатно! Используйте готовые ориентиры для оценки зрелости self-service в вашей компании. Круги Громова | Подписаться и стать частью Data-сообщества ⬅️ #КругиГромова #ИИ #AgenticAI #SelfService #SemanticLayer

8 851

Repost from Александр Гинько (автор и переводчик)

У вас проблемы с визуализацией графиков в Python? Моя новая книга по Seaborn уже вышла и доступна для покупки всего за 1199 руб! Друзья, я написал свою третью книгу, и она посвящена графической библиотеке Seaborn в Python (фотки в предыдущем посте)! Полгода назад мне попалось одно иностранное издание про Seaborn, я сначала хотел его перевести, но в итоге написал собственную книгу, в которой подробно описал библиотеку Seaborn. А изюминкой книги стал полный экскурс в новый объектный интерфейс seaborn.objects, который вышел не так давно и навсегда изменил методику создания графиков в Python. Если при работе в Python у вас постоянно возникают проблемы с тем, чтобы построить тот или иной график или диаграмму, и вы идете в интернет за примерами, то эта книга – для вас! После нее вы будете двумя-тремя строчками кода визуализировать все что угодно! 350 страниц в цвете позволят вам полностью погрузиться в мир простой и понятной визуализации данных, а в качестве бонуса – два проекта с визуализацией t-критерия Стьюдента и созданием простой сверточной нейросети. Ознакомиться с фрагментом книги и купить ее вы можете в моем боте (@alexanderginko_books_bot), нажав на кнопку Купить книги, или по ссылке ниже: Ссылка: https://www.dmkpress.com/catalog/computer/programming/python/978-5-93700-404-8/ Промокоды: Бумажная версия: промокод (22%) Ginko_Seaborn_paper (1247 руб) Версия PDF: промокод (25%) Ginko_Seaborn_PDF (1199 руб)

8 851

Данные давно перестали быть только инструментом аналитиков — сегодня они влияют на продукты, клиентский опыт, риски, эффективность и стратегические решения. 9 июля на Форуме Data Day эксперты и практики по работе с данными и ИИ из Сбера, Т-Банка, ГПБ, ВТБ, Альфа-Банка, X5 Tech, Ozon Fintech, Lamoda, ДОМ РФ и других компаний расскажут, как данные и искусственный интеллект помогают ускорять бизнес в финтехе, ритейле, промышленности, транспорте и агросекторе. В программе форума: ✅ Тренды AI и данных «из первых уст». На какие технологии и подходы делают ставку лидеры рынка? ✅ Как превратить хаос данных в надежный бизнес-навигатор и сделать данные стратегическим активом компании. ✅ Практика внедрения AI и data-driven подходов в финтехе, ритейле, логистике, промышленности и агросекторе. ✅ Как находить новые точки роста, используя опыт цифровых лидеров и сильные data-команды. ✅ AI-hub: выставка и центр экспертизы готовых AI-решений и автономных агентов для бизнеса. Выступают: – Руслан Булатов, директор Департамента финансовых технологий, Банк России – Алексей Бондаренко, Газпромбанк, вице-президент — начальник департамента управления данными. – Артём Летин, ВТБ, начальник управления моделирования КИБ и СМБ, вице-президент – Дмитрий Рузанов, Альфа-Банк, директор департамента разработки моделей. – Валерий Поляков, Т-Банк, лидер по данным группы Т-Технологии (Chief Data Officer). – Александр Лукьянов, ДОМ РФ Технологии, генеральный директор. – Павел Денисенко, X5 Tech, директор департамента развития платформы больших данных. – Екатерина Демкина, Банк России, заместитель директора юридического департамента. – Дмитрий Криволапов, Lamoda, директор департамента по данным и аналитике. – Андрей Скачёк, М.Видео, директор по маркетингу И другие. Вас ждет самый масштабный Data Day: 🔥 6 отраслевых треков (Финтех, Агропром, Транспорт и логистика, Промышленность, Ритейл, Персональная эффективность) 🔥 1500+ участников 🔥 60+ спикеров Присоединяйтесь! Форум соберет экспертов по данным и AI из банков, ритейла, телекома, транспорта, агропрома, ИТ-компаний и индустриальных лидеров. 👉 Программа и регистрация

8 851

Аналитика и бизнес с ИИ Уже в среду, 3 июня, Visiology проведёт бесплатный онлайн-эфир о том, как ИИ меняет работу с корпоративной аналитикой после Power BI. Поговорим о том, как быстрее получать ответы по данным, сокращать ручную отчётность и принимать решения без долгой подготовки дашбордов. В программе: — self-service аналитика и ИИ-ассистенты; — автоматизация отчётов и контроль ключевых метрик; — сценарии для бизнеса, IT-команд и аналитиков; — безопасность данных и развитие BI-инфраструктуры. Эфир будет полезен аналитикам, руководителям и IT-специалистам, которые хотят ускорить работу с данными и сделать аналитику понятнее для бизнеса. Мероприятие уже скоро! Участие бесплатное. Количество мест ограничено. Успейте зарегистрироваться! Узнать больше #реклама 16+ ai.visiology.com О рекламодателе

8 851

Если давно хотели прокачаться в modern data stack — собрали три практических тренажёра, которые помогут пройти путь от аналитического хранилища до оркестрации пайплайнов и Lakehouse-архитектуры. 📊 Симулятор Data Warehouse на базе dbt Научитесь работать с dbt Core, строить хранилище данных, осваивать DataOps-практики, каталог данных и data lineage. Курс подойдёт аналитикам и инженерам данных, которые хотят не просто писать SQL, а собирать поддерживаемые аналитические проекты. → Начать в демо-доступе

💚 Кстати, ИнженеркаТех перевели всю документацию dbt на русский язык — теперь она доступна бесплатно для всех: https://docs.getdbt.tech/

🐙 Тренажёр Dagster + Apache NiFi ETL-разработка и оркестрация данных для тех, кто хочет строить современные data pipeline без костылей, ручных запусков и ощущения «оно работает, но лучше не трогать». Разберётесь с пайплайнами, зависимостями, оркестрацией и практическими сценариями из data engineering. → Начать в демо-доступе 🧊 Симулятор по проектированию Lakehouse на Apache Spark и Iceberg Практический тренажёр по современным lakehouse-архитектурам: от настройки стека до инкрементальных загрузок и версионирования витрин. Внутри: Apache Iceberg + Spark, MinIO, Lakekeeper, JupyterLab, Docker Compose, Parquet / CSV. На курсе вы разберётесь, как проектировать Lakehouse с разделением хранения и вычислений, работать с табличными форматами, управлять схемами, делать MERGE, snapshots, tags, SCD Type 2, партиционирование и аудит хранилища через метаданные. → Посмотреть программу подробно Все курсы сделаны в формате тренажёров: меньше пассивного просмотра, больше практики, задач и работы руками. Демо-доступ есть у большинства курсов, чтобы сначала попробовать формат, а потом уже решить, какой стек прокачивать первым. 👉 Выбрать свой тренажер по работе с данными Реклама. ООО "Инженеркатех" ИНН: 9715483673 erid: 2VtzqvtqhZr

8 851

ИИ в аналитике — новый стандарт для бизнеса Сегодня компании, внедряющие ИИ в аналитику, получают решения и инсайты быстрее конкурентов. Те, кто остаётся на старых подходах, теряют скорость и преимущество. Аналитика с искусственным интеллектом становится новым стандартом рынка — и те, кто не объединит бизнес-аналитику и ИИ сейчас, рискуют остаться за бортом. 3 июня Visiology проведёт бесплатный онлайн-эфир о том, как ИИ ускоряет работу с данными, сокращает ручную отчётность и помогает получать ответы без долгой подготовки. Обсудим: — ИИ-помощников для аналитики и поиска закономерностей; — автоматизацию отчётности; — как быстрее находить ответы в данных; и многое другое. Эфир полезен аналитикам, ИТ-командам и руководителям. Количество мест ограничено — успейте зарегистрироваться. Узнать больше #реклама 16+ ai.visiology.com О рекламодателе

8 851

Офер в Яндекс за выходные: 6–7 июня Если вы продуктовый, дата-аналитик или датасаентист с опытом на Python от 3 лет, участвуйте в Weekend Offer Analytics*. Как всё устроено: 🔵 до 27 мая — регистрация; 🔵 6 июня — две технические секции, вместо трёх в обычном найме; 🔵 7 июня — знакомство с командами и офер. В мероприятии участвуют команды: R&D, Автономный транспорт, Алиса и Умные устройства, Поиск и Суперапп, Независимый Ecom и другие. Вы сможете пообщаться с нанимающими менеджерами и выбрать проект, который покажется самым интересным. Все подробности и полезные ссылки — на сайте. После регистрации с вами свяжется рекрутер и договорится об удобном времени для интервью.

8 851

ИИ меняет подход к аналитике бизнеса 3 июня Visiology проведёт бесплатный онлайн-эфир о том, как AI помогает быстрее работать с данными, сокращать ручную отчётность и получать ответы без долгой подготовки дашбордов. Это революция в управлении аналитикой. Разберём, как корпоративный BI меняется после Power BI: self-service аналитика, AI-ассистенты, автоматизация отчётов, контроль метрик и сценарии для бизнеса, IT и аналитиков. Будет полезно: — аналитикам, которые хотят быстрее собирать отчёты и находить инсайты; — IT-командам, которые отвечают за BI-инфраструктуру и безопасность данных; — руководителям, которым нужны понятные метрики и быстрые управленческие решения. Участие бесплатное. Количество мест ограничено. Успейте зарегистрироваться. Узнать больше #реклама 16+ ai.visiology.com О рекламодателе

8 851

⚡️ Стек собран — а оффера всё нет? Самый бесячий парадокс аналитика в 2026. Знаешь SQL на уровне оконок и CTE. Задачки с собесов Т-банка щёлкаешь за вечер. По технике — молодец. А на финальных этапах что-то идёт не так. И в какой-то момент уже не понимаешь — это со мной что-то не так или рынок просто сломался ⚙️ Заходите на бесплатный эфир, на котором не будет информации «как стать аналитиком за 30 дней», но будет подробный разбор карьеры аналитика и то как им стать в 2026 году. Ведет Андрон Алексанян — CEO школы аналитики 📉📉📉📉📉📉, 8 лет в аналитике, работал с крупнейшими компаниями РФ и мира. Что обещают разобрать: 🔶Как реально устроен вход в аналитику в 2026 🔶Как думают нанимающие менеджеры — и что прямо бесит их в резюме 🔶Какое портфолио сегодня реально смотрят (спойлер: пет-проекты с Kaggle уже никого не впечатляют) 🔶Почему кандидаты с меньшим стеком получают офферы первыми — и как этим воспользоваться 🔶Ну и про возраст 30 / 40 / 50+ тоже разберут — есть ли смысл стартовать сейчас Вообще нравится, когда люди объясняют, как сегодня реально устроен найм и что у нанимающих в голове. Плюс всем зарегистрировавшимся дают урок по прохождению собеседований — обычно он только в платных курсах. Эфир стартует уже совсем скоро! 📊 Зарегистрироваться бесплатно

8 851

⚡ А вы полагаетесь на случайность при делении на тест-контроль? В среднем рандом должен дать идеальный баланс по всем — даже ненаблюдаемым — признакам между тестовой и контрольной группой. Но конкретный АБ-тест — это конкретные тест и контроль. Поэтому случайное распределение на группы наверняка окажется несбалансированным, что приведёт к проблемам с интерпретацией результатов теста. Итог — неверные бизнес-решения. Андрей Романов, тимлид команды аналитики Sales Tech, преподаватель и ментор по AБ-тестам, расскажет: 🔸 почему случайное деление на группы — это не лучшая стратегия; 🔸 по каким метрикам балансировать группы и каким алгоритмом это можно сделать; 🔸 как балансировка влияет на чувствительность тестов. И всё это — на реальных примерах и цифрах из эксперимента, где рандом дал дисбаланс. Это новый выпуск «Диванной аналитики» — серии видео, в которых аналитики рассказывают об опыте Авито. Смотреть: VK YouTube

8 851

GPU в облаке: RTX 4090, A100, H100, 6000 Blackwell Рендеринг в Blender, CAD-модели и обучение LLM — задачи разные, но упираются в одно: нужный GPU не всегда стоит на рабочей машине. Облачная аренда позволяет взять подходящую карту на час или на длительность проекта, без покупки железа. В Cloud4Y доступна линейка NVIDIA под любые задачи: - RTX 4090 и 5090 — для рендера, моушна и инференса небольших моделей; - A100 (40/80 GB) и H100 (80 GB) — для обучения и инференса LLM; - RTX 6000 Blackwell — для нагрузок следующего поколения. CUDA, PyTorch и TensorFlow уже стоят, удалённый доступ — через RDP, Parsec, NICE DCV. ЦОД уровня Tier III в Москве, Стамбуле и Новосибирске, почасовой биллинг в рублях, инфраструктура соответствует ФЗ-152. Новым клиентам — скидка 20% на GPU NVIDIA, 30 дней бесплатного доступа юридическим лицам. Попробовать #реклама 16+ cloud4y.ru О рекламодателе

8 851

Как по всему GPT расползись гоблины В общем, у чатагпт есть разные настройки личности. Одна из таких личностей — это «Nerdy». По-нашему, ботан. Модель в этом режиме становится излишне занудной, но при этом такой а ля глубокой и игривой. Её ключевая фишка в том, чтобы пользователь посмотрел на мир с немного странноватой и несерьезной точки зрения Когда обучают модели, то используют разметку — либо автоматическую, либо ручную. Как оказалось, на этапе разметки датасета для личности «Nerdy» хорошие оценки ставили таким ответам, в которых есть какие-то фантастические твари типа гоблинов, единорогов и троллей. Это не то, чтобы специально произошло, то есть в инструкции не было явно указано: если ответ содержит «гоблина» — ставь лайк. Но по какому-то стечению обстоятельств именно такие ответы больше цепляли разметчиков Как итог режим «Nerdy» стал питать исключительную слабость к сказочным ~~долбаебам~~ существам. Проблема тут в том, что модели не обучают под каждый режим отдельно — есть единая «тушка», которую обучают под все режимы сразу. Слишком дорого было бы обучать под каждый профиль отдельную модель. Потом системный промпт задаёт контекст, который смещает вероятности следующих токенов, нужных для качественной работы в стиле «ботана» Отдельно стоит заметить про техническую особенность обучения, которая сделала эффект таким сильным. Когда модель обучают, то часто используют так называемые rollouts. Это процесс, при котором модель генерирует примеры, которые дальше размечаются и идут в обучение. И вот тут самый цимес: модель «инфицированная» гоблинами начинает чуть чаще создавать генерации с гоблинами → эти ответы проходят оценку и получают балл выше по каким-то другим причинам (например, структура и детальность ответа) → попадают в обучающие данные → модель начинает вставлять гоблинов ещё чаще. И дальше по кругу: в rollouts гоблины встречаются ещё чаще В результате этого обычная GPT 5-1 (без включенного режима «ботана») начала выдавать слово «гоблин» сильно чаще чем это нужно: использование слова «goblin» выросло на 175% (а «gremlin» — на 52%, какая-то незаслуженная дискриминация гремлинов). Это при том, что доля ответов ChatGPT с помощью личности «Nerdy» составляла всего 2,5% и давал 66% всех упоминаний слова «гоблин» по всем диалогам чатагпт Как финал «гремлинов» и «гоблинов» почистили (и заменили на марсиан и рептилоидов) — саму личность «Nerdy» убрали, а обучающие данные отфильтровали. Ещё при анализе в GPT-5.5 нашли целый зоопарк — еноты, тролли, орки и голуби (в чем магия голубей не знаю). В OpenAI признают, что GPT 5.5 обучался всё ещё на этом зоопарке, поэтому пришлось запилить отдельную инструкцию, которая подавляла бы гоблинов и прочую живность Мораль сей басни в том, что этот механизм может проявится не только в виде «гоблинов». Опаснее, когда у нас появляется устойчивая предвзятость, которую не так просто обнаружить, например, какой-то не очень полезный совет в рамках ответов на медицинские вопросы пользователей. И для меня эта история — сильная иллюстрация того, что любые модели искусственного интеллекта — это прежде всего набор статистических закономерностей. Они не «понимают», они оптимизируют то, что им явно указали, но при этом «схватывают» и неявное, а объяснить что именно «схватили» — не могут. И получается, что от качества обучающих выборок и процесса дальнейшей валидации на стороне провайдера (в данном случае OpenAI) будет зависеть будет ли ответ на важный для вас вопрос, сделанный с помощью ChatGPT, пестрить гоблинами, павлинами и прочими дивностями или даже вредными советами

8 851

Norman_Osborn_%28Green_Goblin%29_%28Earth-199999%29_%283%29.webp0.39 KB

8 851

Как по всему GPT расползись гоблины В общем, у чатагпт есть разные настройки личности. Одна из таких личностей — это «Nerdy». По-нашему, ботан. Модель в этом режиме становится излишне занудной, но при этом такой а ля глубокой и игривой. Её ключевая фишка в том, чтобы пользователь посмотрел на мир с немного странноватой и несерьезной точки зрения Когда обучают модели, то используют разметку — либо автоматическую, либо ручную. Как оказалось, на этапе разметки датасета для личности «Nerdy» хорошие оценки ставили таким ответам, в которых есть какие-то фантастические твари типа гоблинов, единорогов и троллей. Это не то, чтобы специально произошло, то есть в инструкции не было явно указано: если ответ содержит «гоблина» — ставь лайк. Но по какому-то странному стечению обстоятельств именно такие ответы больше цепляли разметчиков В итоге режим «Nerdy» стал питать исключительную слабость к сказочным ~~долбаебам~~ существам. Проблема тут в том, что модели не обучают под каждый режим отдельно — есть единая «тушка», которую обучают под все режимы сразу. Слишком дорого было бы обучать под каждый профиль отдельную модель. Потом системный промпт задаёт контекст, который смещает вероятности следующих токенов, нужных для качественной работы в стиле «ботана» Отдельно стоит заметить про техническую особенность обучения, которая сделала эффект таким сильным. Когда модель обучают, то часто используют так называемые rollouts. Это процесс, при котором модель генерирует примеры, которые дальше размечаются и идут в обучение. И вот тут самый цимес: модель «инфицированная» гоблинами начинает чуть чаще создавать генерации с гоблинами → эти ответы проходят оценку и получают балл выше по каким-то другим причинам (например, структура и детальность ответа) → попадают в обучающие данные → модель начинает вставлять гоблинов ещё чаще. И дальше по кругу: в rollouts гоблины встречаются ещё чаще Ну и в итоге обычная GPT 5-1 (без включенного режима «ботана») начала выдавать слово «гоблин» сильно чаще чем это нужно: использование слова «goblin» выросло на 175% (а «gremlin» — на 52%, какая-то незаслуженная дискриминация гремлинов). Это при том, что доля ответов ChatGPT с помощью личности «Nerdy» составляла всего 2,5% и давал 66% всех упоминаний слова «гоблин» по всем диалогам чатагпт В финале «гремлинов» и «гоблинов» почистили (и заменили на марсиан и рептилоидов) — саму личность «Nerdy» убрали, а обучающие данные отфильтровали. Ещё при анализе в GPT-5.5 нашли целый зоопарк — еноты, тролли, орки и голуби (в чем магия голубей не знаю). В OpenAI признают, что GPT 5.5 обучался всё ещё на этом зоопарке, поэтому пришлось запилить отдельную инструкцию, которая подавляла бы гоблинов и прочую живность Мораль сей басни в том, что этот механизм может проявится не только в виде «гоблинов». Опаснее, когда у нас появляется устойчивая предвзятость, которую не так просто обнаружить, например, какой-нибудь не очень полезный совет в рамках ответов на медицинские вопросы пользователей. И для меня эта история — сильная иллюстрация того, что любые модели искусственного интеллекта — это прежде всего набор статистических закономерностей. Они не «понимают», они оптимизируют то, что им явно указали, но при этом «схватывают» и неявное, а объяснить что именно «схватили» — не могут. И получается, что от качества обучающих выборок и процесса дальнейшей валидации на стороне провайдера (в данном случае OpenAI) будет зависеть будет ли ответ на важный для вас вопрос, сделанный с помощью ChatGPT, пестрить гоблинами, павлинами и прочими дивностями или даже вредными советами