Data Secrets
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN
نمایش بیشتر📈 تحلیل کانال تلگرام Data Secrets
کانال Data Secrets (@data_secrets) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 90 949 مشترک است و جایگاه 1 390 را در دسته فناوری و برنامهها و رتبه 6 159 را در منطقه روسيا دارد.
📊 شاخصهای مخاطب و پویایی
از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 90 949 مشترک جذب کرده است.
بر اساس آخرین دادهها در تاریخ 03 ژوئیه, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 716 و در ۲۴ ساعت گذشته برابر 31 بوده و همچنان دسترسی گستردهای حفظ شده است.
- وضعیت تأیید: تأیید شده (به صورت رسمی توسط تلگرام)
- نرخ تعامل (ER): میانگین تعامل مخاطب 25.70% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 18.99% واکنش نسبت به کل مشترکان کسب میکند.
- دسترسی پستها: هر پست به طور میانگین 23 373 بازدید دریافت میکند. در اولین روز معمولاً 17 269 بازدید جمعآوری میشود.
- واکنشها و تعامل: مخاطبان بهطور فعال حمایت میکنند؛ میانگین واکنش به هر پست 303 است.
- علایق موضوعی: محتوا بر موضوعات کلیدی مانند claude, openai, контекст, стартап, llm تمرکز دارد.
📝 توضیح و سیاست محتوایی
نویسنده این فضا را محل بیان دیدگاههای شخصی توصیف میکند:
“Главный по машинному обучению
Сотрудничество: @veron_28
РКН: clck.ru/3FY3GN”
به لطف بهروزرسانیهای پرتکرار (آخرین داده در تاریخ 04 ژوئیه, 2026)، کانال همواره بهروز و دارای دسترسی بالاست. تحلیلها نشان میدهد مخاطبان بهطور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامهها تبدیل کردهاند.
Мы прошли горизонт событий; взлет начался. Человечество близко к созданию цифрового суперинтеллекта, и, по крайней мере, пока это гораздо менее странно, чем, как кажется, должно быть. Роботы пока не ходят по улицам, и большинство из нас не общаются с ИИ весь день.
В 2025 году появились агенты, способные выполнять настоящую когнитивную работу; написание кода уже никогда не будет прежним. В 2026 году, скорее всего, появятся системы, открывать новые идеи. В 2027 году могут появиться роботы, способные выполнять задачи в реальном мире.
В 2030-х годах интеллект и энергия — идеи и способность воплощать идеи — будут в диком изобилии. Эти два фактора долгое время были фундаментальными ограничителями человеческого прогресса; при их (и хорошем управлении) мы теоретически можем иметь что угодно.
Мы очень быстро переходим от удиаления, что ИИ может написать абзац, к удивлению, когда он может создать прекрасно написанный роман. Или от удивления, что он может написать небольшую программу, к удивлению, когда он может создать целую новую компанию. Вот как проходит сингулярность: чудеса становятся рутиной, а затем базовым минимумом.
По мере автоматизации производства центров обработки данных стоимость интеллекта должна в конечном итоге приблизиться к стоимости электроэнергии.
Скорость создания новых чудес будет колоссальной. Сегодня даже трудно представить, что мы откроем к 2035 году; может быть, за один год мы перейдем от решения физики высоких энергий к началу колонизации космоса. Конечно, будут и сложные моменты: например, исчезнут целые классы профессий. Но люди по-прежнему будут способны адаптироваться практически ко всему.Полностью читаем здесь
Разметка — это дорого, долго и нередко требует привлечения экспертов с доменными знаниями, что ещё больше усложняет процесс. Эта проблема возродила интерес к методам, которые позволяют работать с частично размеченными или даже неразмеченными данными.Как обучать модели с минимумом разметки: 📌 Active Learning — модель сама выбирает примеры для разметки, которые дадут наибольший прирост качества. 📌 Semi-Supervised Learning — используем небольшое число размеченных данных вместе с неразмеченными, например, через псевдоразметку. 📌 Transfer Learning — переносим знания с одной задачи на другую, что помогает значительно сократить потребность в разметке. Обучать модели без ручной разметки позволяет Weak supervision. Она использует слабые источники меток, например: 📝 Distant Supervision — автоматическая разметка данных с использованием внешних баз знаний. 📝 Эвристики и правила — разметка с помощью регулярных выражений, ключевых слов и логических правил. 📝 Краудсорсинг — использование данных, размеченных пользователями, даже если разметка содержит шум. Важно понимать, что слабые метки не обладают высокой точностью (иногда даже 60% достаточно!), но их массовое использование в правильной комбинации даёт отличные результаты. Programmatic Weak Supervision (PWS): объединяем слабые источники
PWS — это метод, который умно комбинирует разные источники слабых меток. Он агрегирует их, учитывает корреляции и противоречия между источниками, что минимизирует шум.Как это работает? Допустим, мы решаем задачу классификации текстов. Для этого мы: 📌 Читаем тексты и привлекаем экспертов, чтобы сформулировать эвристики и регулярные выражения. 📌 Оформляем их в виде разметочных функций, которые автоматически назначают метки. 📌 Тестируем и дорабатываем разметочные функции на небольшой dev-выборке. 📌 Применяем их к большому объёму данных. Асимптотически, наш лосс уменьшается с той же скоростью, что и при разметке вручную. 📌 Используем генеративную модель, чтобы оценить вероятность принадлежности к классу. 📌 Обучаем поверх этой разметки классическую дискриминативную модель, которая теперь улавливает более общие закономерности, чем исходные разметочные функции. Такой подход позволяет получать качество, сопоставимое с ручной разметкой, но при этом автоматизирует процесс.
Среди популярных библиотек для weak supervision — Snorkel, которая реализует PWS и гибко комбинирует слабые источники разметки.LLM можно использовать как дополнительный источник слабых меток. Например: 📝 Заменять ключевые слова и эвристики вопросами к тексту на естественном языке. 📝 Генерировать эвристики для автоматической разметки. 📝 Комбинировать LLM с традиционными методами weak supervision, чтобы улучшать итоговое качество разметки. Исследования показывают, что PWS + LLM уже опережает few-shot и zero-shot подходы по качеству! 📢 Подробнее о weak supervision и о том, как мы применяем его в Точке — в следующих постах. А пока можете почитать хороший обзор на тему обучения со слабым контролем. 💜 Этот пост написал Артур Сосновиков, тимлид нескольких ML-команд в Точке.
Разметка — это дорого, долго и нередко требует привлечения экспертов с доменными знаниями, что ещё больше усложняет процесс. Эта проблема возродила интерес к методам, которые позволяют работать с частично размеченными или даже неразмеченными данными.Как обучать модели с минимумом разметки: 📌 Active Learning — модель сама выбирает примеры для разметки, которые дадут наибольший прирост качества. 📌 Semi-Supervised Learning — используем небольшое число размеченных данных вместе с неразмеченными, например, через псевдоразметку. 📌 Transfer Learning — переносим знания с одной задачи на другую, что помогает значительно сократить потребность в разметке. Обучать модели без ручной разметки позволяет Weak supervision. Она использует слабые источники меток, например: 📝 Distant Supervision — автоматическая разметка данных с использованием внешних баз знаний. 📝 Эвристики и правила — разметка с помощью регулярных выражений, ключевых слов и логических правил. 📝 Краудсорсинг — использование данных, размеченных пользователями, даже если разметка содержит шум. Важно понимать, что слабые метки не обладают высокой точностью (иногда даже 60% достаточно!), но их массовое использование в правильной комбинации даёт отличные результаты. Programmatic Weak Supervision (PWS): объединяем слабые источники
PWS — это метод, который умно комбинирует разные источники слабых меток. Он агрегирует их, учитывает корреляции и противоречия между источниками, что минимизирует шум.Как это работает? Допустим, мы решаем задачу классификации текстов. Для этого мы: 📌 Читаем тексты и привлекаем экспертов, чтобы сформулировать эвристики и регулярные выражения. 📌 Оформляем их в виде разметочных функций, которые автоматически назначают метки. 📌 Тестируем и дорабатываем разметочные функции на небольшой dev-выборке. 📌 Применяем их к большому объёму данных. Асимптотически, наш лосс уменьшается с той же скоростью, что и при разметке вручную. 📌 Используем генеративную модель, чтобы оценить вероятность принадлежности к классу. 📌 Обучаем поверх этой разметки классическую дискриминативную модель, которая теперь улавливает более общие закономерности, чем исходные разметочные функции. Такой подход позволяет получать качество, сопоставимое с ручной разметкой, но при этом автоматизирует процесс.
Среди популярных библиотек для weak supervision — Snorkel, которая реализует PWS и гибко комбинирует слабые источники разметки.LLM можно использовать как дополнительный источник слабых меток. Например: 📝 Заменять ключевые слова и эвристики вопросами к тексту на естественном языке. 📝 Генерировать эвристики для автоматической разметки. 📝 Комбинировать LLM с традиционными методами weak supervision, чтобы улучшать итоговое качество разметки. Исследования показывают, что PWS + LLM уже опережает few-shot и zero-shot подходы по качеству! 📢 Подробнее о weak supervision и о том, как мы применяем его в Точке — в следующих постах. А пока можете почитать хороший обзор на тему обучения со слабым контролем. 💜 Этот пост написал Артур Сосновиков, тимлид нескольких ML-команд в Точке.
Разметка — это дорого, долго и нередко требует привлечения экспертов с доменными знаниями, что ещё больше усложняет процесс. Эта проблема возродила интерес к методам, которые позволяют работать с частично размеченными или даже неразмеченными данными.Как обучать модели с минимумом разметки: 📌 Active Learning — модель сама выбирает примеры для разметки, которые дадут наибольший прирост качества. 📌 Semi-Supervised Learning — используем небольшое число размеченных данных вместе с неразмеченными, например, через псевдоразметку. 📌 Transfer Learning — переносим знания с одной задачи на другую, что помогает значительно сократить потребность в разметке. Обучать модели без ручной разметки позволяет Weak supervision. Она использует слабые источники меток, например: 📝 Distant Supervision — автоматическая разметка данных с использованием внешних баз знаний. 📝 Эвристики и правила — разметка с помощью регулярных выражений, ключевых слов и логических правил. 📝 Краудсорсинг — использование данных, размеченных пользователями, даже если разметка содержит шум. Важно понимать, что слабые метки не обладают высокой точностью (иногда даже 60% достаточно!), но их массовое использование в правильной комбинации даёт отличные результаты. Programmatic Weak Supervision (PWS): объединяем слабые источники
PWS — это метод, который умно комбинирует разные источники слабых меток. Он агрегирует их, учитывает корреляции и противоречия между источниками, что минимизирует шум.Как это работает? Допустим, мы решаем задачу классификации текстов. Для этого мы: 📌 Читаем тексты и привлекаем экспертов, чтобы сформулировать эвристики и регулярные выражения. 📌 Оформляем их в виде разметочных функций, которые автоматически назначают метки. 📌 Тестируем и дорабатываем разметочные функции на небольшой dev-выборке. 📌 Применяем их к большому объёму данных. Асимптотически, наш лосс уменьшается с той же скоростью, что и при разметке вручную. 📌 Используем генеративную модель, чтобы оценить вероятность принадлежности к классу. 📌 Обучаем поверх этой разметки классическую дискриминативную модель, которая теперь улавливает более общие закономерности, чем исходные разметочные функции. Такой подход позволяет получать качество, сопоставимое с ручной разметкой, но при этом автоматизирует процесс.
Среди популярных библиотек для weak supervision — Snorkel, которая реализует PWS и гибко комбинирует слабые источники разметки.LLM можно использовать как дополнительный источник слабых меток. Например: 📝 Заменять ключевые слова и эвристики вопросами к тексту на естественном языке. 📝 Генерировать эвристики для автоматической разметки. 📝 Комбинировать LLM с традиционными методами weak supervision, чтобы улучшать итоговое качество разметки. Исследования показывают, что PWS + LLM уже опережает few-shot и zero-shot подходы по качеству! 📢 Подробнее о weak supervision и о том, как мы применяем его в Точке — в следующих постах. А пока можете почитать хороший обзор на тему обучения со слабым контролем. 💜 Этот пост написал Артур Сосновиков, тимлид нескольких ML-команд в Точке.
«Как я понимаю, в речи на выпускной церемонии принято давать мудрые советы. Я дам один — всего один. Есть состояние ума, которое, если его принять, делает вещи намного проще: принимать реальность такой, какая она есть, не жалеть о прошлом, а стараться улучшать ситуацию»
Наступит время, когда ИИ сможет делать все, что умеем мы. Я в этом уверен, потому что
наш мозг — это биологический компьютер
. А если биологический компьютер может это делать, то почему цифровой компьютер не сможет?
Есть цитата: «Вы можете не интересоваться политикой, но политика заинтересуется вами»
.
С ИИ это работает
ещё в большей степени
.
В конце концов, никакие статьи или объяснения не заменят того, что мы видим своими глазами. Главное – не отворачивайтесь от ИИ.
Смотрите внимательно, думайте, готовьтесь.
Когда прилет время, именно это даст вам силы справиться с колоссальными изменениями.
Вызов ИИ –
величайший в истории человечества
. Но и награда за его преодоление может стать самой большой. Нравится вам это или нет — ИИ повлияет на вашу жизнь в огромной степени.
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
