Градиент обреченный

Open in Telegram

lingtra.in habr.com/ru/users/averkij/ hfday.ru

Russia72 441 Technologies & Applications13 246

8 674

Subscribers

+424 hours

+397 days

+23430 days

5 987

Post views

~ 2 84924 hours

~ 3 28848 hours

69.03%

Engagement rate

~ 1

Posts per day

Ads index

beta

Data loading in progress...

Similar Channels

5.3K

еба́ные идеи для резерча

3.4K

Data, Stories and Languages

More channels

Incoming and Outgoing Mentions

---

Attracting Subscribers

July '26

+330

in 10 channels

June '26

+213

in 2 channels

Get PRO

May '26

+137

in 1 channels

Get PRO

April '26

+105

in 3 channels

Get PRO

March '26

+151

in 1 channels

Get PRO

February '26

+459

in 7 channels

Get PRO

January '26

+133

in 3 channels

Get PRO

December '25

+196

in 17 channels

Get PRO

November '25

+142

in 7 channels

Get PRO

October '25

+104

in 6 channels

Get PRO

September '25

+220

in 6 channels

Get PRO

August '25

+230

in 7 channels

Get PRO

July '25

+332

in 18 channels

Get PRO

June '25

+169

in 8 channels

Get PRO

May '25

+182

in 6 channels

Get PRO

April '25

+271

in 3 channels

Get PRO

March '25

+278

in 6 channels

Get PRO

February '25

+220

in 4 channels

Get PRO

January '25

+329

in 3 channels

Get PRO

December '24

+140

in 1 channels

Get PRO

November '24

+128

in 2 channels

Get PRO

October '24

+196

in 7 channels

Get PRO

September '24

+158

in 6 channels

Get PRO

August '24

+161

in 2 channels

Get PRO

July '24

+692

in 7 channels

Get PRO

June '24

+72

in 2 channels

Get PRO

May '24

+101

in 0 channels

Get PRO

April '24

+152

in 4 channels

Get PRO

March '24

+159

in 6 channels

Get PRO

February '24

+206

in 9 channels

Get PRO

January '24

+322

in 5 channels

Get PRO

December '23

+210

in 6 channels

Get PRO

November '23

+237

in 9 channels

Get PRO

October '23

+178

in 7 channels

Get PRO

September '23

+218

in 0 channels

Get PRO

August '23

+196

in 0 channels

Get PRO

July '23

+305

in 0 channels

Get PRO

June '23

+161

in 0 channels

Get PRO

May '23

+1 631

in 0 channels

Get PRO

April '23

+605

in 0 channels

Get PRO

March '23

+190

in 0 channels

Get PRO

February '23

+266

in 0 channels

Get PRO

January '23

+291

in 0 channels

Get PRO

December '22

+197

in 0 channels

Get PRO

November '22

+112

in 0 channels

Get PRO

October '22

+191

in 0 channels

Get PRO

September '22

+219

in 0 channels

Get PRO

August '22

+125

in 0 channels

Get PRO

July '22

+530

in 0 channels

Date	Subscriber Growth	Mentions	Channels
29 July	+1
28 July	+6
27 July	+6
26 July	+11
25 July	+3
24 July	+9
23 July	+10
22 July	+16
21 July	+50
20 July	+125
19 July	+20
18 July	0
17 July	+9
16 July	+6
15 July	0
14 July	+2
13 July	+4
12 July	0
11 July	+5
10 July	+10
09 July	+5
08 July	+7
07 July	+3
06 July	+3
05 July	+3
04 July	+5
03 July	+2
02 July	+2
01 July	+7

Channel Posts

M'athchomaroon! Наверняка вы смотрели Дюну или Игру престолов или просто слышали про вымышленные языки типа дотракийского, валерийского и чакобсы. И хоть названия этих языков и часть лексики придумали непосредственно авторы, то для сериалов их прорабатывал известный лингвист-конлангер Дэвид Петерсон. Он же делал это для десятков других популярных проектов и у него, кстати, есть классная книжка на эту тему. Почему бы не привлечь ИИ и сюда? Не просто для создания отдельных слов, а для поэтапной фиксации правил — какие буквы и звуки есть, как могут сочетаться, правила словообразования, синтаксис и т.д. Собственно, несколько исследователей подумали об этом, накидали немного кода и написали статью ConlangCrafter, которую приняли на ACL. Подошли к работе довольно системно, проверили консистентность перевода на получаемые языки, сравнили языковое разнообразие с естественными языками и т.д. Есть прикольные решения, например, если при переводе на ваш язык создаются новые слова, то они добавляются в текущий языковой набор (language sketch), автоматически расширяя его. Так что проект любопытный. https://conlangcrafter.github.io/

2	А говорят, в Питере зелени мало	1 933
3	Когда искали данные на языках России для обучения Гигачата, много общался с представителями республик по поводу текстов. Часто был затык с тем, то нельзя передавать книжки и статьи из библиотек и издательств из-за авторских прав. Обсуждали тогда, что нужен закон для официальной передачи данных компаниям для обучения LLM. И вот лёд тронулся, вчера был подписан 243-ФЗ «О поддержке развития технологий искусственного интеллекта в Российской Федерации». Сберу, Яндексу и другим компаниям будет теперь проще собирать данные для обучения своих нейросетей, особенно на малоресурсных языках. И это хорошо.	2 720
4	Кибербеза всё Наверняка уже слышали про выход агента из изолированной среды и взлом им Hugging Face (крупнейшего репозитория со всеми открытыми моделями и датасетами). Вчера по нему вышел апдейт, давайте посмотрим, что вообще произошло. OpenAI тестировала свои модели на бенчмарке ExploitGym, специальном тесте на 800+ заданий на поиск и эксплуатацию уязвимостей. Делал всё это агент на тестовых серверах компании в автономном режиме. Во время прохождения тестов агент решил, что логично было бы найти сразу ответы. И начал искать. 9 июля агент начал искать способ выйти из изолированной среды. Нашёл zero day уязвимость в прокси-сервере и начал перемещаться между узлами, пока не нашёл машину с доступом в интернет. По мере поиска выхода агент оставлял инструкции в среде, чтобы последующие запуски учитывали предыдущие знания о ней. 11 июля агент начал атаковать сервера Hugging Face, чтобы скачать датасет с ответами. За два дня атаки он смог загрузить вредоносный датасет и смог удалённо запускать код на одном из worker серверов. Повысил себе привелегии, собрал креды и начал перемещаться по узлам. Ответы агент нашёл, взяв их напрямую из продуктовой базы данных (obtain test solutions directly from Hugging Face’s production database). 16 июля HF сообщила об инциденте, но прикола не поняла. Проанализировали логи и увидели более 17 тысяч связанных с атакой записей в нём. Количество само по себе мало о чем говорит, но так они смогли установить интервал атаки и какие именно учётные записи утекли. Только ещё через два дня, 18 июля, сотрудники OpenAI поняли, что это сделали они и начали анализировать логи побега. 20 июля связались с HF и 21 июля написали об этом у себя. То есть что мы имеем? Модель несколько дней атаковала чужой сервер, а разработчики этого не заметили. Атакуемый сервер не смог использовать самые сильные модели на рынке для противостояния и анализа, так как эти модели закрытые и пропитаны safety (отклоняют любые запросы по части кибербезопасности), поэтому для анализа использовали GLM 5.2. То, что авторы не заметили взлом, который длился два дня, это, конечно, позор. Уверен, что будут лучше смотреть. А вот то, что обороняемая сторона с публичными серверами и миллионами учёток не в силах противостоять такому натиску, это тревожно. CEO Hugging Face в связи с этим попросил все доступные трейсы инцидента со стороны OpenAI и в довесок $100M на разработку моделей для защиты. Следим за развитием событий.	3 994
5	🔺 Opus 5 🟢 Цена та же, токенизатор не "оптимизировали" как в прошлый раз (в прошлый раз стал процентов на 20% больше токенов выдавать). 🟢 Сразу в документации пишут, что ответы пишет дольше чем раньше. Пишут, что чаще будет давать апдейты по своему прогрессу. Перепроверяет свою работу даже когда явно не просишь. Чаще делегирует работу сабагентам. То есть по сути дороже всё равно будет. 🟢 Снизили минимальный порог кеширования до 512 токенов с 1024. Кэширование снизит вам стоимость по API, если у вас тысячи запросов, которые начинаются одними и теми же системными промптами. 🟢 Из-за того, что модель более дотошная (см. пункт1), на бенчмарках бьет Opus 4.8 (на всех) и на большинстве даже Fable и Sol, по крайней мере в отобранных для поста бенчах. Собственно, и позиционируется модель как почти Fable. С опусом больше всего работаю, так что посмотрим него прямо сейчас. 👉 Пост \| Про особенности модели	2 718
6	No text...	2 857
7	Почти безлимитный Codex Обнаружил, что когда ставлю на ночь в кодексе тяжелые задачи по разметке данных, которые идут по 5-6 часов, то они добегают до конца даже если заканчивается недельный лимит. Поделал так три раза (новые задачи на нулевом лимите не стартуют, поэтому потратил все сбросы лимитов, которые были), каждый раз срабатывает. Сегодня поставил задачу раз в 10 больше (сейчас размечаю мультиязычные книги для Библиоточки), чтобы посмотреть, когда упадет. В итоге остановилось где-то через 3 часа после фактического исчерпания лимита. Сам недельный лимит съелся за 6 часов, т.е. в вебе и в status'е показывает 0%, но задача ещё долго выполняется. Я думаю, на сервере выставлен довольно большой grace limit, чтобы тебя сразу не обрубали посреди задачи. Спасибо от работяг. Всё делаю Sol'ом в ultra режиме, подписка за 100 баксов. 👉 Если у вас остается несколько процентов от лимита, попробуйте поставить что-то тяжелое.	27 714
8	Джун с клод-кодом получает в пулл-реквест комменты от тимлида	4 801
9	Это было ожидаемо	4 228
10	🎉 Подготовили статью "Dialogs: a studio-quality expressive conversational Russian speech corpus for dialog assistants", с Ильёй Латышевым, которую приняли на Interspeech 2026 Слова Ильи: Это был мой первый подобный опыт, и теперь я могу с уверенностью сказать: если кажется, что всё, что может пойти не по плану, обязательно пойдёт не по плану — скорее всего, так и будет 😄 Переносы записей, сорванные дедлайны, организационные сложности, постоянные мелкие проблемы, которые по отдельности кажутся незначительными, но вместе сильно тормозят работу. В какой-то момент начинает казаться, что проект уже никогда не закончится. Но в итоге всё получилось, и я очень рад, что мы довели его до конца. За время работы я понял, насколько много мелочей влияют на качество речевого корпуса. Например: • желательно использовать одинаковые микрофоны и одинаковую аудиоцепочку для всех дикторов; • одинаковое расстояние до микрофонов; • необходимо контролировать уровень фонового шума и акустику помещения; • важно не менять настройки записи между сессиями; • стоит заранее продумать организацию записи, потому что именно она часто становится источником самых неожиданных проблем. Одной из особенностей нашего корпуса стали условия записи диалогов. Два актёра театра сидели напротив друг друга и читали реплики, видя мимику, жесты и эмоциональную реакцию собеседника. Несмотря на то что текст был заранее подготовлен, такое взаимодействие делало реплики значительно более естественными и выразительными. Это заметно отличается от записи, когда каждый диктор работает в одиночку и произносит свои реплики изолированно. В результате получился открытый студийный корпус выразительной русской разговорной речи: • 20 часов записей; • 3 профессиональных диктора — актёра театра; • широкий набор эмоций и разговорных стилей; • открытая лицензия для исследований. Корпус в первую очередь предназначен для файнтюна моделей синтеза речи. В статье мы также показываем результаты обучения моделей и субъективную оценку качества (MOS) для различных разговорных стилей. 📄 Статья на arxiv: https://arxiv.org/abs/2607.14310 📄Статья на hf: https://huggingface.co/papers/2607.14310 🤗 Датасет: https://huggingface.co/datasets/langswap/dialogs-ru-emotional-conversations 🎤 Демо: https://huggingface.co/spaces/frappuccino/dialogs-ru-tts Спасибо Илье за работу над этим проектом - это было очень непросто и ресурсозатратно и я очень хочу чтобы результаты нашей работы приносили пользу таким же исследователям речевых технологий как мы. Подписывайтесь на канал Ильи, он делает крутые обзоры там! @decent_researcher И на этот канал, @voicestuff	2 974
11	Ребята сделали прикольный аудио датасет, начитанный актерами театра	2 806
12	🔺 Сделал датасет Выложил небольшой датасет на языках России. 🟢 22 языка: алтайский, башкирский, бурятский, горномарийский, дигорский, кабардино-черкесский, калмыцкий, карачаево-балкарский, коми, кубачинский, марийский (луговой), мокшанский, орокский, осетинский (иронский), русский, татарский, удмуртский, хакасский, чувашский, чукотский, эрзянский, якутский. 🟢 По 1565 предложений в каждом. 🟢 Сделан по всем редакциям Маленького принца, которые собирали последние несколько лет + 3 новые (чукотский, карачаево-балкарский и дигорский). 🟢 Выравнивалось вручную при помощи lingtrain-aligner. Выверялось и корректировалось при помощи Fable. Посмотрели несколько редакций с носителями, одобряют. 🟢 В некоторых редакциях предложений не хватало, такие предложения были допереведены Fable на основе имеющейся лексики и помечены в отдельных колонках. Также была исправлена пунктуация на концах предложений для единообразия. Даёшь больше языковых датасетов! 👉 HF	9 431
13	🔺 Inkling. Открытая модель от Миры Мурати Мира Мурати — бывшая CTO OpenAI, которая ушла примерно полтора года назад, чтобы основать свою компанию Thinking Machines Lab. Компания привлекла 2 млрд долларов и выпускает свою первую открытую модель. 🟢 975B параметров, 41B активных (MoE архитектура). 🟢 Обучалась на 45 трлн токенов. Звучит как дофига, но кроме текстов там ещё картинки, аудио и видео. Разбиения не дают, но модель мультимодальная, то есть нативно понимает разные типы данных. 🟢 Модели поменьше будут, пока есть превью версия на 12B активных параметров. 🟢 По бенчмаркам нигде не проседает и нигде не выигрывает (держится ближе к топу), т.е. модель общего назначения, которую можно дообучать и использовать большим компаниям (лицензия Apache 2.0). Запустить её у себя просто так не получится, слишком большая. Даже в FP4 должно быть где-то 500-600 Гб по памяти. 🟢 Также пишут интересные детали обучения в блоге, типа что за основу взят DeepSeek-V3 и что отказались от популярных RoPE эмбеддингов (штуки кодирующие позиции токенов) в пользу позиционных. 👉 Попробовать можно у них на платформе Tinker. В целом молодцы, что опенсорсят большие модели, одобряем.	3 916
14	Пока книжками занимаюсь, слежу за тем, что можно использовать, а что нельзя. Оказывается, буквально на днях суд признал права наследников Булгакова (потомков третьей жены) на его произведения отсутствующими и все книжки, включая «Мастера и Маргариту» перешли в статус общественного достояния. Сам Булгаков умер ещё в 40-году, а права охраняются 70 лет после смерти автора, т.е. уже истекли. Но Мастер и многие другие произведения были опубликованы посмертно в конце 60-х вдовой писателя, из-за чего использовать тексты и что-то делать по их мотивам без разрешения потомков было нельзя.	3 884
15	Самый важный вопрос.	4 128
16	Вот это, кстати, интересная штука. Вместо даунгрейда на более простую модель как у Fable, вылазит такая опция. Спрашивает, хочу ли отправить свою таску на safety check и ждать или переключиться и продолжить с другой моделью. Антропик, записывай.	4 763
17	Вот	1
18	В общем для простых работяг модель что надо. Передайте там, что можно фейбл отключать.	4 224
19	Ничего себе, думаю, кидаю в Sol задачи одну за другой, а пятичасовой лимит так медленно ползёт	4 290
20	Попробуем Sol в деле. Как оно, лучше моделей антропика?	4 318

View all posts