EdTech, AI и HighLoad | Блог AK из Школково

Open in Telegram

CEO ZeroAgency, руководитель разработки онлайн-платформы Школково. Пишу про IT, AI и HighLoad разработку. Личный блог: @daily_ak YT: youtube.com/@segfault_11 Контакт для связи: @bethrezen

Russia357 144 Technologies & Applications44 640

841

Subscribers

No data24 hours

No data7 days

+4430 days

1 882

Post views

No data24 hours

No data48 hours

224.85%

Engagement rate

No data

Posts per day

Ads index

beta

Posts Archive

841

🔥 Бомбическое преимущество Vision LLM для простых рутинных задач Предыстория В прошлом году я уже занимался оцифровкой разбалловки результатов учеников для разработки модели предсказания баллов и рекомендательной системы. Тогда я тоже запилил простой интерфейс и ручками вбивал все эти данные, потому что по-нормальному и быстро автоматизировать это тогда не удалось, а датасет для трейна нужен был срочно. Из данных я тогда выкинул те, где дети не указали свой тестовый балл в отдельном поле. Ну и понятное дело, очень много результатов, где 10 шакалов из 10, оцифровать не удалось. Наши дни Наколеночное решение из поста выше помогло добавить примерно ещё треть к датасету. Это результаты, где не проставлен был балл или разбалловка трудно читалась из-за качества картинки(см. скрин, да-да, в таком качестве прислали результаты...). +34% к объёму трейн данных - это на самом деле очень ощутимо и круто! Да, есть риск, что нейронка криво распознала цифры на изображении. Но этот риск снимается прогоном предыдущей модели предсказания баллов по этому юзеру. Если распознавание Vision совпадает с предсказанием модели - значит всё распознано верно и историю этого пользователя можно спокойно добавлять в датасет обучения новой модельки. Такие дела ^_^

841

Простое и очевидное решение на коленке, которое сберегло мои нервы. Дано: тысячи результатов экзаменов учащихся в виде картинок Задача: оцифровать разбалловку и провалидировать данные Основная проблема в том, что дети присылают скриншоты результатов максимально странным образом. Плюс есть ещё куча разных сайтов, где эти результаты в разных форматах отображаются. Это в этом году мы додумались просить детей забивать эти данные самим в форме. А в прошлые года вот что-то не догадались... Ну ничего, сейчас бы с ллмкой быстро всё оцифруем как надо. Решение: прогоняем через LLM с Vision. В результате большая часть данных нуждается только в быстрой проверке и нажатии на Enter.

841

🖤 Zero Fest, он же "Ноль фест" в Тамбове 1 августа. Раньше был "Рок над Студенцом", но по определенным причинам он не смог продолжиться в прежнем формате. Поэтому я решил вписаться в этот движ со своей компанией и помочь ребятам. Ну и теперь это "Ноль фест". В этом году будут не только местные артисты, но и гости из Санкт-Петербурга. DenDerty, которые выступали у нас на корпоративе в прошлом году, Молодость Внутри и Вася Васин из группы "Кирпичи". Для нашего города это уникальное мероприятие, которое всем советую обязательно посетить! Билеты по ссылке: vk.cc/cYe5vi

841

🎮 Самый неоднозначный девайс NVIDIA Брал я тут в марте 7шт. DGX Spark. Очень хотелось попробовать этот девайс давно - ещё со старта хотел его купить. Но появляться по вменяемым ценам они начали только сейчас. NVIDIA обещала крутую производительность в FP4. Но что мы имеем по факту? 1. Очень медленную unified memory LPDDR5x. 2. Коробки очень горячие и уходят в троттлинг. Temperature cap стоит где-то на 70C. 3. DGX Spark инференсит Qwen3.6-35B-A3B в NVFP4 со спекулятивным декодингом DFlash со скоростью 100-200 tok/s. на оптимизированном VLLM с кастомными ядрами под GB10. Соответственно ШЕСТЬ DGX Spark в реальности у меня дают 700-1500 tok/s. Для сравнения - ОДИН GPU RTX Pro 6000 Blackwell Workstation даёт 1000-1200 tok/s. Нагрузка 1-в-1 одинаковая. Простая математика RTX Pro 6000 Blackwell стоит примерно 1-1.1M руб. DGX Spark стоит ~500к руб. 6x DGX Spark = 3M руб. и это в лучшем случае 1500 tok/s, но 768GB памяти на скорости 273 GB/s. Рабочая станция с 2x RTX Pro 6000 Blackwell - те же 3M руб.(дада, можно и дешевле) и это 2200 tok/s, а это всего лишь 192GB VRAM на скорости 1792 GB/s. И это я ещё не говорю про то, как в реальности работают все эти кольца из 200Gbit/s линков между тремя спарками. Спойлер: плохо. Выводы DGX Spark проигрывают примерно везде и по всем фронтам. Обещания NVIDIA - пустой маркетинг. Коробки вообще никому не рекомендую даже для экспериментов, даже с QLoRa. Для трейна не годится. Для инференса - тоже. Лучше за те же деньги собрать ПК с игровой видеокартой. Единственное годное применение - тихий локальный AI-ассистент для дома.Вот только вопрос - сколько он прослужит с такими рабочими температурами.

841

На самом деле никакой нейронки нет 😂

841

Вот мы и выкатили бесплатную ИИ-проверку сочинений для ЕГЭ по русскому языку для участников Щелчка. Некоторые функции мы специально пока что скрыли, чтобы не перегружать детей перед экзаменами. Но вообще моделька очень интересно рассуждает - этими ризонингами можно зачитываться до бесконечности. Если есть какие-нибудь вопросы - задавайте в комментариях. На что-то отвечу сразу, что-то приберегу для стрима и отвечу там. Ура! Работаем дальше 💪 На очереди ИИ-бот для выпускников 📱

841

Repost from Таня Коваль. ЕГЭ по русскому языку

БУДУЩЕЕ НАСТАЛО! ИИ ПРОВЕРИТ ТЕБЕ БЕСПЛАТНО СОЧИНЕНИЯ ПЕРЕД ЕГЭ! Твои работы будет оценивать искусственный интеллект, обученный на проверках реальных экспертов с реального ЕГЭ. Уровень строгости будет соответствовать экзамену: без перегибов и без чрезмерной лояльности. При проверке ты получишь итоговый балл и разбалловку по всем критериям, тоже как на экзамене. Также в работе будут отмечены те места, на которые ИИ обратил внимание при проверке. Но это не значит, что он обязательно снял балл в этом месте 📒 🚩 Как и в реальной проверке, возможны небольшие расхождения и неточности — эксперты на экзамене тоже не могут оценивать работы одинаково. В этом смысле ИИ также ведёт себя очень похоже на живого проверяющего Эта проверка поможет тебе увидеть свой текущий уровень и понять, на что стоит обратить внимание 💫 Это бонус Щелчка. Но не забывайте: если у тебя есть платный курс, то ты можешь сдавать сочинения на экспертную проверку экспертам-людям на платформе (сейчас есть 3 пробника) 🔥 ГДЕ НАЙТИ БЕСПЛАТНУЮ ПРОВЕРКУ ОТ ИИ? Открываем меню БОБРа и выбираем «Проверка сочинений» ❕❕ Обратите внимание: пока тебе доступно 4 проверки перед ЕГЭ. Этого достаточно, чтобы проверить себя перед экзаменом. Можно сдавать в печатном виде по 1 сочинению в день.

841

Наконец-то! Найдены ответы на самые главные вопросы!

841

А блин, я в тесте ошибся. Ладно, так тоже норм

841

Этот простой бенчмарк не прошёл даже ChatGPT 5 Pro (не, в принципе то и понятно почему) Нашёл прикольный тест для токенизатора и детектора зацикливаний генераций LLM 😃

841

//TODO: Придумай тут шутку-мем про то, что потенциал NVIDIA B300 до конца не раскрыт и не известен или когда 8xH200 уже не хватает

841

💪 Обучаешь модель - обучаешься сам Побочный эффект от обучения LLM проверке сочинений по русскому языку - я сам подтягиваю знания. Сидишь такой, проверяешь датасеты и смотришь, что там моделька выдаёт. Сначала считаешь, что это галлюцинация или "притягивание за уши". А потом раз - и внезапно понимаешь, что всю жизнь писал не правильно. В русском языке много интересных случаев. Но самое интересное в том, что многие из них не так просто даже загуглить. Я собирал большой датасет с правилами русского языка. Источников было много. Но, как оказалось, у источников есть свой "срок годности". Та же gramota.ru иногда на один и тот же вопрос в разное время давала разные ответы. Что в таких случаях делать? Как понять, где наш великий и могучий изменился? Где правильно? Первая инженерная мысль - majority vote. В каких источниках чаще - там и правда. Но это не работает, поскольку язык меняется со временем. Есть реформа языка 1956 года, есть словари 1935-1940 годов, есть несколько изданий того же Лопатина и Розенталя. А есть ещё современные правила русского языка. Правильный же подход - ранжировать источники по актуальности и достоверности. Вариант в самом свежем и достоверном источнике считаем правильным. Ну т.е. условная gramota.ru неплоха, но если Рособрнадзор двумя годами позднее написал - считаем его приоритетным источником. Вот такие интересные наблюдения из вселенной этих ваших искусственных интеллектов и реального мира. Не Розенталем единым😎

841

😎 Отрадно, когда проекты, которые мы разрабатываем, получают такие награды

841

Repost from N/a

⚡️Образовательная онлайн-платформа «Школково» заняла🥇место в номинации «Малый бизнес» Национальной премии «Наш вклад». ❗️Из 644 проектов, зарегистрированных в премии, «Школково» признано лучшим в своей категории. Платформа стала первой в истории премии онлайн-школой, удостоенной этой награды. Национальная премия «Наш вклад» — механизм публичного признания вклада бизнеса и некоммерческих организаций в достижение целей и задач национальных проектов России. Особенно ценно, что это признание — наш общий вклад в образование. Мы работаем со «Школково» давно, ещё с тех пор, когда не было ни видеохостинга, ни современного функционала. И каждый день вместе с командой, учениками и их родителями мы доказываем, что качественное образование меняет будущее. 🏆Полученная награда — коллективный результат команд «Нулевого агентства» и «Школково», а также следствие доверия пользователей, разделяющих наш подход к образованию. Спасибо всем, кто верит в нас и вместе с нами создаёт этот результат. Движемся дальше🚀

841

Кстати, совсем забыл вам сказать, что вон там👆 вышла второй выпуск нашего подкаста. Теперь у него есть название - "Поясни за ИИ". Скоро третья часть. Пишите, что как вам вообще?

841

Repost from N/a

😱 Заменят ли нейросети президента? Какие профессии исчезнут из-за ИИ? Как защититься от мошенников? ⚡️Смотри в новом выпуске подкаста «Поясни за ИИ» ➡️ ВК ➡️ Rutube ➡️ YouTube

841

Оказывается, мы в AI Chief и других наших продуктах развиваем подходы, как в крупных компаниях типа OpenAI и Яндекс 🤡 Не знаю как вам, но мне это всегда казалось одним из Must Have для Enterprise продукта. Как только мы начали делать агентские схемы, агентов и продукты вокруг них - сразу это поставили в план реализации, потому что imo это очень очевидная вещь. А тут и статью на хабре, и в СМИ публикации... Да, ИИ - определенно НЕ пузырь🫠

841

Мне тут ребята подкинули тему для поста. У нас есть несколько удалёнщиков. Им задачи раньше всегда ставились в виде спецификации и в случае фронтендеров ещё макет в фигме. А тут прилетает очень интересный новый функционал и ребята решили убить сразу двух зайцев: - записать обсуждение и постановку задачи в виде видео - заодно потестить автоматическую транскрибацию, которую мы выкатили на Школково и Бобр, на предмет ошибок Краткие выводы: 1. Задачи так ставить удобно. 2. Нужен хороший микрофон - с ноута не подходит. Очень много шумов и не слышно рядом сидящих. 3. Qwen/Qwen3-ASR-1.7B в нашем случае лучше всех справляется с транскрибацией, но всё равно фейлится из-за плохой шумности, но в основном там, где и человеку то трудно разобрать слова. Но мы смогли её запустить не только для онлайн трансляций, где она работает в реалтайме, но и для записей, где после готовности всего видео транскрибация уже становится более вменяемой за достаточно малое количество ресурсов. 4. GigaAM неплохи в русском, но отвратительны в английском(его нет по сути). Дотренировывать на английские слова и термины выглядит утопичным, поэтому мы её и не используем. Такой вот dogfooding получился. Такие дела ^_^

841

Repost from N/a

⚡️На Livedigital вышло интервью с нашим генеральным директором Александром Кожевниковым. В нем обсудили то, как аналитика и ИИ меняют онлайн-образование, но не заменяют систему. Читайте подробнее ➡️ по ссылке

841

Я тут периодически даю всякие интервью. Ниже вот одно любопытное. А ещё было вот такое, но я о нём даже забыл запостить. Когда-нибудь я буду посвободнее и напишу сюда подробнее о том, чем последние несколько месяцев занимаемся, какие там есть интересные достижения и так далее.