Love. Death. Transformers.
❤️☠️🤗 Персонаж из интернета. @maxalekv по всем вопросам Реклама от 1000usd, в противном случае прошу не беспокоить. [18+] ответственность за прочитанное лежит на читателе
Більше12 941Підписники
+1324 години
+1237 днів
+68130 днів
- Підписники
- Перегляди допису
- ER - коефіцієнт залучення
Триває завантаження даних...
Приріст підписників
Триває завантаження даних...
Repost from еба́ные идеи для резерча
О будущем Ebany Резерч
Держите набор фактов, которые обязательно произойдут в ближайшее время.
1. Как только в опенсорсе появится архитектура H200 (а это произойдет, общество быстро схватывает тренды и за месяцы делает то, что компании делают годами) начнется новая эра в этом вашем AI. Каждый сможет локально собрать быстрый вычислитель и обучать по гптшке и лламе за вечер
2. Zero-bit инференс — сейчас большая гонка ускорения и квантизации моделей. Резерчеры всего мира стремятся ускорить модели и максимально эффективно использовать каждый бит. Еще недавно радовались квантизации в 8 бит, сейчас уже есть решения, которые используют 1 бит. Предел сами возьмете.
3. Internet as a context. Ну тут вообще очевидно, рост контекста и архитектурные изменения моделей (долой квадратичный атеншен) двигают нас к все более эффективному использованию контекста для ICL. Ну а что может быть эффективнее, чем поместить всю имеющуюся информацию? (вопрос риторический)
4. GPT-5, LLaMA-4 и т.п. будут. Для компаний это сильный пиар и новые пользователи, и выбирая между “ставить обучаться новую версию” и “вытягивать до последнего из имеющегося” они, конечно, будут запускать train loop вновь и вновь
5. AGI скоро будет. Начало 2023 года — MMLU даже 40 не набирает, начало 2024 года — больше 80% успешно решается. В 2025 году модели уже будут обгонять людей, а в 2026 MMLU будет решать на 100% и наступит новый виток истории.
😁 47👍 11👏 4🤩 2 1
#чтивонаночь
Как учить модели правильно? сколько эпох ставить на вики? Почему админ дрочит на data quality?
Ответы на эти и не только вопросы в обзоре - Physics of Language Models:
Knowledge Capacity Scaling Laws
teletype
arxiv для любознательных
🔥 48 14👍 3❤ 3
Думаю через некоторое время появится Тьюринг полный язык промптинга, когда мы даём модели не просто инструкцию, а инструкцию с условиями вызова инструментов, ответа инструментов и прочее
🤡 1
Repost from мужское одиночество
Привет, вижу ты как и я любишь спешиалти)
Хочешь покажу где самый вкусный цикорий заваривают?
😁 48
Тут челы сделали LLM для татарского!
https://huggingface.co/Tweeties
❤ 63😁 19👍 10🔥 5 5 4🤡 3 3 2