TechSparks

Аннотированные ссылки на интересные, полезные и удивительные новости хайтека. Тем, кто больше любит слушать длинное чем читать короткое — могу посоветовать свой подкаст ;) http://sebrant.chat Вопросы - @asebrant

Rusia10 725Ruso11 043Tecnologías y Aplicaciones1 619

Publicaciones publicitarias

47 593

Suscriptores

-524 horas

-57 días

-20930 días

11 492

Visitas de la publicación

~ 6 59724 horas

~ 7 73548 horas

24.15%

Tasa de compromiso

13.9%24 horas

16.3%48 horas

799

Menciones

27 días

1130 días

~ 1

Mensajes por día

~ 65

Reacciones

Sin datos

Comentarios

~ 71

Republicar

Distribuciones de tiempo de publicación

Carga de datos en curso...

Find out who reads your channel

This graph will show you who besides your subscribers reads your channel and learn about other sources of traffic.

Análisis de publicación

Mensajes	Vistas	Acciones	Ver dinámicas
01 Apple в своих коммуникациях очередной раз красавчики;))) Они же несколько лет сопротивлялись ИИ-хайпу и категорически избегали использования словосочетания artificial intelligence в любых своих материалах. Недавно сдались — стало невозможно избегать AI и не прослыть совсем уж отсталыми. Но выкрутились! Все утечки твердят: в понедельник нам представят Apple Intelligence, теперь AI в линейке бренда где-то рядом с Apple Watch;)))	5 522	58	Loading...
02 У тетриса юбилей, оказывается: стукнуло сорок лет. Поздравления Алексею Пажитнову! Что-то долгое писать не хочется, просто хочется удивляться, как живуча оказалась гениально простая штука, несмотря на всю сверхбыструю изменчивость цифрового мира. А вот фильм, который в заметке хвалят, мне совсем не понравился. https://venturebeat.com/business/tetris-turns-40-with-a-grand-old-party-the-deanbeat/	6 712	26	Loading...
03 ⚡Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)! Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае). Как заявляют авторы: 👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон); 👉 в качестве автоэнкодера видео используется специально обученный 3D VAE; 👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео. Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках). Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество: 👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео); 👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения. Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄) @dendi_math_ai	6 549	65	Loading...
04 За 20 лет в Яндексе к разным его мероприятиям имел разной степени близости отношение. Оказалось, однако, что большой фестиваль для молодежи, которая интересуется технологиями, мы ни разу не делали. Приятно поиметь отношение к первому такому событию, пусть и в роли спикера, а не организатора. Там такой лайн-ап, что в нем оказаться почетно:) YoungCon — не просто увеселительно-просветительское мероприятие. Для тех, кто хочет в Яндекс (или куда-то еще, но хочет попробовать яндексовое собеседование на своей шкуре) там такую возможность предоставят, и вы реально впечатлитесь, КАК ИМЕННО :)) И многие по итогам получат интересные офферы :) В любом случае, будет круто, весело и очень нескучно; если не вам, то, возможно, друзьям, знакомым или родственникам, поделитесь с ними (у фестиваля есть и впечатляющая онлайновая часть, так что не только с москвичами имеет смысл делиться). Ну, а я там буду в своем репертуаре: немножко про будущее, которое выглядит все страньше и которое будут строить как раз те, кто соберется с нами 27 июня. Сайт фестиваля https://yandex.ru/youngcon/ Форма для регистрации — https://clck.ru/3B6opv	7 708	114	Loading...
05 Наткнулся на интересный пейпер прошлой недели на любимую тему: Межвидовая коммуникация и АИ Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь. Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков. Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка. Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере) Сам пейпер тут: https://arxiv.org/abs/2404.18739	6 865	174	Loading...
06 Хороший термин, и логичное направление развития, а то уж слишком многие зациклились на разговорных способностях моделей и foundation models считают языковыми, пусть даже с мультимодальным входом:) И говоря про автономных агентов, часто подразумевают их способности договариваться о чем-то. Но вот предложена концепция фундаментальных агентов — foundation agents as a transformative shift in the learning paradigm of agents, которые обучаются на датасетах интерактивных данных, не обязательно человекочитаемых и вербальных. Эти агенты определяются как generally capable agents across physical and virtual worlds. Учитывая любимую любимую тему Дженсена Хуанга про general artificial robotics, воплощенный и вполне наделенный здравым смыслом и практическим жизненным опытом ИИ (уже больше чем ИИ, конечно) становится все ближе. Сама статья - https://arxiv.org/abs/2405.17009 Ее популярный пересказ-обсуждение — https://venturebeat.com/ai/how-foundation-agents-can-revolutionize-ai-decision-making-in-the-real-world/	7 348	37	Loading...
07 В видео по ссылке нет ничего сенсационного, но так уж наша память и мозги устроены, что не знаешь заранее что и как отзовется. Когда-то я прошел довольно любопытный маршрут по Великой китайской стене и должен заметить, что это совсем не легкая прогулка, опыт ходьбы по горным тропам там оказывается совсем не лишним. Потому робот, упрямо и неутомимо топающий по Стене, вдруг вызвал неожиданные чувства — от зависти до сочувствия ;) Ну а так-то да, норм маркетинг, это действительно впервые в мире :)) https://youtu.be/nx2YO3twZYs	7 435	21	Loading...
08 Один из художников, принимавших участие в эксперименте Гугла из предыдущего поста, заметил: “Ultimately, yes, we’re gonna have this democratization of image-making” — но при этом без тени осуждения. Многих же других представителей креативного класса эта перспектива пугает. Вот снова отметились музыканты. На днях руководитель Spotify в связи с отчетом о хорошей (более миллиарда евро) прибыли в первом квартале 2024, написал: Today, with the cost of creating content being close to zero, people can share an incredible amount of content. Дальше он ушел в обсуждение того, как это скажется на создании произведений на века — но музыканты вцепились в точное по сути, но обидное для них утверждение о стремящейся к нулю стоимости производства контента. Our art is not your fucking 'content' — возмутились музыканты. Для них это, безусловно, так. Но, боюсь, начальство Спотифая гораздо лучше представляет и не слишком идеализирует своих пользователей.	8 768	43	Loading...
09 Красивый креативный эксперимент Гугла — в коллаборации с художниками. Отчасти это и демонстрация того, как художники, которые хотят использовать новые инструменты, а не бороться с ними, могут работать по-новому. Задача, за которую взялись четверо художников состояла в графическом переосмыслении “Алисы в стране чудес” - и заодно сравнении результата с каноническими иллюстрациями. Использовалась модель Imagen2, но участникам проекта дали доступ к еще разрабатываемому инструменту StyleDrop. Он позволял авторам настроить модель на работу в их собственном стиле. В итоге получился интерактивный проект Infinite Wonderland, в котором читатель может кликать на любой абзац текста - и получать иллюстрацию к нему в стиле каждого из художников-участников. Сам проект можно пощупать здесь — но в зависимости от географии возможности поиграться будут разные. А периодически он просто глючит и подгружает заранее сгенеренные картинки невпопад -- но хотя бы честно об этом предупреждает.	35 980	426	Loading...
10 Я уже ссылался на TEDовскую лекцию Мустафы Сулеймана, Microsoft AI CEO, в которой он призывает найти более адекватное описание ИИ, чем просто “еще один инструмент”. Там он предлагал слово species, существа (хотя и цифровые) — и это вызвало многочисленные гневные отповеди 🙂 Но вот еще человек из важнейшей в разработке ИИ компании, Anthropic, во многом не разделяющей взглядов и подходов Microsoft, в подкасте говорит, что создание современных моделей куда больше похоже на выращивание растений или воспитание животных, чем на инженерного типа разработку софта прежних времен. И, конечно, в каменты приходят очередные “эксперты” с неумными отповедями. Но тренд формируется интересный, как и неожиданное единодушие:) https://www.youtube.com/watch?v=jqdoauxvKUM (Ссылка на пост про лекцию Сулеймана) https://t.me/techsparks/4471	9 206	81	Loading...
11 Эксперимент, который несколько лет назад привлек мое внимание, сейчас повторили в более строгих условиях и на большей выборке. Суть дела: дать человеку механический шестой палец на руке с управлением от датчиков, скажем, где-то под пяткой ноги. Никаких ИИ и инвазивных операций. Смысл: изучить, насколько быстро и насколько массово мозг людей справится с изменением телесной архитектуры и начнет использовать новые расширенные возможности тела на рефлекторном уровне. Выборка: 596 людей разного возраста, образования и т.д. Результат: лишь 13 из 596 не сумели освоиться с новой телесной возможностью. Исследователи очередной раз подтвердили, что мозг легко справляется; так что технологические расширения наших тел (например, экзоскелеты всех сортов) могут быть вполне массовыми и легко осваиваемыми. Хотя, следуя моде, авторы в основном обсуждают, что во всех таких устройствах инклюзивность должна быть заложена by design, а не то, насколько легко и просто стать киборгом:) https://www.inverse.com/health/third-thumb-study	12 878	173	Loading...
12 Вот вам под выходные немножко технооптимизма:) Меня обзывают оголтелым технооптимистом — но до Винода Хослы (почти моего ровесника, кстати) мне далеко. И он не диванный эксперт и мечтатель: успешный и предприниматель, и инвестор, он не просто треплется — он делает и финансирует. Весьма успешно. Он на протяжении 40 лет успешно практикует то, что декларирует: вместо типичных для «экспертов» тупых экстраполяций — парадоксальные, но выполнимые сценарии. За 10 минут своей зажигательной TED-речи он рассказывает и о ИИ для всех (в учебе, медицине, творчестве), и о городах без автотранспорта, и о миллиардах человекоподобных и универсально умелых роботов… И еще много о чем: 12 красивых идей. Поднимите себе настроение:) https://www.ted.com/talks/vinod_khosla_12_predictions_for_the_future_of_technology	10 060	249	Loading...
13 Media files	10 026	25	Loading...
14 Развитие дисплеев для AR и VR очков наряду к концепцией spatial computing привело к появлению очевидного нового класса устройств — безэкранные ноутбуки. Штука не массовая, но кому часто приходится летать и пытаться нормально работать на полноразмерном ноутбуке в салоне эконом-класса — тот оценит! Концепция дошла до уровня приема предзаказов на устройства Spacetop G1 с обещанием доставки в октябре. Казалось бы, несложно заменить экран на крышке на экран в очках — но на деле все сложней и интересней, потому о целая статья по ссылке, а не просто короткая новостная заметка. https://www.wired.com/story/sightful-spacetop-g1-augmented-reality-laptop/	11 358	131	Loading...
15 Очередной раз можно убедиться, что лучше один раз увидеть, чем сто раз услышать и прочитать. Про применения робособачек и летающих дронов в боевых условиях написано много, но вот китайцы выпустили официальный ролик с недавних учений, и на нем робособачки не только ведут разведку в помещениях и на местности, но и несут на себе адаптер, в который устанавливается автомат — и отлично из этого автомата поражают мишени. И привычные БПЛА тоже могут оснащаться подвесом, в котором устанавливается автомат, а не только сбрасываемые боеприпасы. Документальной картинки стрелкового роя в воздухе и стрелковой стаи на земле еще нет, но понимаешь, что это вопрос времени. И это не та фантастика, которую очень хотелось увидеть в реальности. Но что поделать. https://futurism.com/the-byte/video-china-rifle-robot-dog	12 149	110	Loading...
16 Популярный и толковый одновременно обзор смелых стартапов, рассчитывающих потеснить Nvidia на поле, где она себя чувствует царем: на рынке чипов для ИИ-разработки и применений. Подходы бодрого молодняка разнятся, но логика близка: Nvidia капитализирует свой опыт в разработке и производстве графических карт. Но что, если забыть об этом наследстве и проектировать чип сугубо под специфику современных ИИ-моделей с нуля? Так возникают, например, громадных размеров чипы от Cerebras размером с хорошую тарелку, в которых на кристалле объединены 900 000 ядер плюс память. Выигрыш в скорости обмена данными по сравнению с со скоростью обмена между картами колоссален. Groq, про которого я тут однажды уже писал, исповедует свой подход к маршрутизации, оптимизированной конкретно под LLM… Ну и так далее. Обзор интересный и позволяющий надеяться, что кажущаяся монополия в области чипов не состоится: слишком велик спрос и альтернативные разработки не страдают от отсутствия поддержки. Другое дело с производством, и тут, увы, всё намного печальней. https://www.economist.com/business/2024/05/19/can-nvidia-be-dethroned-meet-the-startups-vying-for-its-crown	11 244	62	Loading...
17 Мне кажется ироничным, что люди так боятся АИ-фейков, что в итоге купились на фейки сделанные людьми же Почти все скандальные скриншоты, где очевидно, что ответ сильно навредит пользователю – фейки, которые невозможно повторить используя Ai Overview фичу от Google Делаются такие фейк в Хроме, в режиме Dev Tools, интересно как Google с этим справится – по сути просто троллинг корпорации интернетом UPD. Пруф про фейки от NY Times: >One manipulated screenshot appeared to show Google saying that a good remedy for depression was jumping off the Golden Gate Bridge, citing a Reddit user. Ms. Levin, the Google spokeswoman, said that the company’s systems never returned that result.	12 528	53	Loading...
18 Недавно креативный класс обиделся на рекламу нового айпада Apple, те извинились, и скандал начал затихать. Но не успел сделать это окончательно, как начал разгораться новый: на сей раз причиной стала реклама уже Adobe. Причем безо всяких метафор, очень лапидарная, по сути — просто иллюстрация функционала (она-то и показана в начале поста). Но нервным фотографам хватило и этого. Совсем не революционная фишка замены фона на сгенерированный по тексту триггернула тех, кто зарабатывает фотографией объектов на реальных фонах. “Adobe seems keen to advance its AI to the point where it can sell businesses content creation that is as easy as typing short strings of words into a text box.” Это, конечно, правда — и у Adobe нет особого выбора: не они, так другие сделают; фишка очевидно массово востребована в эпоху электронной торговли продавцами всех калибров. Интересно, кто обидится следующим. https://www.fastcompany.com/91129330/adobe-photographers-controversial-ad-ai-tech-vs-creatives	13 527	67	Loading...
19 Media files	11 485	53	Loading...
20 Прикольно, конечно, читать, что бывают вполне нормальные новые электромобильчики, которые хвалят и европейские эксперты, и сотрудники Форд, — и которые при этом стоят $10 000 (ну то есть в районе миллиона в рублях…) Но меня триггернуло название: Seagull. Кто помнит советский автопром, помнит и то, какая там машина Чайкой называлась:) https://electrek.co/2024/05/22/byds-10000-seagull-ev-worrying-rivals-hits-new-markets/	13 426	47	Loading...
21 Шумно запустивший свой продукт, собравший огромную прессу и немалые денежки стартап Humane — со своим странным девайсом AI pin в виде брошки со встроенным проектором, начал искать покупателя себя любимого. Я не злорадствую, но уж больно типичный пример создания новинки, вся суть которой “а давайте сделаем просто по-другому, неважно зачем” — в сути ничего нового не предлагая. Отсылки к айфону не работают, у Джобса с видением новой сути вещей все было великолепно. Но журналисты и инвесторы ведутся на призывы крикливого меньшинства, требующего новизны любой ценой, и будут вестись дальше. Так что еще увидим немало “революционных ИИ-девайсов” 🙂 https://www.bloomberg.com/news/articles/2024-05-22/wearable-ai-startup-humane-is-said-to-explore-potential-sale	11 210	26	Loading...
22 На своей конференции Build Microsoft много интересного объявил, их новые планшеты Surface впечатляют уже не хуже эппловых. Но самый изящный — особенно учитывая, что конфа все-таки для разработчиков, а не широкой публики — ход состоял в том, чтобы вывести на сцену Сэма Альтмана, который потизерит ChatGPT-5, подчеркнет нерушимую дружбу и связь OpenAI и Microsoft и сообщит, что ChatGPT-4o уже доступен в облаке Azure. Кажется, в облачной гонке с Гуглом Microsoft очередной раз сделал красивый и мощный рывок. Результаты увидим через квартал-другой на квартальных отчетах. https://mashable.com/article/microsoft-build-2024-gpt-4o-openai-azure-ai-studio	12 284	37	Loading...
23 Беспилотные автомобили Baidu проехали 100 миллионов километров. Роботакси компании, которые развозят пассажиров в десяти городах, в том числе в Пекине, совершили 6 миллионов поездок. За всё время, как утверждают в Baidu, не было ни одной серьезной аварии. Ранее о статистике поездок отчиталась Waymo. По данным компании, её роботакси совершают 50 000 поездок в неделю.	10 567	55	Loading...
24 Сама заметка примерно ни о чем, но в ней есть любопытная деталь, которую я не отследил по другим источникам. Миша Прахин (aka imperator) — человек значимый для российской ИТ-индустрии и вполне заметный на глобальном масштабе. Окончил МИФИ, поработал в Microsoft, потом пришел после смерти Илюши Сегаловича в Яндекс на роль СТО и серьезно на этом посту потрудился. Потом вернулся в Microsoft и там плотно работал в Bing, был главой Bing Search — в том числе во время стараний интегрировать туда ИИ и надежд подвинуть Google. Но после прихода Мустафы Сулеймана на должность CEO of AI, Миша свой пост потерял. Теперь же он выступает в роли одного из новых эдвайзеров Perplexity AI — а этот стартап последовательно обещает дать нам новый поиск, основанный на ИИ и таки потеснить Google. Очень интересно будет последить за новыми шагами Perplexity AI. С одной стороны, мало кто в мире обладает таким разносторонним и масштабным опытом в области поиска и машинного обучения в нем. С другой стороны, Perplexity AI сейчас не в лучшей форме, а жизнь и процессы в стартапе немного не те, что в больших корпорациях:) https://analyticsindiamag.com/bad-times-for-perplexity-ai-begins/	10 207	45	Loading...
25 Сейчас очень любят рассуждать насчет лопат в эпоху золотой лихорадки — и почему в итоге выиграют Nvidia, строители больших датацентров, далее по списку дорогого железа. И это не просто слова; это десятки миллиардов реальных дополнительных капитальных затрат. Но есть другие исторические аналогии кроме лопат, про них тоже полезно помнить. Как вкладывались на заре железных дорог в строительство плотна, которое быстро оказалось непригодным для резко потяжелевших поездов и локомотивов и потребовало полной замены. Как на заре интернета телекомы уложили только в Штатах сотни миллионов км кабелей — якобы с заделом на будущее (в котором пришли оптика и беспроводная связь)… All the signs are that big tech has succumbed to irrational exuberance. Будущее устроено не так очевидно, как некоторым (даже инвесторам) кажется:) Другое дело, что не пользователи в итоге будут страдать:) Переизбыток инфраструктуры и отсутствие возврата инвестиций дорого обходится тем, кто вложился без оглядки. А пользователи в итоге оказываются на выгодной распродаже:))	10 526	57	Loading...
26 Разговоры об автономных агентах как светлом будущем приложений на основе больших языковых моделей добрались уже до вполне массовой деловой прессы: The Economist занимается и ликбезом, и стимуляцией интереса бизнеса. Причем разговор сразу ведут не просто про таких агентов — а про их ансамбли. В терминологии Intel — это третья стадия развития применений LLM; мы пока на первой.	10 794	82	Loading...
27 А ещё любопытно замечание Сергея Брина: в своем интервью он напомнил, что десять лет назад были представлены очки Google Glass, но устройство так и не обрело массовой популярности, а поборники privacy активно его загнобили. Во многом проблема сводилась к отсутствию killer app, которое могло бы в актуальных сценариях сделать именно очки незаменимыми. А теперь Project Astra (ИИ ассистенты с мультимодальным входом) может претендовать на роль того приложения. Говоря об идеальном совпадении — но задержавшемся на десятилетие — Брин заметил "It's funny, because it's like the perfect hardware,It's like the killer app now, 10 years later" https://www.businessinsider.com/sergey-brin-google-glass-ai-killer-app-comments-project-astra-2024-5	12 425	40	Loading...
28 Интересно наблюдать за всякими побочными волнами, которые расходятся от двух недавних презентаций. И Гугл, конечно, порождает больше волн, поскольку он куда в большей степени интегрирован в жизнь людей своими продуктами, и каждое его телодвижение влияет на миллионы, а то и сотни миллионов пользователей. Первыми, как нынче принято, всполошились и без того нервные издатели традиционной прессы. “This will be catastrophic to our traffic, as marketed by Google to further satisfy user queries, leaving even less incentive to click through so that we can monetize our content,” - без обиняков замечает представитель News/Media Alliance. Эта зацикленность на цеховых интересах, а не интересах людей, немножко достает — а заодно показывает, что с прессой не так, и почему ее проблемы лишь усугубляются со временем. https://edition.cnn.com/2024/05/15/media/google-gemini-ai-search-news-outlet-impact/	10 606	19	Loading...
29 CNBC: Подразделение роботакси китайской Baidu может стать прибыльным по итогам 2025 – Подразделение Apollo Go может получить прибыль за 2025 – Baidu является одним из крупнейших игроков на этом рынке – Пекин разрешил взимать плату за роботакси три года назад – Ездить без водителя компании разрешили прошлой осенью – Apollo Go совершила примерно 839 тыс. поездок за Q4 2023 – Около 45% из этих поездок были полностью беспилотными – Baidu также смогла экономить на автомобилях для сервиса – Роботакси 6-го поколения стоит вдвое дешевле ($28,2 тыс.) – В этом году Baidu развернет 1 тыс. таких роботакси в Ухане – Apollo Go может стать безубыточной уже в Q4 2024 @ftsec	10 364	77	Loading...
30 В тему восприятия ИИ, которая была так важна на недавней презентации OpenAI. Важны интонации голоса ИИ-собеседника, важна его мгновенная реакция на слова человека — но OpenAI демонстрировала нам бесплотный голос из смартфона. Ребята из компании Synthesia, которая идентифицирует себя как AI video engine, показали очень интересный ролик: они пересняли один из тех роликов, которые демонстрировались на презентации: там мы не видели экран смартфон, с которым разговаривал человек — а теперь нам показали этот экран с синтезированной девушкой, которая произносит реплики GPT-4o с отличной артикуляцией, живой мимикой и вообще совершенно по-человечески. Интересно, что для меня уже немного утомивший ролик сразу стал смотреться иначе. И, похоже, будущее во многих местах будет именно таким 🙂 Взгляните, познавательно.	10 471	102	Loading...
31 Прошедшие встык друг за другом презентации OpenAI и Google породили волну комментариев. Соблюду приличия и присоединюсь;) Спасибо «Собаке», что с утра прислали вопросы, и теперь я могу просто ссылочку дать. Коротко: я совсем не разочарован в Гугле; у них задачка посложнее, чем у OpenAI: они продуктовая компания, а продукты для миллиардов людей невозможно быстро перестраивать. Подробнее внутри материала «Собаки», там и обзор нормальный для пропустивших;) https://m.sobaka.ru/lifestyle/technology/182214	10 900	57	Loading...

Apple в своих коммуникациях очередной раз красавчики;))) Они же несколько лет сопротивлялись ИИ-хайпу и категорически избегали использования словосочетания artificial intelligence в любых своих материалах. Недавно сдались — стало невозможно избегать AI и не прослыть совсем уж отсталыми. Но выкрутились! Все утечки твердят: в понедельник нам представят Apple Intelligence, теперь AI в линейке бренда где-то рядом с Apple Watch;)))

Mostrar todo...

👏 60💩 18❤ 16👍 7

У тетриса юбилей, оказывается: стукнуло сорок лет. Поздравления Алексею Пажитнову! Что-то долгое писать не хочется, просто хочется удивляться, как живуча оказалась гениально простая штука, несмотря на всю сверхбыструю изменчивость цифрового мира. А вот фильм, который в заметке хвалят, мне совсем не понравился. https://venturebeat.com/business/tetris-turns-40-with-a-grand-old-party-the-deanbeat/

Mostrar todo...

Tetris turns 40 with a grand old party | The DeanBeat

At 40 years old, Tetris is one of those games you never get tired of. You grow up with it and pass it on as tradition to bring joy to a new generation.

👍 33🔥 10❤ 2

Repost from Dendi Math&AI

00:06
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram
01:32
Video unavailableShow in Telegram
00:06
Video unavailableShow in Telegram

⚡Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)! Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае). Как заявляют авторы: 👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон); 👉 в качестве автоэнкодера видео используется специально обученный 3D VAE; 👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео. Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках). Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество: 👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео); 👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения. Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄) @dendi_math_ai

Mostrar todo...

可灵大模型-kling kuaishou-03.mp46.63 MB

可灵大模型-kling kuaishou-06.mp411.30 MB

可灵大模型-kling kuaishou-07.mp410.92 MB

可灵大模型-kling kuaishou-08.mp44.26 MB

可灵大模型-kling kuaishou-12.mp44.90 MB

可灵大模型-kling kuaishou-16.mp45.48 MB

可灵大模型-kling kuaishou-19.mp46.76 MB

可灵大模型-kling kuaishou-21.mp4159.39 MB

可灵大模型-kling kuaishou-26.mp47.97 MB

🔥 19❤ 9💩 8👍 2

Photo unavailableShow in Telegram

За 20 лет в Яндексе к разным его мероприятиям имел разной степени близости отношение. Оказалось, однако, что большой фестиваль для молодежи, которая интересуется технологиями, мы ни разу не делали. Приятно поиметь отношение к первому такому событию, пусть и в роли спикера, а не организатора. Там такой лайн-ап, что в нем оказаться почетно:) YoungCon — не просто увеселительно-просветительское мероприятие. Для тех, кто хочет в Яндекс (или куда-то еще, но хочет попробовать яндексовое собеседование на своей шкуре) там такую возможность предоставят, и вы реально впечатлитесь, КАК ИМЕННО :)) И многие по итогам получат интересные офферы :) В любом случае, будет круто, весело и очень нескучно; если не вам, то, возможно, друзьям, знакомым или родственникам, поделитесь с ними (у фестиваля есть и впечатляющая онлайновая часть, так что не только с москвичами имеет смысл делиться). Ну, а я там буду в своем репертуаре: немножко про будущее, которое выглядит все страньше и которое будут строить как раз те, кто соберется с нами 27 июня. Сайт фестиваля https://yandex.ru/youngcon/ Форма для регистрации — https://clck.ru/3B6opv

Mostrar todo...

🔥 81❤ 33👍 29💩 23👎 4

Repost from Denis Sexy IT 🤖

Наткнулся на интересный пейпер прошлой недели на любимую тему: Межвидовая коммуникация и АИ Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь. Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков. Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка. Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере) Сам пейпер тут: https://arxiv.org/abs/2404.18739

Mostrar todo...

Towards Dog Bark Decoding: Leveraging Human Speech Processing for...

Similar to humans, animals make extensive use of verbal and non-verbal forms of communication, including a large range of audio signals. In this paper, we address dog vocalizations and explore the...

👍 61🔥 31❤ 12

Photo unavailableShow in Telegram

Хороший термин, и логичное направление развития, а то уж слишком многие зациклились на разговорных способностях моделей и foundation models считают языковыми, пусть даже с мультимодальным входом:) И говоря про автономных агентов, часто подразумевают их способности договариваться о чем-то. Но вот предложена концепция фундаментальных агентов — foundation agents as a transformative shift in the learning paradigm of agents, которые обучаются на датасетах интерактивных данных, не обязательно человекочитаемых и вербальных. Эти агенты определяются как generally capable agents across physical and virtual worlds. Учитывая любимую любимую тему Дженсена Хуанга про general artificial robotics, воплощенный и вполне наделенный здравым смыслом и практическим жизненным опытом ИИ (уже больше чем ИИ, конечно) становится все ближе. Сама статья - https://arxiv.org/abs/2405.17009 Ее популярный пересказ-обсуждение — https://venturebeat.com/ai/how-foundation-agents-can-revolutionize-ai-decision-making-in-the-real-world/

Mostrar todo...

❤ 21🔥 3👍 2

В видео по ссылке нет ничего сенсационного, но так уж наша память и мозги устроены, что не знаешь заранее что и как отзовется. Когда-то я прошел довольно любопытный маршрут по Великой китайской стене и должен заметить, что это совсем не легкая прогулка, опыт ходьбы по горным тропам там оказывается совсем не лишним. Потому робот, упрямо и неутомимо топающий по Стене, вдруг вызвал неожиданные чувства — от зависти до сочувствия ;) Ну а так-то да, норм маркетинг, это действительно впервые в мире :)) https://youtu.be/nx2YO3twZYs

Mostrar todo...

Meet XBot-L, the first humanoid robot to climb the Great Wall

As the old adage goes, one cannot claim to be a true man without a visit to the Great Wall of China. XBot-L, a full-sized humanoid robot developed by Robot Era, recently acquitted itself well in a walk along sections of the Great Wall. Robot Era staff took the machine out for a test to showcase its locomotion, dexterity and self-balancing capabilities, following upgrades such as perceptive reinforcement learning algorithms. These innovations give a boost to XBot-L's ability to navigate rugged, uneven terrain, stably climb up winding stairs and adapt to various environments, including the Great Wall's dark archways.

👍 31❤ 4👎 1💩 1

Один из художников, принимавших участие в эксперименте Гугла из предыдущего поста, заметил: “Ultimately, yes, we’re gonna have this democratization of image-making” — но при этом без тени осуждения. Многих же других представителей креативного класса эта перспектива пугает. Вот снова отметились музыканты. На днях руководитель Spotify в связи с отчетом о хорошей (более миллиарда евро) прибыли в первом квартале 2024, написал: Today, with the cost of creating content being close to zero, people can share an incredible amount of content. Дальше он ушел в обсуждение того, как это скажется на создании произведений на века — но музыканты вцепились в точное по сути, но обидное для них утверждение о стремящейся к нулю стоимости производства контента. Our art is not your fucking 'content' — возмутились музыканты. Для них это, безусловно, так. Но, боюсь, начальство Спотифая гораздо лучше представляет и не слишком идеализирует своих пользователей.

Mostrar todo...

Musicians outraged as Spotify CEO claims the "cost of creating content" is "close to zero": "Our albums took hundreds of hours of human effort, hard work and creativity"

Daniel Ek's comments arrive as Spotify reports record profits of over €1bn in Q1 2024

👍 42💩 26❤ 4👎 3🔥 2

Красивый креативный эксперимент Гугла — в коллаборации с художниками. Отчасти это и демонстрация того, как художники, которые хотят использовать новые инструменты, а не бороться с ними, могут работать по-новому. Задача, за которую взялись четверо художников состояла в графическом переосмыслении “Алисы в стране чудес” - и заодно сравнении результата с каноническими иллюстрациями. Использовалась модель Imagen2, но участникам проекта дали доступ к еще разрабатываемому инструменту StyleDrop. Он позволял авторам настроить модель на работу в их собственном стиле. В итоге получился интерактивный проект Infinite Wonderland, в котором читатель может кликать на любой абзац текста - и получать иллюстрацию к нему в стиле каждого из художников-участников. Сам проект можно пощупать здесь — но в зависимости от географии возможности поиграться будут разные. А периодически он просто глючит и подгружает заранее сгенеренные картинки невпопад -- но хотя бы честно об этом предупреждает.

Mostrar todo...

Styledrop is Google's protoype AI image tool for creative work - Fast Company

Designers trained an AI model to produce images in their own style, showing how the perceptions of AI tools within the industry are evolving.

👍 29👎 12❤ 7💩 6🔥 3

Я уже ссылался на TEDовскую лекцию Мустафы Сулеймана, Microsoft AI CEO, в которой он призывает найти более адекватное описание ИИ, чем просто “еще один инструмент”. Там он предлагал слово species, существа (хотя и цифровые) — и это вызвало многочисленные гневные отповеди 🙂 Но вот еще человек из важнейшей в разработке ИИ компании, Anthropic, во многом не разделяющей взглядов и подходов Microsoft, в подкасте говорит, что создание современных моделей куда больше похоже на выращивание растений или воспитание животных, чем на инженерного типа разработку софта прежних времен. И, конечно, в каменты приходят очередные “эксперты” с неумными отповедями. Но тренд формируется интересный, как и неожиданное единодушие:) https://www.youtube.com/watch?v=jqdoauxvKUM (Ссылка на пост про лекцию Сулеймана) https://t.me/techsparks/4471

Mostrar todo...

Seeing into the A.I. black box | Interview

Josh Batson, a researcher at the A.I. startup Anthropic, joins us to explain how an experiment that made the chatbot Claude obsessed with the Golden Gate Bridge represents a major breakthrough in understanding how large language models work. (this is a clip from episode 85

https://youtu.be/AUfkY0ZQSAw?si=QB8OaaSfmx3OYbkV

) Additional reading: Mapping the Mind of a Large Language Model

https://www.anthropic.com/news/mapping-mind-language-model

Hard Fork is a weekly look into the future that's already here. Hosts Kevin Roose and Casey Newton explore stories from the bleeding edge of tech. Casey’s publication, Platformer:

https://www.platformer.news/

https://www.tiktok.com/@hardfork?is_from_webapp=1&sender_device=pc

Insta: Kevin Roose-

https://www.instagram.com/kevinroose/?hl=en

Casey Newton -

https://www.instagram.com/crumbler/?hl=en

Twitter (X): Kevin -

https://x.com/kevinroose?s=20

Casey -

https://x.com/CaseyNewton?s=20

Threads: Kevin -

https://www.threads.net/@kevinroose

Casey -

https://www.threads.net/@crumbler

Subscribe to the audio only podcast: Apple -

https://podcasts.apple.com/us/podcast/hard-fork/id1528594034

Spotify -

https://open.spotify.com/show/44fllCS2FTFr2x2kjP9xeT?si=f4a017fd2201479d

Amazon -

https://music.amazon.com/podcasts/7c7fe198-e6a8-41a8-b0fe-1d46b976dcd8/hard-fork

Google -

https://podcasts.google.com/feed/aHR0cHM6Ly9mZWVkcy5zaW1wbGVjYXN0LmNvbS9sMmk5WW5UZA==

The New York Times -

https://www.nytimes.com/column/hard-fork

Credits “Hard Fork” is hosted by Kevin Roose and Casey Newton. Produced by Rachel Cohn and Whitney Jones . Edited by Jen Poyant. Engineering by Alyssa Moxley and original music by Dan Powell, Elisheba Ittoop and Marion Lozano. Our audience is Nell Gallogly. Video production by Ryan Manning and Dylan Bergeson. Motion graphics by Phil Robibero Thumbnails by Julia Moburg, Elizabeth Bristow, and Harshal Duddalwar Special thanks to Paula Szuchman, Pui-Wing Tam, Nell Gallogly, Kate LoPresti and Jeffrey Miranda.

❤ 37👍 18💩 9👎 3🔥 2