cookie

ما از کوکی‌ها برای بهبود تجربه مرور شما استفاده می‌کنیم. با کلیک کردن بر روی «پذیرش همه»، شما با استفاده از کوکی‌ها موافقت می‌کنید.

avatar

Data, Stories and Languages

Канал о Data Science, изучении иностранных языков, книгах и жизни. Контакт с автором https://t.me/Erlemar

نمایش بیشتر
پست‌های تبلیغاتی
882
مشترکین
+224 ساعت
+37 روز
+5030 روز

در حال بارگیری داده...

معدل نمو المشتركين

در حال بارگیری داده...

Repost from New Yorko Times
Еще немного фэйлов #fail #fake_text_detection #kaggle Собесов больше нет, а фэйлить хочется. Особенно рассказывать о них публично. Снижать publication bias тксказать. Так что вот еще. Вторая попытка организовать соревнование по детекции LLM-генерированного контента тоже провалилась. Народ снова повыбивал 99+, причем в решениях я видел даже pre-BERT модели типа AWD LSTM. Будет семинар при ACL, на котором победители расскажут про решения, но уже понятно, что там особого научного прорыва не будет, скорее эксплойт наших косяков. На бумаге все норм, сделали сореву и воркшоп при топовой конфе, но по сути так себе. Есть еще пара фэйлов, если чуть копнуть в историю. В стиле «мужик сказал - мужик сделал вид, что нихрена не говорил». Как-то мы с Андреем Лукьяненко участвовали в необычном соревновании на кэггле, где надо было эссе писать. Так вот мы ничего не выиграли, где-то на 50 место приземлились. Напрягло чутка, что среди победителей был обзор методов оптимизации, каких на Medium найдешь сотню. А еще я как-то хотел больше ютуб-видео снимать, и этого, очевидно, не произошло 😅 так что больше обещать не буду, хотя есть идеи вернуться с новым контентом к своим 20к подписчикам. Ща только зарегаюсь в Роскомнадзоре.
نمایش همه...
👍 3
Repost from ODS Events
Photo unavailableShow in Telegram
Привет! Пятничное продолжение релизов программы Data Fest 2024 🤗 Сегодня публикуем треки четырёх секций 🦜 Феста: - Speech о решении задачи обработки речи - Reliable ML про эффективное внедрение ML IRL - ML in EdTech о применении машинного обучения в образовательном процессе - DS Career (early game edition) про карьерные вопросы в начале пути Напоминаем, что Ваши реакты на блоках и треках очень важны спикерам и организаторам 😇 Переходите по ссылкам выше, смотрите доклады, скачивайте презентации и голосуйте своими эмодзи (ставьте палец вверх 👍и другие эмодзи) на страницах блоков и треков за понравившиеся видео ❤️ Выберем лучшие доклады и треки вместе!❤️
نمایش همه...
👍 6 2
Сегодня выложили трек Reliable ML в котором я делал доклад на Data Fest 2024.
نمایش همه...
🔥 1
​​Мир тесен #languages
نمایش همه...

😁 30
​​Kaggle теперь выдаёт сертификаты за соревнования Вышла новость, что теперь на каггле можно получить "сертификат" с подтверждением своего места в соревновании. Сделали это потому, что проходящие курсы Kaggle Learn очень любили сертификаты. Теперь можно зайти на leaderbord закончившегося соревнования и по кнопочке "View Certificate" получить красивую картинку с подтверждением. После завершения новых соревнований, ссылку на сертификат будут присылать прямо на почту. #datascience
نمایش همه...

🔥 17🎉 3
Горячие споры в научном сообществе о полезности и бесполезности билингвизма Иногда я просматриваю статьи не только по ML, но и на другие темы, например, про изучение иностранных языков. Бывает интересно посмотреть, как разные исследования дают весьма противоречивые результаты. Сегодня хотел бы написать про несколько статей о билингвизме. Как понятно из названия, билингвизм - когда человек может говорить на двух языках на нативном уровне. Если же человек владеет тремя языками и больше, то уже называется полиглотом. Есть статья 2012 года "An Effect of Bilingualism on the Auditory Cortex". Авторы сравнивают две группы людей - монолингвов с испанским языком и билингвов с испанским и каталонским. Представители обеих групп схожи по образованию, социально-экономическому положение и... по музыкальному опыту. Приходят к выводу о том, что у вторых стабильно больше серого вещества в мозге. В статье меня смутило несколько вещей. Первое - выбранные языки. Каталонский всё же очень похож на испанский, интереснее было бы взять билингвов с сильно различающимися языками. Второе - маленький размер выборки, всего 44. Третье - удивил акцент на музыке, но это было объяснено тем, что какое-то время назад вышла статья о том, что занятия музыкой увеличивают серое вещество, поэтому авторы этой статьи решили это учесть. Есть пара статей о том, что изучение языков помогает предотвратить деменцию, или хотя бы её отсрочить. Хотя, как мне кажется, это могло бы быть объяснено любой качественной мозговой активностью. А вот в 2020 году вышла статья с противоположным постулатом. Авторы исследовали 11041 человек, дали им 12 разных тестов, и не обнаружили какого-либо стабильно высокого уровня у билингвов. Билингвы были лучше на одном тесте, монолингвы на четырёх. Естественно, есть ещё много статей в поддержку той или иной точки зрения. Лично мне кажется, что любое изучение чего-то нового - это отлично. Но считать билингвов/полиглотов какими-то супер людьми не стоит. Достаточно просто осознать, что во многих странах мира люди с детства знают 2-3 языка - и это не делает их гениями в чём-либо другом. #languages
نمایش همه...
An Effect of Bilingualism on the Auditory Cortex

Two studies (; ) have reported a positive correlation between the ability to perceive foreign speech sounds and the volume of Heschl's gyrus (HG), the structure that houses the auditory cortex. More precisely, participants with larger left Heschl's gyri ...

👍 7 2🔥 1😁 1
​​Исследование профессионального ML-сообщества в России от Университета ИТМО ИТМО проводит анализ профессионального сообщества ML- и DS- в России. Вы можете приложить руку к честной статистике и высказать свое мнение о состоянии индустрии, лидерах рынка и в целом ML-карьере в России. Чтобы поучаствовать, нужно просто пройти опрос (это займет примерно 5 минут). Конфиденциальность гарантируется. Ваше участие поможет сформировать полную картину. Делитесь своим мнением тут: https://forms.gle/dHRsqQJteuty51Bp7 #datascience
نمایش همه...

👍 3 1
​​Подход к запоминанию слов - генерация историй с помощью ChatGPT В изучении языков один из ключевых моментов - приобретение и поддержка словарного запаса. Существует много "стандартных" подходов к этому: • Зубрение списков слов (как по мне, это самое нудное) • Придумывание фраз/предложений с этими словами • Флешкарточки со словами (либо слова сами по себе, либо с контекстом) • Пассивный вариант - поглощение контента И так далее, есть множество вариантов. Как я уже рассказывал, я активно использую Anki (флешкарточки) для повторения слов, но бывает так, что какие-то слова ну никак не откладываются в памяти - слишком часто в них ошибаюсь. Иногда я такие слова просто отбрасываю (если они очень редкие), иногда придумываю фразы с ними. Недавно я решил попробовать новый подход - беру 5-10 таких слов и прошу ChatGPT придумать историю с этими словами. В целом получается прикольно (пример на скриншоте), но даже в таких коротких текстах он иногда теряет нить повествования и забывает про то, что было сказано пару абзацев назад. #languages
نمایش همه...

👍 3 2😁 1
​​Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning Husky - универсальный open-source language agent, который решает разнообразные сложные задачи, включая numerical, tabular и knowledge-based reasoning. Husky работает в два этапа: генерирует следующее действие для решения задачи и выполняет его с помощью expert models, обновляя текущее состояние решения. В экспериментах Husky превосходит предыдущие language agents на 14 датасетах. Ещё авторы создали свой собственный датасет, и, конечно, показали, что на нём их подход отлично работает. Из забавного: почему Husky? Потому что подход использует несколько эскспертных моделей, которые подобны упряжке хаски, тянущих сани. Ну и, вначале попробовали разные базовые модели, а потом оказалось, что есть взять Llama-3-8B и тюнить её, то получится лучше всего. Paper link Code link Мои обзоры: Personal blog Medium Linkedin Pulse #paperreview
نمایش همه...

🔥 5😁 2👍 1
ВНИМАНИЕ: начиная с 26.08.2024 Slack начнёт удалять сообщения старше года в бесплатных workspace Раньше в бесплатных workspace можно было видеть историю до 90 дней (если без ухищрений в виде закладок), но при оплате становилась доступной история за всё время. Slack, видимо, понял, что большинство бесплатных workspace платить не будут, поэтому скоро он начнёт удалять старые сообщения: > We will be reducing our data storage offering for the free version of Slack; starting 26th August 2024, we’ll begin deleting messages and files more than one year old from free workspaces on a rolling basis. Link Discussion
نمایش همه...
Updates to message and file history on free workspaces

Over the years, we’ve changed our subscriptions and features to maintain the quality of Slack for our customers. As our customer base has continued to grow, so has our mission to make Slack a too...

😱 5😁 1
یک طرح متفاوت انتخاب کنید

طرح فعلی شما تنها برای 5 کانال تجزیه و تحلیل را مجاز می کند. برای بیشتر، لطفا یک طرح دیگر انتخاب کنید.