Анализ данных (Data analysis)

رفتن به کانال در Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

نمایش بیشتر

شبکه:Machinelearning روسيا12 484 فناوری و برنامه‌ها2 657...

📈 تحلیل کانال تلگرام Анализ данных (Data analysis)

کانال Анализ данных (Data analysis) (@data_analysis_ml) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 50 256 مشترک است و جایگاه 2 657 را در دسته فناوری و برنامه‌ها و رتبه 12 484 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 50 256 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 25 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 38 و در ۲۴ ساعت گذشته برابر 0 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید نشده
نرخ تعامل (ER): میانگین تعامل مخاطب 8.85% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 6.52% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 4 447 بازدید دریافت می‌کند. در اولین روز معمولاً 3 278 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 28 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند llm, контекст, openai, архитектура, deepseek تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 26 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

50 256

مشترکین

اطلاعاتی وجود ندارد24 ساعت

+377 روز

+3830 روز

4 447

نمایش های پست

~ 3 27824 ساعت

~ 3 76448 ساعت

8.85%

نرخ مشارکت

~ 5

پست های در روز

Ads index

beta

آرشیو پست ها

50 256

Repost from YTsaurus Community Chat (RU)

🦖 Вебинар YTsaurus. DWH Яндекс Go: как мы готовим наши петабайты Новый вебинар YTsaurus — об использовании платформы в реальных сервисах. В гостях — Яндекс Go, суперапп с разными сервисами внутри, который основан на data driven подходе. Владимир Верстов и Николай Гребенщиков из команды разработки Data Management Platform Яндекс Go расскажут, какие требования команда предъявляет к системам хранения и расскажет, как с этими требованиями справляется YTsaurus. Ждём 28 июня в 18:30 Мск. Участие бесплатное, зарегистрироваться можно по ссылке. Также запись вебинара будет доступна на YouTube.

50 256

⏩ Повысьте уровень своих навыков в области ИИ: Список бесплатных курсов Google Top 8. 1. Introduction to Generative AI - введение в генеративный ИИ Этот курс погрузит вас в основаы генеративного ИИ, 2. Introduction to Large Language Models - в курсе вы узнаете о больших языковых моделях (LLM), которые представляют собой разновидность искусственного интеллекта, способного генерировать текст, переводить языки, писать различные виды креативного контента и информативно отвечать на ваши вопросы. 3. Introduction to Responsible AI - этот курс расскажет вам об этичном и ответственном использовании искусственного интеллекта. Вы узнаете о различных этических проблемах ИИ, таких как предвзятость, конфиденциальность и безопасность. Вы также узнаете о некоторых лучших практиках разработки ИИ. 4. Introduction to Image Generation - этот курс расскажет вам о генерации изображений, разновидности искусственного интеллекта, способного создавать изображения на основе текстовых описаний. Вы узнаете о различных типах алгоритмов генерации изображений, о том, как они работают, и о некоторых из их наиболее распространенных применений. 5. Encoder-Decoder Architecture - этот курс расскажет вам об архитектуре модели кодера-декодера, которые представляют собой тип архитектуры нейронной сети, широко используемой для задач обработки естественного языка, таких как машинный перевод и резюмирование текста. Вы узнаете о различных компонентах архитектур энкодер-декодер, о том, как они работают, и о некоторых наиболее распространенных областях их применения. 6. Attention Mechanism - В этом курсе вы узнаете о механизме attention - технике, которая используется для повышения производительности нейронных сетей в задачах обработки естественного языка. 7. Transformer Models and BERT Model - В этом курсе вы изучите архитектуру трансформеров, которые представляют собой тип архитектуры нейронной сети, показавшей свою эффективность при решении задач обработки естественного языка. 8. Create Image Captioning Models - Этот курс научит вас создавать модели автоматического описания изображений, которые представляют собой разновидность искусственного интеллекта, способного генерировать подписи к изображениям. @data_analysis_ml

50 256

🖥 Введение для Python-разработчиков в Prompt Engineering GPT-4 Это пошаговое руководство, представляет собой введение в Prompt Engineering для Python программистов и датасаентистов. Цель руководства, состоит в том, чтобы помочь вам понять, как эффективно управлять GPT-4 для достижения оптимальных результатов в процессе разработки на Python. ▪Читать @data_analysis_ml

50 256

27 июня X5 Tech проведёт Customer Analytics Meetup Спикеры компании поделятся, как удалось найти замену Vendor-Lock и оперативно внедрить альтернативное решение для предоставления клиентской аналитики в режиме реального времени на базе open-source технологий Clickhouse и Redis. В спикерах - менеджер направления клиентской аналитики в цифровых каналах, архитектор данных и старший разработчик. Регистрация обязательна. Больше информации здесь

50 256

✔ Плохие модели машинного обучения? Но их можно откалибровать Модели машинного обучения часто оцениваются по их производительности, близости какого-либо показателя к нулю или единице, но это не единственный фактор, которым определяется их полезность. В некоторых случаях модель, в целом не очень точную, можно откалибровать и найти ей применение. В чем же разница между хорошими калибровкой и производительностью, и когда одна предпочтительнее другой? Калибровка вероятности Калибровка вероятности — это степень, с которой прогнозируемые в модели классификации вероятности соответствуют истинной частотности целевых классов в наборе данных. Прогнозы откалиброванной модели в совокупности тесно соотносятся с фактическими результатами. На практике это означает, что если из множества прогнозов идеально откалиброванной модели двоичной классификации учесть только те, для которых моделью предсказана 70%-ная вероятность положительного класса, то модель должна быть корректной в 70% случаев. Аналогично, если учесть только примеры, для которых моделью прогнозируется 10%-ная вероятность положительного класса, эталонные данные окажутся положительными в 1 из 10 случаев. ▪ Читать @data_analysis_ml

50 256

⚠️ Как разработчику повысить свою зарплату? Один из вариантов — освоить MS SQL. 🦾 Знание этой СУБД может стать вашим конкурентным преимуществом и аргументом для повышения заработной платы. Пройди хардкорный тест по MS SQL и проверь свой уровень. Ответишь — пройдешь на углубленный курс «MS SQL Server Developer» от OTUS по специальной цене + получишь мастер-класс от преподавателя 🧑‍💻 Регистрируйся на открытый урок «Генерируем QR код в MS SQL server» и протестируй обучение 28 июня — https://otus.pw/GZmve/ 🔥 ПРОЙТИ ТЕСТ https://otus.pw/SeLu/ Нативная интеграция. Информация о продукте www.otus.ru

50 256

🖥 DeepPavlov «из коробки» для задачи NLP на Python У меня возникла необходимость автоматизированного анализа текста постов на habr.com. Рассмотрю задачу, которая позволяет находить в заданном тексте ответы на вопросы (Context Question Answering, далее CQA). В процессе работы над решением задачи оказался полезным сервис HuggingFace, предлагающий множество мультиязычных передобученных NLP моделей. Однако, при обработке текста на русском языке предпочтение было отдано российскому инструменту DeepPavlov, специализирующемуся на задачах NLP. Тем более, что DeepPavlov позволяет работать с NLP-моделями, представленными на HuggingFace «из коробки». Разобью задачу на три этапа: Загрузить текст поста с habr.com. Подготовить набор вопросов из ответов. Настроить deepPavlov для решения задачи CQA. Для получения текста постов с habr.com воспользуюсь библиотеками urllib для загрузки html-документа с сайта и bs4 для доступа к элементам. Библиотека urllib входит в состав предустановленных библиотек языка Python, а библиотеку bs4 можно установить с помощью команды: pip install beautifulsoup4 Код для получения текста по заданному url представлю в виде функций getHtmlDocument и getTextFromHtml:

from urllib import request
def getHtmlDocument(url):
    """ Получаем html-документ с сайта по url. """
    fp = request.urlopen(url)
    mybytes = fp.read()
    fp.close()
    return mybytes.decode('utf8')
from bs4 import BeautifulSoup
def getTextFromHtml(HtmlDocument):
    """ Получаем текст из html-документа. """
    soup = BeautifulSoup(HtmlDocument,
                                                             features='html.parser')
    content = soup.find('div', {'id': 'post-content-body'})
    return content.text

Набор вопросов из ответов выглядит следующим образом:

questions = (
    'О чём пост?',
    'Какая цель поста?',
    'Какая задача решалась?',
    'Что использовалось в работе?',
    'Какие выводы?',
    'Что использовалось?',
    'Какие алгоритмы использовались?',
    'Какой язык программирования использовали?',
    'В чём отличия?',
    'Что особенного проявилось?',
    'Какова область применения?',
    'Что получено?',
    'Каков результат?',
    'Что получено в заключении?',
)

Далее перейду к настройке deepPavlov для решения задачи СQA. Установлю библиотеку deeppavlov в соответствии с официальным сайтом проекта: pip install deeppavlov, transformers Импортирую объекты configs и build_model с помощью команд:


from deeppavlov import configs, build_model

Далее инициализирую загрузку модели squad_ru_bert командой:

model = build_model('squad_ru_bert', download=True)

Модель squad_ru_bert — это модель глубокого обучения на основе архитектуры BERT, обученная на наборе данных SQuAD-Ru, который содержит пары вопрос-ответ на русском языке. Выберу посты с habr.com:


paper_urls = (
'https://habr.com/ru/articles/339914/',
'https://habr.com/ru/articles/339915/',
'https://habr.com/ru/articles/339916/',
)

и воспользуюсь моделью squad_ru_bert для построения ответов на указанные выше вопросы (questions) для каждого поста из списка paper_urls:

for url in paper_urls:
    content = getTextFromHtml(getHtmlDocument(url))
    for q in questions:
       answer = model([content], [q])
       if abs(answer[2] – 1) > 1e-6:
    print(q, ' ', answer[0])

Результатом работы модели является: — фрагмент текста, который является ответом на заданный вопрос на основании текста, — позиция этого ответа в тексте и качество полученного результата. Примеры «удачных» ответов, по моему мнению, на вопросы отмечены зелёным цветом на рисунках 1-3. ▪ Статья @data_analysis_ml

50 256

Spark UDAF — мощный инструмент для анализа данных и обработки сложных операций агрегации в Apache Spark. Как с помощью него разработать свой агрегатор? 📆Поговорим об этом 27 июня в 20:00 с Вадимом Заигриным, ведущим эксперт по технологиям в Сбербанке и преподавателем OTUS. Вебинар «Spark UDAF: разрабатываем свой агрегатор» приурочен к старту онлайн-курса «Spark Developer» в OTUS. 💻На открытом уроке рассмотрим агрегирование данных в Spark, стандартные агрегатные функции и создание собственных агрегатные функции (UDAF). После вебинара вы научитесь создавать собственные агрегатные функции. Урок предназначен для разработчиков Spark, которые хотят выйти за рамки стандартных функций и узнать, как создавать собственные агрегатные функции. Не упустите возможность получить ценные знания, продолжить обучение вы сможете на курсе, доступном в рассрочку. ➡️Для участия пройдите вступительный тест: https://otus.pw/CIUu/ Нативная интеграция информация о продукте www.otus.ru

50 256

HInt: Ускорение регулярных выржаений в 127 раз в 2 строках кода Скомпилируйте ваш шаблоны Regex с помощью re.compile(<pattern>). Функция предварительно скомпилирует регулярные выражения в байткод. Далее мы будем используйте кэш LRU. Кэш хранит результат вызова функции, возвращая ранее вычисленный результат при последующих вызовах для тех же входных параметров. Таким образом, медленный Regex будет выполняться только один раз для каждой уникальной строки (~1 мкс), а последующие вызовы происходят за время O(1) (~20 нс).

import re
from functools import lru_cache

text = '''Lorem ipsum dolor sit amet...'''

compiled = re.compile(r'i')

@lru_cache
def cache(text):
    return compiled.findall(text)

# Протестировано на: Apple M2 Pro, 32 ГБ оперативной памяти, Python 3.11.3

%%timeit
re.findall(r'i', text)

%%timeit
re.compile(r'i')

%%timeit
cache(text)

# Naive:    3.13 µs ± 24.2 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
# Compiled: 2.96 µs ± 43.2 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
# Cached:   24.8 ns ± 0.325 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)

@data_analysis_ml

50 256

Хотите принять участие в создании лучшей системы безопасности? 👨‍💻 Тогда приходите на One Day Offer для Data Scientists и Machine Learning Engineers 24 июня и за один день станьте частью команды, которая развивает систему форд-мониторинга для защиты клиентов Сбера везде: от онлайн-покупок до визитов в офисы. Чем предстоит заниматься, если вы успешно пройдете отбор: ✔️ Создавать real-time, look-alike и графовые модели выявления транзакций, устройств и связей мошенников и мошеннических групп. ✔️ Строить модели обработки, классификации и суммаризации обращений по мошенничеству. ✔️ Внедрять модели и мониторить эффективность их работы. ✔️ Развивать внутренние ML-pipelines. Наша система безопасности уже признана одной из лучших в мире, но мы абсолютно уверены, что с вами она станет еще круче. Скорее переходите по ссылке, регистрируйтесь на One Day Offer и будьте готовы пройти все этапы отбора за один день! 👌

50 256

🖥 Docker для Data Science — введение Когда вы отправляете свой код машинного обучения команде инженеров, могут возникнуть проблемы совместимости с различными операционными системами и версиями библиотек. Эти проблемы могут вызвать сбои в выполнении кода и затруднить совместную работу. Однако есть мощный инструмент, способный облегчить эти проблемы — Docker . В этом подробном руководстве мы не только познакомим вас с основными понятиями Docker, но и проведем вас через процесс установки. Затем мы продемонстрируем его практическое использование на реальных примерах, что позволит вам воочию убедиться в его эффективности. Кроме того, мы углубимся в лучшие отраслевые практики, предоставив ценные идеи и стратегии для оптимизации рабочего процесса машинного обучения с помощью Docker. ▪ Читать @data_analysis_ml

50 256

Какому специалисту любая компания сделает оффер на 30% выше рынка? Тому, кто понимает бизнес, выдаëт прибыльные гипотезы и продуктовые рекомендации, помогает коллегам принимать решения на основе данных. Как научиться этому бесплатно? Павел в своем канале пишет о карьерном росте и развитии аналитической культуры в компаниях. Благодаря ему, вы узнаете: - как проходить 8 из 10 собеседований и попасть в компанию мечты - как решать распространенные задачи с собеседований - что нужно продуктовому аналитику для офферов выше среднего по рынку Еще 6 лет назад Павел начинал с онлайн курсов, а сегодня руководит командой из 8 аналитиков и инженеров данных. А также менторит компании и профессионалов из Сбера, X5, Lamoda и других крупных брендов. Ссылка для тех, кто хочет быстрее расти по карьере: https://t.me/nodatanogrowth

50 256

⏩ Pick-a-Pic — это новый датасет для обучения моделей генерации изображения из текста, содержащий более 500 000 изображений и оценки пользователей для каждого изображения. Датасет использовали для обучения функции оценки релевантности изображения введенному запросу. Сравнение PickScore с FID, устоявшейся метрикой для оценки генеративных моделей, показало, что даже при оценке по подписям MS-COCO, PickScore демонстрирует сильную корреляцию с предпочтениями пользователей (0,917), в то время как ранжирование с помощью FID дает отрицательную корреляцию (-0,900). PickScore коррелирует с ранжированием «экспертов» гораздо сильнее, что делает PickScore наиболее надежной метрикой скоринга по сравнению с существующими. ▪Github ▪Статья ▪Модель ▪Датасет @data_analysis_ml

50 256

Набор инструментов Data Scientist: гайд по использованию основных функций sklearn с примерами кода. Python имеет множество библиотек, которые делают его одним из наиболее часто используемых языков программирования. Большинство из них имеют схожие функции и могут использоваться друг с другом и достигать одинаковых результатов. Но когда дело доходит до машинного обучения, единственная библиотека, о которой мы можем говорить, это sklearn. Итак, в этой статье я расскажу про пять самых важных особенностей sklearn. Читать @data_analysis_ml

50 256

Где набраться опыта в аналитике данных, структурировать знания и узнать, как с рабочими задачами справляются профессионалы? Получите опыт, сопоставимый с работой в крупной компании — пройдите 5 недель интенсивной практики на «Симуляторе аналитика». Здесь вы с нуля выстроите аналитические процессы, поработаете с настоящей инфраструктурой, научитесь уверенно справляться с ежедневными задачами аналитика и поймёте, какая логика стоит за каждым решением. Наставники курса: ▪️Анатолий Карпов (работал ведущим аналитиком VK и JetBrains) ▪️Мария Сомова (senior аналитик VK) ▪️Ян Пиле (руководитель группы аналитики поиска VK) Они точно знают, как эффективно решать рабочие задачи, и готовы поделиться опытом с вами. Новый поток стартует уже сегодня! Успейте записаться!

50 256

Продвинутый NumPy: оттачивайте навыки с помощью 25 иллюстрированных упражнений В этой статье мы рассмотрим 25 различных упражнений, используя библиотеку NumPy (и сравним с тем, как мы бы реализовали их без неё). Рекомендуется, чтобы читатель имел средний уровень знаний Python, NumPy, numpy.dtype, numpy.ndarray.strides и numpy.ndarray.itemsize. ▪Читать @data_analysis_ml

50 256

🔥 Подборка каналов для Дата сайентиста 🖥 Machine learning ai_ml – машинное обучение, ии, нейросети! @bigdatai - Big Data @machinelearning_ru – гайды по машинному обучению @machinelearning_interview – подготовка к собеседованию мл. @datascienceiot – бесплатные книги ds @ArtificialIntelligencedl – ИИ @machinee_learning – чат о машинном обучении @datascienceml_jobs - вакансии ds, ml @Machinelearning_Jobs - чат с вакансиями #️⃣ c# c++ C# - погружение в C# @csharp_cplus чат С++ - обучающий канал по C++. @csharp_1001_notes - инструменты C# 🖥 SQL базы данных @sqlhub - Повышение эффективности кода с грамотным использованием бд. @chat_sql - чат изучения бд. 👣 Golang @Golang_google - восхитительный язык от Google, мощный и перспективный. @golang_interview - вопросы и ответы с собеседований по Go. Для всех уровней разработчиков. @golangtests - интересные тесты и задачи GO @golangl - чат изучающих Go @GolangJobsit - отборные вакансии и работа GO @golang_jobsgo - чат для ищущих работу. @golang_books - полезные книги Golang @golang_speak - обсуждение языка Go @golangnewss - новости go 🖥 Linux linux - kali linux ос для хакинга linux chat - чат linux для обучения и помощи. @linux_read - бесплатные книги linux 🖥 Python @pythonl - главный канал самого популярного языка программирования. @pro_python_code – учим python с ментором. @python_job_interview – подготовка к Python собеседованию. @python_testit - проверочные тесты на python @pythonlbooks - современные книги Python @python_djangojobs - работа для Python программистов @python_django_work - чат обсуждения вакансий 🖥 Javascript / front @react_tg - - 40,14% разработчиков сайтов использовали React в 2022 году - это самая популярная библиотека для создания сайтов. @javascript -канал для JS и FrontEnd разработчиков. Лучшие практики и примеры кода. Туториалы и фишки JS @Js Tests - каверзные тесты JS @hashdev - погружение в web разработку. @javascriptjobjs - отборные вакансии и работа FrontEnd. @jsspeak - чат поиска FrontEnd работы. 🖥 Java @javatg - выучить Java с senior разработчиком на практике @javachats - чат для ответов на вопросы по Java @java_library - библиотека книг Java @android_its - Android разработка @java_quizes - тесты Java @Java_workit - работа Java @progersit - шпаргалки ит 👷‍♂️ IT работа https://t.me/addlist/_zyy_jQ_QUsyM2Vi -ит каналы по яп с вакансиями 🤡It memes @memes_prog - ит-мемы ⚙️ Rust @rust_code - Rust избавлен от болевых точек, которые есть во многих современных яп @rust_chats - чат rust 📓 Книги https://t.me/addlist/HwywK4fErd8wYzQy - актуальные книги по всем яп ⭐️ Нейронные сети @vistehno - chatgpt ведет блог, решает любые задачи и отвечает на любые ваши вопросы. @aigen - сети для генерации картинок. видео, музыки и многого другого. @neural – погружение в нейросети. 📢 English for coders @english_forprogrammers - Английский для программистов 🖥 Devops Devops - канал для DevOps специалистов.

50 256

📚5 бесплатных книг Julia для дата сайентистов Julia — высокоуровневый, высокопроизводительный язык программирования с динамической типизацией для математических вычислений. Синтаксис похож на матлабово семейство, язык написан на Си, С++ и Scheme, есть возможность вызова Сишных библиотек Откройте для себя весь потенциал языка программирования Julia для анализа и моделирования данных с помощью исчерпывающего руководства, в котором рассматривается все - от синтаксиса до передовых методов. 1. Think Julia Отличная книга-гайд для занакомства с Julia. 2. Julia as a Second Language Книга начинается с введения в Julia и истории ее создания, затем описываются особенности яп, преимущества и уникальные функции. В книге приводится сравнение Julia с другими популярными языками программирования, такими как Python, MATLAB и R. 3. Statistics with Julia В книге рассматриваются базовый синтаксис, основы статистики, включая теорию вероятностей, описательную статистику, статистический вывод, статистические методы. 4. Julia Data Science Книга начинается со знакомства с синтаксисом языка Julia, структурами данных, файловыми системами и стандартными библиотеками. Затем автор переходит к темам, важным для анализа и моделирования данных с использованием фреймов данных и библиотек визуализации данных. 5. Julia for Data Analysis Книга посвящена основам программирования на языке Julia, вы изучите синтаксис, особенности и структуры данных языка. Далее вы погрузитесь в материалы по Julia, которые важны при создании масштабируемых проектов. @data_analysis_ml

50 256

🖋 Нечеткое сравнение строк с помощью rapidfuzz Недавно у меня возникла Недавно у меня возникла задача, в процессе которой потребовалось нечеткое сравнение строк. Ниже кратко опишу суть. Проблема: на входе большое количество сканов документов в pdf формате, которые с помощью Adobe FineReader переведены в текстовые документы формата docx и мне необходимо произвести некоторую классификацию. К счастью тренировать NLP модель для этого не потребуется, т.к. документы легко классифицируются по содержанию в них конкретной фразы и мне остается лишь определить есть ли эта фраза в документе. С другой стороны, я еще далек от идеального будущего, в котором computer vision правильно распознает даже скан плохого качества, и поэтому текст в формат docx трансформировался с ошибками. Например, фраза «объект залога» может превратиться в «обb ект %алога». Задача: написать функцию, которая определяет есть ли в документе определенная формулировка, с учетом неправильного преобразования текста., в процессе которой потребовалось нечеткое сравнение строк. Ниже кратко опишу суть. Проблема: на входе большое количество сканов документов в pdf формате, которые с помощью Adobe FineReader переведены в текстовые документы формата docx и мне необходимо произвести некоторую классификацию. К счастью тренировать NLP модель для этого не потребуется, т.к. документы легко классифицируются по содержанию в них конкретной фразы и мне остается лишь определить есть ли эта фраза в документе. С другой стороны, я еще далек от идеального будущего, в котором computer vision правильно распознает даже скан плохого качества, и поэтому текст в формат docx трансформировался с ошибками. Например, фраза «объект залога» может превратиться в «обb ект %алога». Задача: написать функцию, которая определяет есть ли в документе определенная формулировка, с учетом неправильного преобразования текста. С чего начнем? Прежде чем бежать писать функцию, надо определиться каким методом производить нечеткое сопоставление строк. Выбор тут не самый широкий, было решено протестировать три варианта: сравнение по косинусному сходству; сравнение по сходству Левенштейна; сравнение по сходству Джаро-Винклера. Критерии, по которым предстоит выбрать лучший вариант: скорость выполнения (документов довольно много, нужно находить подстроку за разумное время); правильность сравнения (нечеткое сравнение на то и нечеткое, потому что требуется некая экспертная оценка того, как отрабатывает критерий сравнения), простота реализации. ▪Читать дальше ▪RapidFuzz @data_analysis_ml