Анализ данных (Data analysis)
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
Show more📈 Analytical overview of Telegram channel Анализ данных (Data analysis)
Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 256 subscribers, ranking 2 657 in the Technologies & Applications category and 12 484 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 256 subscribers.
According to the latest data from 25 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 38 over the last 30 days and by 0 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 8.85%. Within the first 24 hours after publication, content typically collects 6.52% reactions from the total number of subscribers.
- Post reach: On average, each post receives 4 447 views. Within the first day, a publication typically gains 3 278 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 28.
- Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
Thanks to the high frequency of updates (latest data received on 26 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
Нативная интеграция. Информация о продукте www.otus.rupip install beautifulsoup4
Код для получения текста по заданному url представлю в виде функций getHtmlDocument и getTextFromHtml:
from urllib import request
def getHtmlDocument(url):
""" Получаем html-документ с сайта по url. """
fp = request.urlopen(url)
mybytes = fp.read()
fp.close()
return mybytes.decode('utf8')
from bs4 import BeautifulSoup
def getTextFromHtml(HtmlDocument):
""" Получаем текст из html-документа. """
soup = BeautifulSoup(HtmlDocument,
features='html.parser')
content = soup.find('div', {'id': 'post-content-body'})
return content.text
Набор вопросов из ответов выглядит следующим образом:
questions = (
'О чём пост?',
'Какая цель поста?',
'Какая задача решалась?',
'Что использовалось в работе?',
'Какие выводы?',
'Что использовалось?',
'Какие алгоритмы использовались?',
'Какой язык программирования использовали?',
'В чём отличия?',
'Что особенного проявилось?',
'Какова область применения?',
'Что получено?',
'Каков результат?',
'Что получено в заключении?',
)
Далее перейду к настройке deepPavlov для решения задачи СQA. Установлю библиотеку deeppavlov в соответствии с официальным сайтом проекта:
pip install deeppavlov, transformers
Импортирую объекты configs и build_model с помощью команд:
from deeppavlov import configs, build_model
Далее инициализирую загрузку модели squad_ru_bert командой:
model = build_model('squad_ru_bert', download=True)
Модель squad_ru_bert — это модель глубокого обучения на основе архитектуры BERT, обученная на наборе данных SQuAD-Ru, который содержит пары вопрос-ответ на русском языке.
Выберу посты с habr.com:
paper_urls = (
'https://habr.com/ru/articles/339914/',
'https://habr.com/ru/articles/339915/',
'https://habr.com/ru/articles/339916/',
)
и воспользуюсь моделью squad_ru_bert для построения ответов на указанные выше вопросы (questions) для каждого поста из списка paper_urls:
for url in paper_urls:
content = getTextFromHtml(getHtmlDocument(url))
for q in questions:
answer = model([content], [q])
if abs(answer[2] – 1) > 1e-6:
print(q, ' ', answer[0])
Результатом работы модели является:
— фрагмент текста, который является ответом на заданный вопрос на основании текста,
— позиция этого ответа в тексте и качество полученного результата. Примеры «удачных» ответов, по моему мнению, на вопросы отмечены зелёным цветом на рисунках 1-3.
▪ Статья
@data_analysis_mlimport re
from functools import lru_cache
text = '''Lorem ipsum dolor sit amet...'''
compiled = re.compile(r'i')
@lru_cache
def cache(text):
return compiled.findall(text)
# Протестировано на: Apple M2 Pro, 32 ГБ оперативной памяти, Python 3.11.3
%%timeit
re.findall(r'i', text)
%%timeit
re.compile(r'i')
%%timeit
cache(text)
# Naive: 3.13 µs ± 24.2 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
# Compiled: 2.96 µs ± 43.2 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
# Cached: 24.8 ns ± 0.325 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)
@data_analysis_ml
Available now! Telegram Research 2025 — the year's key insights 
