Анализ данных (Data analysis)
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
Ko'proq ko'rsatish📈 Telegram kanali Анализ данных (Data analysis) analitikasi
Анализ данных (Data analysis) (@data_analysis_ml) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 50 256 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 2 657-o'rinni va Rossiya mintaqasida 12 484-o'rinni egallagan.
📊 Auditoriya ko‘rsatkichlari va dinamika
невідомо sanasidan buyon loyiha tez o‘sib, 50 256 obunachiga ega bo‘ldi.
25 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni 38 ga, so‘nggi 24 soatda esa 0 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.
- Tasdiqlash holati: Tasdiqlanmagan
- Jalb etish (ER): Auditoriya o‘rtacha 8.85% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 6.52% ini tashkil etuvchi reaksiyalarni to‘playdi.
- Post qamrovi: Har bir post o‘rtacha 4 447 marta ko‘riladi; birinchi sutkada odatda 3 278 ta ko‘rish yig‘iladi.
- Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 28 ta reaksiya keladi.
- Tematik yo‘nalishlar: Kontent llm, контекст, openai, архитектура, deepseek kabi asosiy mavzularga jamlangan.
📝 Tavsif va kontent siyosati
Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
Yuqori yangilanish chastotasi (oxirgi ma’lumot 26 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.
Нативная интеграция. Информация о продукте www.otus.rupip install beautifulsoup4
Код для получения текста по заданному url представлю в виде функций getHtmlDocument и getTextFromHtml:
from urllib import request
def getHtmlDocument(url):
""" Получаем html-документ с сайта по url. """
fp = request.urlopen(url)
mybytes = fp.read()
fp.close()
return mybytes.decode('utf8')
from bs4 import BeautifulSoup
def getTextFromHtml(HtmlDocument):
""" Получаем текст из html-документа. """
soup = BeautifulSoup(HtmlDocument,
features='html.parser')
content = soup.find('div', {'id': 'post-content-body'})
return content.text
Набор вопросов из ответов выглядит следующим образом:
questions = (
'О чём пост?',
'Какая цель поста?',
'Какая задача решалась?',
'Что использовалось в работе?',
'Какие выводы?',
'Что использовалось?',
'Какие алгоритмы использовались?',
'Какой язык программирования использовали?',
'В чём отличия?',
'Что особенного проявилось?',
'Какова область применения?',
'Что получено?',
'Каков результат?',
'Что получено в заключении?',
)
Далее перейду к настройке deepPavlov для решения задачи СQA. Установлю библиотеку deeppavlov в соответствии с официальным сайтом проекта:
pip install deeppavlov, transformers
Импортирую объекты configs и build_model с помощью команд:
from deeppavlov import configs, build_model
Далее инициализирую загрузку модели squad_ru_bert командой:
model = build_model('squad_ru_bert', download=True)
Модель squad_ru_bert — это модель глубокого обучения на основе архитектуры BERT, обученная на наборе данных SQuAD-Ru, который содержит пары вопрос-ответ на русском языке.
Выберу посты с habr.com:
paper_urls = (
'https://habr.com/ru/articles/339914/',
'https://habr.com/ru/articles/339915/',
'https://habr.com/ru/articles/339916/',
)
и воспользуюсь моделью squad_ru_bert для построения ответов на указанные выше вопросы (questions) для каждого поста из списка paper_urls:
for url in paper_urls:
content = getTextFromHtml(getHtmlDocument(url))
for q in questions:
answer = model([content], [q])
if abs(answer[2] – 1) > 1e-6:
print(q, ' ', answer[0])
Результатом работы модели является:
— фрагмент текста, который является ответом на заданный вопрос на основании текста,
— позиция этого ответа в тексте и качество полученного результата. Примеры «удачных» ответов, по моему мнению, на вопросы отмечены зелёным цветом на рисунках 1-3.
▪ Статья
@data_analysis_mlimport re
from functools import lru_cache
text = '''Lorem ipsum dolor sit amet...'''
compiled = re.compile(r'i')
@lru_cache
def cache(text):
return compiled.findall(text)
# Протестировано на: Apple M2 Pro, 32 ГБ оперативной памяти, Python 3.11.3
%%timeit
re.findall(r'i', text)
%%timeit
re.compile(r'i')
%%timeit
cache(text)
# Naive: 3.13 µs ± 24.2 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
# Compiled: 2.96 µs ± 43.2 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
# Cached: 24.8 ns ± 0.325 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)
@data_analysis_ml
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
