cookie

Мы используем файлы cookie для улучшения сервиса. Нажав кнопку «Принять все», вы соглашаетесь с использованием cookies.

avatar

Big Data Science [RU]

Big Data Science [RU] — канал о жизни Data Science. Для сотрудничества: [email protected] 🌏 — https://t.me/bdscience — Big Data Science channel (english version) 💼 — https://t.me/bds_job — channel about Data Science jobs and career

Больше
Рекламные посты
1 914
Подписчики
Нет данных24 часа
+27 дней
-2230 дней

Загрузка данных...

Прирост подписчиков

Загрузка данных...

💡Очередная небольшая подборка AI-инструментов для Big Data аналитики KNIME Analytics Platform - является бесплатной платформой с открытым исходным кодом, что позволяет пользователям оставаться на передовой науки о данных, имеет в своем арсенале 300+ коннекторов к различным источникам данных и интегруется со всеми популярными библиотеками машинного обучения. Polymer - искусственный интеллект для преобразования данных в оптимизированную, гибкую и мощную базу данных. Все, что нужно сделать пользователю, это загрузить свою электронную таблицу на платформу, чтобы мгновенно преобразовать ее в оптимизированную базу данных, которую затем можно изучить для получения информации. IBM Cognos Analytics - это компонентный онлайн-сервис бизнес-аналитики (BI), обеспечивающий доступ к широкому диапазону функций для создания бизнес-отчётов, анализа данных, мониторинга событий и метрик с целью выработки эффективных бизнес-решений. Akkio - инструмент бизнес-аналитики и прогнозирования, позволяющий пользователям анализировать свои данные и прогнозировать потенциальные результаты. Инструмент AI позволяет пользователям загружать свой набор данных и выбирать переменную, которую они хотят предсказать, что помогает Akkio построить нейронную сеть вокруг этой переменной. Как и многие другие инструменты, Akkio не требует предварительного опыта программирования. Monkeylearn - использует функции анализа данных ИИ, чтобы помочь пользователям визуализировать и реорганизовать свои данные. Его также можно использовать для настройки классификаторов текста и экстракторов текста, которые помогают автоматически сортировать данные в соответствии с темой или намерением, а также извлекать характеристики продукта или пользовательские данные.
Показать все...
KNIME Analytics Platform | KNIME

Access data from any data source - your laptop, an application or a data warehouseEasily blend data of any size and any type - all file formats supportedAggregate, sort, filter, and join data on your device, in-database, or in distributed big data environments Explore data with interactive charts and visualizationsAutomate spreadsheets or other manual, repetitive data tasksCreate visualizations automatically with a genAI assistantChoose from a complete range of analytic techniques, with

👍 1
⚡️Инструмент для значительного усиления БД WrenAI — open-source инструмент, который делает имеющуюся БД готовой к работе с RAG. Он позволяет преобразовывать текст в SQL, изучать данные из БД без написания SQL, и делать многое другое 🖥 GitHub 🟡 Документация
Показать все...
GitHub - Canner/WrenAI: Wren AI makes your database RAG-ready. Implement Text-to-SQL more accurately and securely.

Wren AI makes your database RAG-ready. Implement Text-to-SQL more accurately and securely. - Canner/WrenAI

👍 1
⚡️💡💻Состоялся релиз СУБД MySQL 9.0.0 Недавно Oracle выпустила СУБД MySQL 9.0.0. Разработчики проекта подготовили и выложили в открытый доступ сборки MySQL Community Server 9.0.0 для основных дистрибутивов Linux, FreeBSD, macOS и Windows. В 2023 году компания объявила об изменении модели формирования релизов СУБД MySQL. Разработчики начали выпускать два вида веток MySQL: Innovation (новые функции, частое обновление, три месяца поддержки) и LTS (с расширенным временем поддержки и сохранением неизменного поведения). Как отмечают разработчики, проект MySQL 9.0 отнесён к ветке Innovation, к которым также будут отнесены следующие значительные релизы MySQL 9.1 и 9.2. Дистрибутивы на базе Innovation-веток рекомендованы для тех пользователей, кто хочет раньше получать доступ к новой функциональности. Они публикуются каждые 3 месяца и поддерживаются только до публикации следующего значительного релиза (например, после появления ветки 9.1 будет прекращена поддержка ветки 9.0).
Показать все...
Introducing MySQL Innovation and Long-Term Support (LTS) versions

Introducing MySQL Innovation and Long-Term Support (LTS) versions.

💻Высокопроизводительная распределенная БД YugabyteDB - это высокопроизводительная распределенная БД, которая поддерживает все возможности PostgreSQL. YugabyteDB отлично подходит для облачных OLTP-приложений (т. е. работающих в реальном времени и критически важных для бизнеса), которым необходима абсолютная корректность данных и требуется масштабируемость или высокая устойчивость к сбоям. 🖥 GitHub 🟡 Документация Создание локального кластера YugabyteDB с Docker:
docker run -d --name yugabyte -p7000:7000 -p9000:9000 -p15433:15433 -p5433:5433 -p9042:9042 \
 yugabytedb/yugabyte:2.21.1.0-b271 bin/yugabyted start \
 --background=false
Показать все...
GitHub - yugabyte/yugabyte-db: YugabyteDB - the cloud native distributed SQL database for mission-critical applications.

YugabyteDB - the cloud native distributed SQL database for mission-critical applications. - yugabyte/yugabyte-db

👍 1
🎼Датасеты и проекты для задач генерации и анализа музыки MAESTRO - (MIDI and Audio Edited for Synchronous Tracks and Organisation) содержит более 200 часов аннотированных записей международных конкурсов пианистов за последние десять лет. NSynth - датасет состоит из 305 979 музыкальных нот и включает записи 1006 различных инструментов, таких как флейта, гитара, фортепиано и орган. Датасет аннотирован по типу инструмента (акустический, электронный или синтетический) и другим звуковым параметрам. Lakh MIDI v0.1 - в датасете имеется 176,581 MIDI-файл, из которых 45,129 связаны с образцами из Million Song Dataset. Данный датасет разработан для упрощения поиска музыкальной информации на основе текста и аудио контента в большом масштабе. Music21 - содержит музыкальные выступления из 21 категории и нацелен на решение исследовательских задач (например, поиска ответа на вопрос :»Какая группа использовала данные аккорды впервые?»)
Показать все...
The MAESTRO Dataset

MAESTRO (MIDI and Audio Edited for Synchronous TRacks and Organization) is a dataset composed of about 200 hours of virtuosic piano performances captured wit...

👍 1
🌎ТОП июльских ивентов в Data Science 3 июля - DataStart - Онлайн - https://datastart.ru/ 4 июля - Data Day - Москва, Россия - https://data-day.ru/ 12-14 июля - Volga IT Camp - Самара, Россия - https://volga-it-camp.ru/ 5-19 июля - EKF AI Challenge - Онлайн - https://codenrock.com/contests/ekf-ai-challenge#/ 26-27 июля - PYCON RUSSIA - Москва, Россия - https://pycon.ru/
Показать все...
Конференция Data Science 2024

Обучающие конференции по Data Science в Москве и Санкт-Петербурге. Программа мероприятий содержит актуальные темы по Big Data, Machine Learning, AI. Практические занятия позволят лучше усвоить полученные на мероприятии знания.

👍 2
⚡️Гиперконвергентная облачная open-source БД MatrixOne — это гиперконвергентная облачная распределенная БД со структурой, которая разделяет хранение, вычисления и транзакции, образуя единый движок данных HSTAP. Этот механизм позволяет единой системе баз данных справляться с различными бизнес-нагрузками, такими как OLTP, OLAP и потоковые вычисления. MatrixOne поддерживает развертывание и использование в публичных и частных облаках, обеспечивая совместимость с различными инфраструктурами. 🖥 GitHub 🟡 Документация
Показать все...
GitHub - matrixorigin/matrixone: Hyperconverged cloud-edge native database

Hyperconverged cloud-edge native database. Contribute to matrixorigin/matrixone development by creating an account on GitHub.

🤔 2👍 1
⚔️🔎ACID в Kafka vs ACID в Airflow при обработке Big data: преимущества и недостатки При рассмотрении двух популярных инструментов для обработки данных, таких как Apache Kafka и Apache Airflow, важно понять, как они справляются с принципами ACID (Atomicity, Consistency, Isolation, Durability). Эти принципы критически важны для обеспечения надежности и предсказуемости обработки данных. Преимущества Kafka ACID: 1. Долговечность (Durability): Kafka сохраняет данные в дисковой памяти, что обеспечивает их сохранность даже в случае сбоя системы. 2. Консистентность (Consistency): При правильной настройке Kafka обеспечивает, что все потребители получают одни и те же данные в одном и том же порядке. 3. Изолированность (Isolation): Сообщения в Kafka разделены по темам и разделам, что помогает изолировать обработку данных между разными потоками. Недостатки Kafka ACID: 1. Атомарность (Atomicity): Kafka не всегда гарантирует атомарность на уровне сообщений. В некоторых случаях могут возникнуть дублирующиеся сообщения или пропуски, если не использовать дополнительные инструменты, такие как Kafka Transactions. 2. Сложность настройки: Для достижения ACID-свойств в Kafka требуется сложная настройка и управление, включая конфигурацию репликации и транзакций. Преимущества Airflow ACID: 1. Атомарность (Atomicity): Airflow обеспечивает атомарность на уровне задач. Если задача завершилась с ошибкой, весь DAG (Directed Acyclic Graph) можно повторно запустить или восстановить с точки сбоя. 2. Консистентность (Consistency): Airflow поддерживает строгую последовательность выполнения задач, обеспечивая консистентное состояние данных. 3. Управление зависимостями: Airflow позволяет управлять зависимостями между задачами, что упрощает обеспечение изолированности и консистентности данных. Недостатки Airflow ACID: 1. Производительность: В отличие от Kafka, Airflow не предназначен для обработки данных в реальном времени. Его основное назначение – управление долгосрочными и сложными рабочими процессами. 2. Долговечность (Durability): Хотя Airflow сохраняет состояние задач и DAG-ов, он полагается на внешние хранилища данных (например, базы данных) для долговременного хранения данных, что может потребовать дополнительных усилий для обеспечения долговечности. Таким образом, Apache Kafka лучше подходит для обработки данных в реальном времени с высокой производительностью и долговечностью, но может потребовать сложной настройки для достижения атомарности и консистентности. Apache Airflow, в свою очередь, отлично справляется с управлением и оркестрацией сложных рабочих процессов, обеспечивая атомарность и консистентность на уровне задач, но не предназначен для потоковой обработки данных в реальном времени.
Показать все...

Apache Kafka: A Distributed Streaming Platform.

👍 1
📊Огромный датасет изображений и их подписей Pixel Prose - набор данных, который содержит более 16 миллионов разнообразных изображений, полученных из трех различных веб-баз данных (commonPool, CC12M, RedCaps), с подписями, созданными с помощью Google Gemini 1.0 Pro Vision. Для загрузки датасета с помощью API можно использовать следующий Python-скрипт: from datasets import load_dataset # for downloading the whole data ds = load_dataset("tomg-group-umd/pixelprose")
Показать все...
tomg-group-umd/pixelprose · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍 3
⚡️💡Open-source cистема оркестрации контейнеров обработки данных для запуска AI-систем dstack— это механизм оркестрации контейнеров с открытым исходным кодом, предназначенный для рабочих нагрузок ИИ в любом облаке или центре обработки данных. Поддерживаемые этой технологией поставщики облачных услуг включают AWS, GCP, Azure, OCI, Lambda, TensorDock, Vast.ai, RunPod и CUDO. Если на устройстве имеются стандартные учетные данные AWS, GCP, Azure или OCI, сервер dstack подхватит их автоматически. 🖥GitHub 🟡Документация
Показать все...
GitHub - dstackai/dstack: An open-source container orchestration engine for running AI workloads in any cloud or data center. https://discord.gg/u8SmfwPpMd

An open-source container orchestration engine for running AI workloads in any cloud or data center.

https://discord.gg/u8SmfwPpMd

- dstackai/dstack

Выберите другой тариф

Ваш текущий тарифный план позволяет посмотреть аналитику только 5 каналов. Чтобы получить больше, выберите другой план.