fosstodon.org is one of the many independent Mastodon servers you can use to participate in the fediverse.
Fosstodon is an invite only Mastodon instance that is open to those who are interested in technology; particularly free & open source software. If you wish to join, contact us for an invite.

Administered by:

Server stats:

10K
active users

#dwh

4 posts4 participants1 post today

[Перевод] DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 2

Выбор облачного хранилища данных — задача не из простых: десятки решений, каждая со своими плюсами и подводными камнями. В этой статье — результаты масштабного практического исследования, в ходе которого команда Agritask сравнила производительность, масштабируемость, стоимость и совместимость SQL ведущих платформ: от ClickHouse и BigQuery до Druid и Firebolt. Без маркетинговых обещаний — только реальные тесты, живые выводы и нюансы, которые неочевидны до момента внедрения.

habr.com/ru/companies/otus/art

ХабрDWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 2Первая часть Snowflake, Timescale, Amazon Redshift, ClickHouse, Google Cloud BigQuery, Apache Druid, Apache Cassandra, Firebolt… Выбор подходящего облачного хранилища данных может оказаться довольно...

[Перевод] DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.

habr.com/ru/companies/otus/art

ХабрDWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1Snowflake, Timescale, Amazon Redshift, ClickHouse, Google Cloud BigQuery, Apache Druid, Apache Cassandra, Firebolt… Выбор подходящего облачного хранилища данных может оказаться довольно сложной...

Data Governance и Бизнес: как найти общий язык

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!» «Нам нужны качественные данные, а вы все про свои процессы!» «Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!» Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы. Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе: 1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу. 2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу. 3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня. Как же выстроить эффективный диалог между DG и бизнесом?

habr.com/ru/articles/899080/

ХабрData Governance и Бизнес: как найти общий язык«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!» «Нам нужны качественные данные, а вы все про свои процессы!» «Data...

Зачем бизнесу нужно DWH и как обосновать необходимость проекта? Можно ли оценить окупаемость хранилища?

Проекты внедрения DWH относятся к трудоемким и всегда требуют вложений, стоимость проектов начинается от 1,5 млн руб. К проекту необходимо привлекать системных аналитиков, архитекторов DWH, разработчиков, DevOps, дата-инженеров. Кроме затрат на ФОТ, нужны бюджеты на инфраструктуру и технологии, так как готового решения DWH из "коробки" не существует. Как при таких затратах аргументировать для бизнеса необходимость внедрения DWH? Какие бизнес-задачи может решить хранилище данных? Можно ли оценить окупаемость и эффективность внедрения? Читайте в статье.

habr.com/ru/articles/888952/

ХабрЗачем бизнесу нужно DWH и как обосновать необходимость проекта? Можно ли оценить окупаемость хранилища?Многочисленные данные в компании, как правило, хранятся разрозненно. Доступ к информационным системам ограничен в зависимости от подразделения и задач. Данные о финансовых результатах и налогах,...

Бизнес-сериал: формируем BI-систему в строительстве почти в прямом эфире. Часть III

Привет, Хабр! Продолжаем серию статей о создании BI-системы в компании Sminex. Сегодня поговорим об автоматизации и оптимизации работы инженеров данных и BI-разработчиков. Работа с данными всегда требует поиска баланса между удобством, скоростью и качеством. В этой статье мы сосредоточимся на удобстве .

habr.com/ru/companies/sminex_d

ХабрБизнес-сериал: формируем BI-систему в строительстве почти в прямом эфире. Часть IIIПривет, Хабр! Продолжаем серию статей о создании BI-системы в компании Sminex. Сегодня поговорим об автоматизации и оптимизации работы инженеров данных и BI-разработчиков. Работа с данными всегда...

Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse

Привет, Хабр! Меня зовут Алексей Струченко, я работаю архитектором информационных систем в Arenadata. Сегодня хотелось бы поговорить о хранилищах данных — их видах, ключевых особенностях и о том, как выбрать подходящее решение. В эпоху цифровой трансформации данные стали одним из самых ценных активов для компаний любого масштаба и сферы деятельности. Эффективное хранение, обработка и анализ больших объёмов данных помогают организациям принимать обоснованные решения, повышать операционную эффективность и создавать конкурентные преимущества. Однако с ростом объёмов данных и усложнением их структуры традиционные методы хранения сталкиваются с ограничениями. В этой статье мы подробно рассмотрим подходы к хранению данных: Data Warehouse (DWH) , Data Lake и относительно новую концепцию Lakehouse . Разберем их особенности, различия, преимущества и недостатки, а также предложим рекомендации по выбору каждого подхода. Всплыть

habr.com/ru/companies/arenadat

ХабрКак не утонуть в данных: выбираем между DWH, Data Lake и LakehouseПривет, Хабр! Меня зовут Алексей Струченко, я работаю архитектором информационных систем в Arenadata. Сегодня хотелось бы поговорить о хранилищах данных — их видах, ключевых особенностях и о...

Part2: #dailyreport #powerbi #datawarehouse #dwh #postgresql

I split all columns to strings and numeric by converting
with Pands function pd.to_numeric and checking if errors
happens.

In PowerBI I download one table with date indexes for
slices and create second table with latest slice.

SQLAlchemy
dtype_mapping = {
'object': String,
'float64': Float,
'int64': Integer,
'datetime64[ns]': DateTime,
'datetime64': DateTime
}

Part1: #dailyreport #powerbi #datawarehouse #dwh #postgresql
#python
At this week I installed PowerBI and connect it to remote
PostgreSQL.
I asked AI to compare open-source data sources for
PowerBI and compare them by:
- Ease of Setup on Linux: SQLite > PostgreSQL > MySQL >
Redis > MongoDB
- Performance:
+ For large datasets: MongoDB > PostgreSQL > MySQL >
Redis > SQLite.
+ For real-time operations: Redis > MongoDB > MySQL >
PostgreSQL > SQLite.

For PostgreSQL I prepare data in Python script that use:
- pandas - for coverting types to datetime and numeric
- sqlalchemy - for simplifying type converstion
- asyncpg - sqlalchemy backend to connect to PostgreSQL

Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов

Привет, Хабр! Меня зовут Наталья Горлова, я архитектор данных. Несколько лет назад мы в CDEK поняли, что продукты, на которых работало хранилище, перестали нас устраивать: не устраивала гибкость разработки и скорость поставки данных. C тех пор произошло множество изменений, которыми хочется поделиться с сообществом. Расскажу, как платформа данных развивалась, и к чему мы пришли на конец 2024 года. Эта статья — ретроспектива моей почти шестилетней работы и текущих реалий нашей платформы данных.

habr.com/ru/companies/cdek_blo

ХабрТрансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессовПривет, Хабр! Меня зовут Наталья Горлова, я архитектор данных. Отвечала за систему хранения и обработки данных в CDEK. Несколько лет назад мы поняли, что продукты, на которых...

Цикл статей о Greenplum. Часть 3. Оптимизация

Приветствуем вас на заключительном этапе в цикле статей о Greenplum. Ранее мы уже обсудили то, как выглядит архитектура системы. Посмотрели «под капот», подробнее обсудили виды хостов и их предназначение, узнали, как обрабатываются запросы пользователей. Во второй статье погрузились в то, какие виды таблиц бывают, что такое дистрибьюция и партиционирование, как можно начать оптимизировать работу с таблицами ещё на этапе их создания. Освежить память о содержании предыдущих статей можно здесь и здесь . В данной статье мы совместно с @omoskvin расскажем о том, что влияет на оптимальность выполнения запросов, как отслеживать различные проблемы и, конечно же, как с ними справляться.

habr.com/ru/companies/axenix/a

ХабрЦикл статей о Greenplum. Часть 3. ОптимизацияПриветствуем вас на заключительном этапе в цикле статей о Greenplum. Ранее мы уже обсудили то, как выглядит архитектура системы. Посмотрели «под капот», подробнее обсудили виды хостов и их...
#sql#postgresql#dwh

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории . Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL. В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.

habr.com/ru/articles/876834/

ХабрОзеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышлоПривет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем...

Платформа данных в хранилище Магнит OMNI

Всем привет! Меня зовут Михаил, я руковожу разработкой хранилища данных «Магнит OMNI». Хочу рассказать, как мы решали проблемы его создания: разделение ресурсов хранилища между несколькими большими равнозначными заказчиками; переиспользование кода для оптимизации рутинных задач; развитие платформы DWH в условиях активно растущего бизнеса; навигация в сотнях витрин и соблюдение единообразия расчёта метрик.

habr.com/ru/companies/magnit/a

ХабрПлатформа данных в хранилище Магнит OMNIВсем привет! Меня зовут Михаил, я руковожу разработкой хранилища данных «Магнит OMNI». Хочу рассказать, как мы решали проблемы его создания: разделение ресурсов хранилища между несколькими большими...

Пора перестать в любой непонятной ситуации строить DWH для аналитики

Привет! Кажется, первая статья нашла своего благодарного читателя.Снова мысли от CDO трудящегося вместе с одной небольшой компанией ру-сегмента. Продолжу о том, что "наболело". Эта статья может быть Вам полезна, если консалтинг/интегратор/CTO/CIO/ сын маминой подруги настойчиво хочет решить все Ваши "проблемы" в аналитике классным корпоративным хранилищем, далее - DWH.

habr.com/ru/articles/863308/

ХабрПора перестать в любой непонятной ситуации строить DWH для аналитикиПривет! Кажется, первая статья нашла своего благодарного читателя. Снова мысли от CDO трудящегося вместе с одной небольшой компанией. Продолжу о том, что "наболело". Эта статья может быть Вам полезна,...

Как Сеченовский Университет создал безопасную платформу для анализа медицинских данных с применением облачных технологий

Меня зовут Константин Бражников, я заместитель директора департамента развития клинических и образовательных проектов в Сеченовском Университете. Сегодня это исследовательский медицинский университет мирового уровня, и у него три направления деятельности: наука, образование и медицинская практика. В структуре университета работает пять университетских клинических больниц, где ежегодно проходят лечение около 500 000 пациентов. Накопленная статистика по клиническим случаям — один из источников для научных работ наших сотрудников. В прошлом году мы уже кратко рассказали на Хабре , как с использованием сервисов Yandex Cloud мы разработали платформу анализа медицинских данных — это сервис, который позволяет сотрудникам Сеченовского Университета получить доступ к клиническим данным. Пользователи системы — наши врачи‑исследователи, аспиранты и ординаторы — профессиональные научные сотрудники, которые двигают вперёд медицинскую науку. В этой статье покажу подробнее, как мы реализовали этот проект, как это решение живёт сейчас и помогает преподавателям и врачам‑исследователям в их работе.

habr.com/ru/companies/yandex_c

ХабрКак Сеченовский Университет создал безопасную платформу для анализа медицинских данных с применением облачных технологийМеня зовут Константин Бражников, я заместитель директора департамента развития клинических и образовательных проектов в Сеченовском Университете. Сегодня это исследовательский медицинский...

Что такое DWH?

DWH (Data Warehouse или по русски Хранилище данных) - это специализированная система для хранения и управления большими объемами данных, которые объединяются из разных источников с целью анализа и построения отчетов Короче, это место, где все нужные данные из разных мест собираются и потом ими уже удобно пользоваться - строить разные отчетики, строить ИИ на благо всему человечеству и подобные вещи Грубо говоря, задача при построении хорошего DWH состоит в том, чтобы построить Базу Данных и все необходимое вокруг него, в которой будут лежать правильные данные в удобном виде и в которую можно слать большие-сложные SQL запросы и не бояться, что что-то сломается и всем этим было удобно пользоваться

habr.com/ru/articles/852910/

ХабрЧто такое DWH?Дисклеймер Cтатья написана с целью дать лишь общее представление о DWH, поэтому тут много упрощений и неточностей. Буду рад если исправите меня в комментариях. Спасибо DWH (Data Warehouse или по...
#dwh#ДВХ#кхд

Бизнес-сериал: формируем BI-систему в строительстве почти в прямом эфире. Часть II

Привет, друзья! Продолжаем нашу серию статей о создании BI-системы в компании Sminex . Расскажем о наших дальнейших шагах по построению хранилища с якорной моделью. Жмяк 🐤

habr.com/ru/companies/sminex_d

ХабрБизнес-сериал: формируем BI-систему в строительстве почти в прямом эфире. Часть IIПривет, друзья! Продолжаем нашу серию статей о создании BI-системы в компании Sminex . В первой части мы рассказали, что в качестве основного места хранения аналитических данных используется хранилище...

Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес-аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH). Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных. Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.

habr.com/ru/articles/846296/

ХабрData Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциямиДанные сегодня стали важным ресурсом для бизнеса, но для того, чтобы на их основе принимать правильные управленческие решения, нужно их правильно хранить и обрабатывать. Хранилища данных предоставляют...

Управляем моделью с помощью метаданных в dbt

Это приключение посвящено созданию продвинутых макросов, которые используют метаданные модели для управления инкрементальностью и тестами качества. Задание параметров модели в виде метаданных позволяет наглядно представлять их в каталоге данных и переиспользовать в разных задачах. Квест подготовлен для раскрытия темы в рамках dbt Meetup #5 и нацелен на инженеров аналитики, которые готовы глубоко погрузиться в написание макросов dbt для решения сложных практически значимых задач. Предложенный подход позволяет эффективно выстраивать сложные автоматизации в проекте, является незаменимым для больших дата-лейков на базе Trino/Presto и позволяет изучить макросы на продвинутом уровне, достаточном для создания собственных сложных автоматизаций.

habr.com/ru/articles/844876/

ХабрУправляем моделью с помощью метаданных в dbtЭто приключение посвящено созданию продвинутых макросов, которые используют метаданные модели для управления инкрементальностью и тестами качества. Задание параметров модели в виде метаданных...
#dwh#dbt#analytics

Не потеряться в данных: оптимизируем аналитику с помощью DataHub

Как не потеряться в данных для аналитики? Когда количество их источников ограничено, а аналитикой занимается пара человек, в целом всё понятно: обеспечить прозрачность вполне можно на уровне ведения документации (если заниматься этим ответственно). Но что, если данных в компании много, они отличаются сложной структурой и поступают из разных источников? Едут и из MongoDB, и из PostgresSQL, и из MS SQL; при этом постоянно появляются новые продукты и направления, данных становится ещё больше. Документация по ним устаревает примерно в тот момент, когда заканчиваешь её писать. Попутно растёт команда аналитиков — новым людям нужно рассказывать, что где лежит, откуда прилетает, какие есть особенности. Упростить жизнь в такой ситуации призван Data Catalog, и в Сравни мы выбрали популярный вариант — DataHub. Под катом рассказываем, как меняется работа с данными для аналитики, когда в твоей жизни появляется визуализация потоков данных.

habr.com/ru/companies/sravni/a

ХабрНе потеряться в данных: оптимизируем аналитику с помощью DataHubКак не потеряться в данных для аналитики?  Когда количество их источников ограничено, а аналитикой занимается пара человек, в целом всё понятно: обеспечить прозрачность вполне можно на уровне...