fosstodon.org is one of the many independent Mastodon servers you can use to participate in the fediverse.
Fosstodon is an invite only Mastodon instance that is open to those who are interested in technology; particularly free & open source software. If you wish to join, contact us for an invite.

Administered by:

Server stats:

8.6K
active users

#data_lineage

1 post1 participant0 posts today
Habr<p>Как найти свой путь в дата-инженерии и управлять петабайтами данных</p><p>На первый взгляд работа с данными может показаться скучной, состоящей из перетаскивания данных из одного хранилища в другое. В этом действительно есть часть правды :) но не вся правда… Если присмотреться, мы увидим, что дата-инженеры помогают компаниям сокращать время на поиск инсайтов, обучение моделей и понимание нужд пользователей. Данные — это новая нефть, поэтому важно понимать, как правильно их организовывать и какие сложности в работе могут повлиять на успешность бизнеса. Привет, Хабр! Меня зовут Алёна Катренко, и я уже больше 10 лет работаю с данными. Сейчас занимаю позицию руководителя платформы данных в Циане, но начинала как BigData-инженер в Неофлексе. Сегодня расскажу, как мы приручали петабайты данных, искали призраков забытых таблиц и нашли инструмент, который сделал работу с метаданными понятной, безопасной и полезной для бизнеса. А ещё о том, как сейчас развиваться дату-инженеру, чтобы успевать за тенденциями на рынке.</p><p><a href="https://habr.com/ru/companies/oleg-bunin/articles/940392/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/oleg-bun</span><span class="invisible">in/articles/940392/</span></a></p><p><a href="https://zhub.link/tags/data_engineering" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_engineering</span></a> <a href="https://zhub.link/tags/data_catalog" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_catalog</span></a> <a href="https://zhub.link/tags/cloud_native" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>cloud_native</span></a> <a href="https://zhub.link/tags/data_governance" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_governance</span></a> <a href="https://zhub.link/tags/data_ownership" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_ownership</span></a> <a href="https://zhub.link/tags/amundsen" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>amundsen</span></a> <a href="https://zhub.link/tags/arenadata_catalog" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>arenadata_catalog</span></a> <a href="https://zhub.link/tags/data_lineage" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_lineage</span></a> <a href="https://zhub.link/tags/scala" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>scala</span></a> <a href="https://zhub.link/tags/%D0%BA%D0%BE%D0%BC%D1%8C%D1%8E%D0%BD%D0%B8%D1%82%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>комьюнити</span></a></p>
Habr<p>Работа с Oracle Data Integrator (ODI): прямой доступ к метаданным</p><p>Работая с Oracle Data Integrator (ODI), мы ценим его графический интерфейс за автоматизацию рутины и удобство разработки. Однако, когда проект масштабируется до десятков пакетов и сотен сущностей, GUI перестает быть оптимальным инструментом для отслеживания потоков данных, глубокого анализа и аудита зависимостей. В таких случаях ключом к эффективности становится прямое взаимодействие с метаданными ODI через SQL-запросы к его репозиториям. Эта статья посвящена именно этому – практической работе со структурой репозиториев ODI и детальному разбору SQL-запроса для построения потоков данных.</p><p><a href="https://habr.com/ru/companies/megafon/articles/936088/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/megafon/</span><span class="invisible">articles/936088/</span></a></p><p><a href="https://zhub.link/tags/odi" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>odi</span></a> <a href="https://zhub.link/tags/oracle" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>oracle</span></a> <a href="https://zhub.link/tags/data_lineage" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_lineage</span></a> <a href="https://zhub.link/tags/data_engineering" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_engineering</span></a></p>
Habr<p>Бизнес-глоссарий и Каталог Данных</p><p>Что такое «Каталог Данных»? Это список «чистых» и готовых к использованию данных, которые можно использовать для интеграции или формирования витрин данных – Datamart для построения отчетности или дашбордов, или для предоставления аналитикам и бизнес-пользователям («Гражданским Аналитикам») для самостоятельно (Self-Service) аналитики, когда они смогут самостоятельно построить необходимую им отчетность, не прибегая к помощи специалистов по управлению данными или, тем более, ИТ-отдела, для которого управление данными и разработка отчетности явно не является приоритетной задачей. Каталогизация данных, в свою очередь предполагает наличие программного продукта для хранения списка каталогизированных данных и их описания (метаданных) — «Каталога Данных». Но дело в то, что еще до формирования каталога данных и проектов по очистке данных должны быть другие проекты: в первую очередь я говорю про бизнес-глоссарий, в котором бизнес расписывается кровью, что означает тот или иной показатель.</p><p><a href="https://habr.com/ru/articles/892318/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/892318/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/data_governance" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_governance</span></a> <a href="https://zhub.link/tags/data_lineage" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_lineage</span></a> <a href="https://zhub.link/tags/%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>каталог_данных</span></a> <a href="https://zhub.link/tags/%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B1%D0%B8%D0%B7%D0%BD%D0%B5%D1%81%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%BE%D0%B2" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>описание_бизнеспроцессов</span></a></p>
Habr<p>Что подразумевают под Data Governance?</p><p>Если говорить про Data Governance, то это, в первую очередь, не продукты, а огромная методология управления жизненным циклом данных, и только потом – технологии. Близко к идеалу считается методология DAMA-DMBOK, и у любого специалиста по данным это должна быть настольная книга. К сожалению, в подавляющем большинстве случаев, когда люди начинают задумываться про управление данных, она попросту неприменима, так как она показывает «правильное» управление данными больших предприятий, до неё еще надо «дорасти», при этом точечно применяя сначала простые приемы, с возможностью расширения методик управления данными как «вширь», на другие отделы, так в «вглубь» на все процессы, связанные с управлением данными (Data Management): получением («добычей»), обработкой, хранением, извлечением и использованием информации. Без подобного управления жизненным циклом данных получим картину как в последнем исследовании Makves , что 40% данных никогда не используется: к ним не зафиксировано ни одного обращения за 5 лет. Найти «Ценность в данных» становится искусством, так как на предприятии растут «Кладбища данных» вместо «Хранилищ данных». Сейчас зачастую под Data Governance имеют в виду две части, это Data Quality – управление качеством данных, и Data Linage – «понять, откуда пришли данные, как они изменялись и можно ли им доверять». Если данные методологии использовать «в лоб», то это очень сильно замедлит разработку и перегрузит команду по управлению данными.</p><p><a href="https://habr.com/ru/articles/892302/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/892302/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/data_governance" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_governance</span></a> <a href="https://zhub.link/tags/data_lineage" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_lineage</span></a> <a href="https://zhub.link/tags/%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>каталог_данных</span></a></p>
Habr<p>Airflow 3 is Coming</p><p>Как-то один из самых главных контрибьюторов в Airflow Ярек Потиюк рассказал, что Airflow 3 станет новым золотым стандартом индустрии. Это довольно смелое заявление. Я же считаю, что в Airflow 3 еще многого не хватает, чтобы действительно стать стандартом. Если вы еще не знаете, что такое Airflow, то, к сожалению, это статья будет сложной. Давайте вместе освежим память. Airflow - это платформа с открытым исходным кодом для написания и управления рабочих процессов. Airflow была основана в 2014 году в AirBnB. С тех пор платформа прошла путь до версии 1.0 в 2015 году, стала Apache Top Level Project в 2019 и плотно обосновалась как Enterprise Production-Ready в 2020 с версией 2.0.</p><p><a href="https://habr.com/ru/articles/865674/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/865674/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/airflow" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>airflow</span></a> <a href="https://zhub.link/tags/data_lineage" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_lineage</span></a> <a href="https://zhub.link/tags/api" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>api</span></a></p>
Habr<p>Не потеряться в данных: оптимизируем аналитику с помощью DataHub</p><p>Как не потеряться в данных для аналитики? Когда количество их источников ограничено, а аналитикой занимается пара человек, в целом всё понятно: обеспечить прозрачность вполне можно на уровне ведения документации (если заниматься этим ответственно). Но что, если данных в компании много, они отличаются сложной структурой и поступают из разных источников? Едут и из MongoDB, и из PostgresSQL, и из MS SQL; при этом постоянно появляются новые продукты и направления, данных становится ещё больше. Документация по ним устаревает примерно в тот момент, когда заканчиваешь её писать. Попутно растёт команда аналитиков — новым людям нужно рассказывать, что где лежит, откуда прилетает, какие есть особенности. Упростить жизнь в такой ситуации призван Data Catalog, и в Сравни мы выбрали популярный вариант — DataHub. Под катом рассказываем, как меняется работа с данными для аналитики, когда в твоей жизни появляется визуализация потоков данных.</p><p><a href="https://habr.com/ru/companies/sravni/articles/844016/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/sravni/a</span><span class="invisible">rticles/844016/</span></a></p><p><a href="https://zhub.link/tags/datahub" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>datahub</span></a> <a href="https://zhub.link/tags/data_lineage" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_lineage</span></a> <a href="https://zhub.link/tags/data_observability" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_observability</span></a> <a href="https://zhub.link/tags/data_platform" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_platform</span></a> <a href="https://zhub.link/tags/dwh" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>dwh</span></a> <a href="https://zhub.link/tags/analytics" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>analytics</span></a> <a href="https://zhub.link/tags/%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B0" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>аналитика</span></a> <a href="https://zhub.link/tags/%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>данные</span></a></p>
Habr<p>Data Lineage из топора</p><p>Статья навеяна удачной реализацией Data Lineage «на коленке». Рассматривается случай, когда в окружающем корпоративном ландшафте Apache Atlas, Datahub или Amundsen еще не подвезли (и неизвестно, будет ли, и если будет, то когда) — а посмотреть от таблицы назад к источниками или вперед к потребителям от конкретной таблицы хочется прямо сейчас. Условия, в которых это удалось сделать, могут не повториться в других случаях, но сам кейс наверняка будет интересен. Разные самопальные data lineages</p><p><a href="https://habr.com/ru/articles/836648/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/836648/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/sql" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>sql</span></a> <a href="https://zhub.link/tags/data_lineage" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_lineage</span></a> <a href="https://zhub.link/tags/big_data" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>big_data</span></a> <a href="https://zhub.link/tags/tool" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>tool</span></a> <a href="https://zhub.link/tags/data_analysis" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_analysis</span></a> <a href="https://zhub.link/tags/data_engineering" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>data_engineering</span></a> <a href="https://zhub.link/tags/metadata" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>metadata</span></a></p>