fosstodon.org is one of the many independent Mastodon servers you can use to participate in the fediverse.
Fosstodon is an invite only Mastodon instance that is open to those who are interested in technology; particularly free & open source software. If you wish to join, contact us for an invite.

Administered by:

Server stats:

9.8K
active users

#trino

0 posts0 participants0 posts today

Мой опыт эксплуатации кластера Trino

Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .

habr.com/ru/articles/863854/

ХабрМой опыт эксплуатации кластера TrinoTrino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища,...

Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость . В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.

habr.com/ru/companies/cedrusda

ХабрБезграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон...

Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join. Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.

habr.com/ru/companies/cedrusda

ХабрКак мы ускорили Trino, научив оптимизатор удалять ненужные JoinTrino — это популярный SQL-движок для выполнения аналитических запросов к озерам данных и виртуализации. Наша команда создает коммерческий форк Trino, который называется CedrusData . В России Trino...

Контейнеры, разминаем мозги под Kubernetes – разговоры у костра

Привет, друзья! Разговоры у вечернего костра, у палатки, у реки, в спокойный, тихий вечер и в располагающей к технической честности и объективности атмосфере, а не «у пепелища дата-центра», как некоторым может показаться! 😊 Приготовьтесь погрузиться в захватывающую историю, как, но, важнее, почему мы сознательно пришли к активному использованию контейнеров и «доросли» до внедрения Kubernetes в высоконагруженном проекте «BI-конструктор». Но про Kubernetes в посте не будет не слова, будет только про контейнеры, но мы подготовим мозг к следующему посту, уже исключительно про Kubernetes, но тоже максимально доступно. Однако, я буду все рассказывать очень простыми (иногда техническими) словами, без ныряния в многоуровневый мат, уж простите. Я убежден, что когда ты все прочувствовал и выстрадал умом и сердцем, то сможешь этот опыт передать доступно и понятно другим, а когда сам не понимаешь, о чем говоришь, то и остальных просто запутаешь. И еще один момент – технических картинок и графиков по теме тоже не будет, они вызывают головную боль от растекания абстракций и их легко найти самостоятельно и в конце я дам рецепт где. Но, даже без них, не сомневайтесь, вы все поймете с первого раза. Итак, наливайте кофе, насыпайте попкорн, кладите в карман таблетку от головной боли (иногда будет сложно, но ради вашего же блага) и ныряйте «под кат».

habr.com/ru/companies/bitrix/a

ХабрКонтейнеры, разминаем мозги под Kubernetes – разговоры у костраПривет, друзья! Разговоры у вечернего костра, у палатки, у реки, в спокойный тихий вечер и в располагающей к технической честности и объективности атмосфере, а не «у пепелища дата-центра», как...

Быстрая обработка данных в data lake с помощью SQL

Кому пришла в голову идея отправлять SQL запросы в data lake? Оказывается, это позволяет компаниям более гибко и эффективно анализировать свои данные за счёт уменьшения потребности в ETL и снижения нагрузки на корпоративное хранилище. Рассмотрим, какие популярные SQL-движки умеют это делать и как им это удаётся. Меня зовут Владимир Озеров , я руковожу компанией Querify Labs. Мы уже порядка 10 лет занимаемся распределённым SQL, делаем всевозможные SQL-движки, в частности CedrusData — коммерческий движок на основе опенсорс проекта Trino. Сегодня поговорим про то, каким образом устроен ряд SQL-движков, которые обрабатывают данные от data lake.

habr.com/ru/companies/oleg-bun

ХабрБыстрая обработка данных в data lake с помощью SQLКому пришла в голову идея отправлять SQL запросы в data lake? Оказывается, это позволяет компаниям более гибко и эффективно анализировать свои данные за счёт уменьшения потребности в ETL и снижения...
#presto#Dremio#sql

Think it's important to note when you come across good Open Source docs, and want to particularly highlight the fault tolerance execution guide for : trino.io/docs/current/admin/fa

What I really like is the mix of the relevant config values, with succinct but clear explanations of how they relate to the bigger fault tolerance story

trino.ioFault-tolerant execution — Trino 448 Documentation

Hey fellow data nerds, getting my head around #Trino syntax. I want to match a row that has a matching id.
original data and me getting the field I want into an array of ids (masto doesn't do markdown tables :( )

*ext_osm_way_id* =
[{start=34215, end=36589, id=750476129}, {start=36589, end=null, id=747302838}, {start=0, end=34215, id=680074176}]

*idarrary* = [750476129, 747302838, 680074176]

The thread will have the simplest query I could get - is there a better way?

Rui Li of Bilibili Group has written a very informative blog on how Bilibili built an OLAP #DataLakehouse with #ApacheIceberg. They have over 1,000 #Iceberg tables that comprise over 10PB of data, and a daily increment of 75TB. #Trino is serving over 200,000 queries a day in their system with an average response time of 5 seconds. It's a pretty impressive setup.

medium.com/@lirui.fudan/how-bi