Терабайты данных из Teradata в Trino — эффективный способ передачи
Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.
https://habr.com/ru/companies/datasapience/articles/1024690/
#trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata


Qiita - 人気の記事