New nf-parquet version 0.2.1 deployed using new plugin repository

Interesting the new way to publish plugins, once I use it a little more I'll write a post about it

#Nextflow #parquet #apache_parquet

https://registry.nextflow.io/plugins/nf-parquet

Nextflow Plugins | nf-parquet

Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

https://habr.com/ru/companies/T1Holding/articles/903546/

#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования...

Хабр
Max severity RCE flaw discovered in widely used Apache Parquet

A maximum severity remote code execution (RCE) vulnerability has been discovered impacting all versions of Apache Parquet up to and including 1.15.0.

BleepingComputer
DatabricksのUnity Catalogを利用してS3にDelta Lakeを構築する | DevelopersIO

DatabricksのUnity Catalogを利用してS3にDelta Lakeを構築する | DevelopersIO

DatabricksのUnity Catalogを利用してS3のデータを外部テーブルとして読み込んでみた
https://dev.classmethod.jp/articles/databricks-unity-catalog-s3/

#dev_classmethod #Databricks #Amazon_S3 #Apache_Parquet #Hive #AWS

DatabricksのUnity Catalogを利用してS3のデータを外部テーブルとして読み込んでみた | DevelopersIO

DatabricksのUnity Catalogを利用してS3のデータを外部テーブルとして読み込んでみた | DevelopersIO
firehoseを使ってs3にparquet形式でデータを保存する | DevelopersIO

firehoseを使ってs3にparquet形式でデータを保存してみました。 IoT Core * firehose * S3 はよく使うのですが、parquet形式はやったことなかったので勉強になりました。

firehoseを使ってs3にparquet形式でデータを保存する | DevelopersIO

Cloud Storage 上の Parquet ファイルのスキーマ情報をメタデータのみで取得する
https://dev.classmethod.jp/articles/gcs-parquet-metadata-schema/

#dev_classmethod #Google_Cloud_GCP #Google_Cloud_Storage #Apache_Parquet #Python

Cloud Storage 上の Parquet ファイルのスキーマ情報をメタデータのみで取得する | DevelopersIO

Cloud Storage 上の Parquet ファイルのスキーマ情報をメタデータのみで取得する | DevelopersIO
BigQuery で Parquet と CSV を比較してみる | DevelopersIO

BigQuery で Parquet と CSV を比較してみる | DevelopersIO

ZIP-бомба в формате Apache Parquet

Давние хаброжители помнят, как в 2015 году ZIP-бомба в формате PNG ненадолго вывела из строя Habrastorage. С тех пор появились новые разновидности этого «оружия»: например, разработаны нерекурсивные и компиляторные бомбы (29 байт кода → 16 ГБ .exe). Подобного рода экспоиты можно встроить не только в формат ZIP или PNG, но и в других форматы файлов, которые поддерживают сжатие. Например, в формате Apache Parquet .

https://habr.com/ru/companies/globalsign/articles/864886/

#ZIPбомба #Apache_Parquet #DoSатака #Thrift

ZIP-бомба в формате Apache Parquet

Давние хаброжители помнят, как в 2015 году ZIP-бомба в формате PNG ненадолго вывела из строя Habrastorage. С тех пор появились новые разновидности этого «оружия»: например, разработаны нерекурсивные и...

Хабр

S3にあるparquetファイルのメタデータのみにアクセスしてスキーマ情報を取得する
https://dev.classmethod.jp/articles/s3-parquet-get-schema-data/

#dev_classmethod #Python #Amazon_S3 #Apache_Parquet #Boto3

S3にあるparquetファイルのメタデータのみにアクセスしてスキーマ情報を取得する | DevelopersIO

データアナリティクス事業本部のueharaです。 今回は、S3にあるparquetファイルのメタデータのみにアクセスしてスキーマ情報を取得してみたいと思います。 はじめに S3にデータ容量の大きなparquetファイルが …

クラスメソッド発「やってみた」系技術メディア | DevelopersIO