AWS Glueでサブクエリを使う

2022年6月11日

GlueのJDBC並列読取りのlowerBound、upperBoundを動的に求めたい

https://www.blog.danishi.net/2020/12/03/post-4309

Glueの並列読取りのためのプロパティのlowerBound、upperBound。パーティションカラムの最大値と最小値をジョブ実行のたびに動的に求めて設定できるようにしてみました。DATABASE_USER = 'USER'DATABASE_PASSWORD = 'PASSWORD'TABLE_NAME = 'MY_TABLE'PARTITION_COLUMN = 'ID'query = "(SELECT max({0}), min({0}) FROM {1}) sub".format( PARTITION_COLUMN, TABLE_NAME)properties = { "user": DATABASE_USER, "password": DATABASE_PASSWORD,}(upp...

lowerBound、upperBoundだけではカラムや行の絞り込みができないので試したらできました。

DATABASE_USER = 'USER'
DATABASE_PASSWORD = 'PASSWORD'
# TABLE_NAME = 'MY_TABLE'
PARTITION_COLUMN = 'ID'

query = "(SELECT max({0}), min({0}) FROM {1}) sub".format(
    PARTITION_COLUMN, TABLE_NAME
)
properties = {
    "user": DATABASE_USER,
    "password": DATABASE_PASSWORD,
}
(upper_bound, lower_bound) = (spark.read
    .jdbc(url=JDBC_URL, table=query, properties=properties)
    .first())

SUB = """
(
  SELECT
   id, 
   name
  FROM MY_TABLE
  WHERE
   id >= 1000
)
"""

df = spark \
    .read \
    .format("jdbc") \
    .option("url", JDBC_URL) \
    .option("user", DATABASE_USER) \
    .option("password", DATABASE_PASSWORD) \
    .option("dbtable", SUB) \
    .option("numPartitions", 100) \
    .option("partitionColumn", PARTITION_COLUMN ) \
    .option("lowerBound", lower_bound) \
    .option("upperBound", upper_bound) \
    .load()

AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門

やってみたAWS, AWS Glue, SQL

Posted by danishi