Update to 0.15.1, update json schema to include oneOf to count options, bigquery and rabbitmq options, use gradle 8.12, update memory settings

pflooky · pflooky · commit 9256513839f1 · 2025-02-26T10:01:41.000+08:00
diff --git a/docker/data/custom/application.conf b/docker/data/custom/application.conf
@@ -13,7 +13,7 @@ flags {
     enableFailOnError = ${?ENABLE_FAIL_ON_ERROR}
     enableUniqueCheck = true
     enableUniqueCheck = ${?ENABLE_UNIQUE_CHECK}
-    enableSinkMetadata = true
+    enableSinkMetadata = false
     enableSinkMetadata = ${?ENABLE_SINK_METADATA}
     enableSaveReports = true
     enableSaveReports = ${?ENABLE_SAVE_REPORTS}
@@ -23,6 +23,8 @@ flags {
     enableGenerateValidations = ${?ENABLE_GENERATE_VALIDATIONS}
     enableAlerts = false
     enableAlerts = ${?ENABLE_ALERTS}
+    enableUniqueCheckOnlyInBatch = false
+    enableUniqueCheckOnlyInBatch = ${?ENABLE_UNIQUE_CHECK_ONLY_IN_BATCH}
 }
 
 folders {
@@ -32,6 +34,8 @@ folders {
     planFilePath = ${?PLAN_FILE_PATH}
     taskFolderPath = "/opt/app/custom/task"
     taskFolderPath = ${?TASK_FOLDER_PATH}
+    validationFolderPath = "/opt/app/custom/validation/csv"
+    validationFolderPath = ${?VALIDATION_FOLDER_PATH}
     recordTrackingFolderPath = "/opt/app/custom/recordTracking"
     recordTrackingFolderPath = ${?RECORD_TRACKING_FOLDER_PATH}
     recordTrackingForValidationFolderPath = "/opt/app/custom/validation/recordTracking"
@@ -80,22 +84,28 @@ runtime {
     master = "local[*]"
     master = ${?DATA_CATERER_MASTER}
     config {
+        "spark.driver.memory" = "6g",
+        "spark.executor.memory" = "6g",
+        "spark.executor.memoryOverhead" = "512m",
+        "spark.memory.fraction" = "0.6",
+        "spark.memory.storageFraction" = "0.5",
+        "spark.memory.offHeap.size" = "1g",
+        "spark.sql.shuffle.partitions" = "10",
         "spark.sql.cbo.enabled": "true",
-        "spark.sql.adaptive.enabled": "true",
-        "spark.sql.cbo.planStats.enabled": "true",
-        "spark.sql.legacy.allowUntypedScalaUDF": "true",
-        "spark.sql.legacy.allowParameterlessCount": "true",
-        "spark.sql.statistics.histogram.enabled": "true",
-        "spark.sql.shuffle.partitions": "10",
-        "spark.sql.catalog.postgres": "",
-        "spark.sql.catalog.cassandra": "com.datastax.spark.connector.datasource.CassandraCatalog",
-        "spark.sql.catalog.iceberg": "org.apache.iceberg.spark.SparkCatalog",
-        "spark.sql.catalog.iceberg.type": "hadoop",
-        "spark.hadoop.fs.s3a.directory.marker.retention": "keep",
-        "spark.hadoop.fs.s3a.bucket.all.committer.magic.enabled": "true",
-        "spark.hadoop.fs.hdfs.impl": "org.apache.hadoop.hdfs.DistributedFileSystem",
-        "spark.hadoop.fs.file.impl": "com.globalmentor.apache.hadoop.fs.BareLocalFileSystem",
-        "spark.sql.extensions": "io.delta.sql.DeltaSparkSessionExtension,org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions"
+        "spark.sql.adaptive.enabled" = "true",
+        "spark.sql.cbo.planStats.enabled" = "true",
+        "spark.sql.legacy.allowUntypedScalaUDF" = "true",
+        "spark.sql.legacy.allowParameterlessCount" = "true",
+        "spark.sql.statistics.histogram.enabled" = "true",
+        "spark.sql.catalog.postgres" = "",
+        "spark.sql.catalog.cassandra" = "com.datastax.spark.connector.datasource.CassandraCatalog",
+        "spark.sql.catalog.iceberg" = "org.apache.iceberg.spark.SparkCatalog",
+        "spark.sql.catalog.iceberg.type" = "hadoop",
+        "spark.hadoop.fs.s3a.directory.marker.retention" = "keep",
+        "spark.hadoop.fs.s3a.bucket.all.committer.magic.enabled" = "true",
+        "spark.hadoop.fs.hdfs.impl" = "org.apache.hadoop.hdfs.DistributedFileSystem",
+        "spark.hadoop.fs.file.impl" = "com.globalmentor.apache.hadoop.fs.BareLocalFileSystem",
+        "spark.sql.extensions" = "io.delta.sql.DeltaSparkSessionExtension,org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions"
     }
 }
 
diff --git a/docker/data/custom/plan/csv-multiple-relationships.yaml b/docker/data/custom/plan/csv-multiple-relationships.yaml
@@ -0,0 +1,4 @@
+name: "csv_multiple_relationships_plan"
+tasks:
+  - name: "csv_customer_files"
+    dataSourceName: "csv"
diff --git a/docker/data/custom/task/file/csv/csv-customer-task.yaml b/docker/data/custom/task/file/csv/csv-customer-task.yaml
@@ -0,0 +1,103 @@
+name: "csv_customer_files"
+steps:
+  - name: "products"
+    type: "csv"
+    options:
+      path: "/opt/app/custom/csv/multi-relationship/products"
+      header: true
+      partitions: 1
+      saveMode: "Overwrite"
+    count:
+      records: 100
+    fields:
+      - name: "product_id"
+        options:
+          uuid: ""
+          incremental: 1
+      - name: "product_name"
+        options:
+          regex: "product_[0-9]{8}"
+  - name: "customers"
+    type: "csv"
+    options:
+      path: "/opt/app/custom/csv/multi-relationship/customers"
+      header: true
+      saveMode: "Overwrite"
+    count:
+      records: 1000000
+    fields:
+      - name: "customer_id"
+        options:
+          uuid: ""
+          incremental: 1000000
+      - name: "first_name"
+        options:
+          expression: "#{Name.firstName}"
+      - name: "last_name"
+        options:
+          expression: "#{Name.lastName}"
+  - name: "accounts"
+    type: "csv"
+    options:
+      path: "/opt/app/custom/csv/multi-relationship/accounts"
+      header: true
+      saveMode: "Overwrite"
+    count:
+      records: 1000000
+      perField:
+        fieldNames:
+          - "customer_id"
+        options:
+          oneOf: ["1->0.6", "2->0.2", "3->0.1", "4->0.1", "5->0.1"]
+    fields:
+      - name: "customer_id"
+        options:
+          uuid: ""
+          incremental: 1000000
+          isPrimaryKey: true
+      - name: "product_id_int"
+        type: "int"
+        options:
+          min: 1
+          max: 100
+          omit: true
+      - name: "product_id"
+        options:
+          uuid: "product_id_int"
+          isPrimaryKey: true
+      - name: "country_code"
+        options:
+          expression: "#{Address.countryCode}"
+  - name: "customer_access"
+    type: "csv"
+    options:
+      path: "/opt/app/custom/csv/multi-relationship/customer-access"
+      header: true
+      saveMode: "Overwrite"
+    count:
+      records: 1000000
+      perField:
+        fieldNames:
+          - "customer_product_id"
+        options:
+          min: 1
+          max: 5
+    fields:
+      - name: "customer_product_id"
+        options:
+          uuid: ""
+          incremental: 1000000
+          isPrimaryKey: true
+      - name: "product_id_int"
+        type: "int"
+        options:
+          min: 1
+          max: 100
+          omit: true
+      - name: "product_id"
+        options:
+          uuid: "product_id_int"
+          isPrimaryKey: true
+      - name: "party_id"
+        options:
+          uuid: ""
diff --git a/docker/data/custom/validation/csv/csv-customer-validation.yaml b/docker/data/custom/validation/csv/csv-customer-validation.yaml
@@ -0,0 +1,25 @@
+---
+name: "csv_customer_checks"
+description: "Check customer related fields have gone through system correctly"
+dataSources:
+  csv:
+    - options:
+        path: "/opt/app/custom/csv/multi-relationship/products"
+      validations:
+        - aggType: count
+          aggExpr: count == 100
+    - options:
+        path: "/opt/app/custom/csv/multi-relationship/customers"
+      validations:
+        - aggType: count
+          aggExpr: count == 1000000
+    - options:
+        path: "/opt/app/custom/csv/multi-relationship/accounts"
+      validations:
+        - aggType: count
+          aggExpr: count > 2000000 and count < 3000000
+    - options:
+        path: "/opt/app/custom/csv/multi-relationship/customer-access"
+      validations:
+        - aggType: count
+          aggExpr: count > 2000000 and count < 3000000
diff --git a/docker/data/custom/validation/json/json-validation.yaml b/docker/data/custom/validation/json/json-validation.yaml
@@ -127,7 +127,7 @@ dataSources:
               negate: true
             - type: "quantileValuesBetween"
               quantileRanges:
-                "0.1":
+                0.1:
                   - - 1.0
                     - 10.0
               negate: true
diff --git a/gradle.properties b/gradle.properties
@@ -8,5 +8,5 @@ version=0.1.0
 
 scalaVersion=2.12
 scalaSpecificVersion=2.12.19
-dataCatererVersion=0.15.0
+dataCatererVersion=0.15.1
 sparkMajorVersion=3.5
diff --git a/gradle/wrapper/gradle-wrapper.properties b/gradle/wrapper/gradle-wrapper.properties
@@ -1,6 +1,6 @@
 distributionBase=GRADLE_USER_HOME
 distributionPath=wrapper/dists
-distributionUrl=https\://services.gradle.org/distributions/gradle-8.8-bin.zip
+distributionUrl=https\://services.gradle.org/distributions/gradle-8.12-bin.zip
 networkTimeout=10000
 validateDistributionUrl=true
 zipStoreBase=GRADLE_USER_HOME
diff --git a/run.sh b/run.sh
@@ -64,8 +64,6 @@ DOCKER_CMD=(
   -e "APPLICATION_CONFIG_PATH=/opt/app/custom/application.conf"
   -e "$full_class_name"
   -e "DEPLOY_MODE=client"
-  -e "DRIVER_MEMORY=2g"
-  -e "EXECUTOR_MEMORY=2g"
   -e "DATA_CATERER_API_USER=$DATA_CATERER_API_USER"
   -e "DATA_CATERER_API_TOKEN=$DATA_CATERER_API_TOKEN"
   --network "insta-infra_default"
diff --git a/schema/data-caterer-latest.json b/schema/data-caterer-latest.json
@@ -125,7 +125,7 @@
               "type": {
                 "type": "string",
                 "description": "Type of data source.",
-                "enum": ["cassandra", "postgres", "mysql", "kafka", "solace", "csv", "delta", "json", "orc", "parquet", "iceberg", ""]
+                "enum": ["bigquery", "cassandra", "postgres", "mysql", "kafka", "solace", "csv", "delta", "json", "orc", "parquet", "iceberg", "rabbitmq"]
               },
               "options": {
                 "type": "object",
@@ -220,6 +220,31 @@
                   "required": ["options"]
                 }
               },
+              {
+                "if": {
+                  "properties": {
+                    "type": {
+                      "enum": ["bigquery"]
+                    }
+                  },
+                  "required": ["type"]
+                },
+                "then": {
+                  "properties": {
+                    "options": {
+                      "type": "object",
+                      "properties": {
+                        "table": {
+                          "type": "string",
+                          "description": "BigQuery table name. Follows format '<project>.<dataset>.<table>'."
+                        }
+                      },
+                      "required": ["table"]
+                    }
+                  },
+                  "required": ["options"]
+                }
+              },
               {
                 "if": {
                   "properties": {
@@ -359,7 +384,7 @@
                 "if": {
                   "properties": {
                     "type": {
-                      "enum": ["solace"]
+                      "enum": ["solace", "rabbitmq"]
                     }
                   },
                   "required": ["type"]
@@ -633,8 +658,36 @@
     "CountGeneratorOptions": {
       "type": "object",
       "propertyNames": {
-        "enum": ["sql", "min", "max", "stddev", "mean"]
-      }
+        "enum": ["sql", "min", "max", "stddev", "mean", "oneOf"]
+      },
+      "allOf": [
+        {
+          "if": {
+            "required": ["oneOf"]
+          },
+          "then": {
+            "properties": {
+              "oneOf": {
+                "oneOf": [
+                  {
+                    "type": "array",
+                    "items": {
+                      "type": "integer"
+                    }
+                  },
+                  {
+                    "type": "array",
+                    "items": {
+                      "type": "string",
+                      "pattern": "^0|[1-9]\\d*->(0|[1-9]\\d*|\\d+\\.\\d+)$"
+                    }
+                  }
+                ]
+              }
+            }
+          }
+        }
+      ]
     },
     "SchemaFieldDataTypes": {
       "enum": [
@@ -733,6 +786,11 @@
         "distributionRateParam": {
           "type": "number",
           "description": "If distribution is `exponential`, rate parameter to adjust exponential distribution."
+        },
+        "incremental": {
+          "type": "number",
+          "description": "Generate incremental numbers. By default, starts at 1. You can define a starting number.",
+          "default": 1
         }
       },
       "allOf": [
@@ -763,6 +821,15 @@
           "type": "string",
           "description": "Regex for generating values.",
           "examples": ["ACC[0-9]{8}"]
+        },
+        "uuid": {
+          "type": "string",
+          "description": "Generate UUID values. If non-empty, you can define another column name to generate UUID values from another columns value."
+        },
+        "incremental": {
+          "type": "number",
+          "description": "Generate incremental numbers. By default, starts at 1. You can define a starting number.",
+          "default": 1
         }
       },
       "allOf": [