Forum: Writing data to ADW through JDBC in a PySpark environment performs poorly

#forum

Question:

I am trying to write PySpark DataFrames to ADW (Oracle Autonomous Data Warehouse) using JDBC in a Jupyter Lab environment, but the performance is low.

dataframe.format("jdbc").mode('overwrite').option("batchsize", batchsize).option('createTableColumnTypes', create_str).option("rewriteBatchedStatements", "true").option("url", jdbc_url).option("dbtable", table).option("user", self.user).option("password", self.password).option("driver", "oracle.jdbc.OracleDriver").save()

I’m using the rewriteBatchedStatements and batchsize parameters, but the performance is still bad.

Using other tools like DBeaver, the load performance is better. Could you suggest a guide or best practices to achieve this connection?

ojdbc8 Spark 3.5.0 Oracle 19c

Answer:

Oracle ADW performs best when using its bulk load capabilities. You can enable it by setting a specific connection property:

.option(“oracle.jdbc.defaultBatchValue”, “5000”)

And try use defaultRowPrefetch 100 which tells the Oracle driver how many rows to fetch (default is 10).

Hope it helps.

Discussion: https://stackoverflow.com/questions/79212910/writing-data-to-adw-through-jdbc-in-a-pyspark-environment-performs-poorly/79256155#79256155

Forum: Writing data to ADW through JDBC in a PySpark environment performs poorly

Leia também...

Como a Oracle vem silenciosamente virando o jogo na corrida da IA?

Meu último pedido para você em 2024…

Uma breve explicação de TUDO! A jornada por dentro dos conceitos e das carreiras em T.I./Dados

🚀 Participe do Evento: OCI – Day One and Beyond: Oracle Analytics Cloud Overview 🌐

Sobre

Siga nas redes

Últimas postagens

Como a Oracle vem silenciosamente virando o jogo na corrida da IA?

Meu último pedido para você em 2024…

Uma breve explicação de TUDO! A jornada por dentro dos conceitos e das carreiras em T.I./Dados

🚀 Participe do Evento: OCI – Day One and Beyond: Oracle Analytics Cloud Overview 🌐

🚀 Novo Curso Disponível(FREE): Oracle Cloud Infrastructure Multicloud Architect Professional (2025) 🌐 Preparatório para certificação

Como salvamos mais de R$1mi/ANO em Cloud(OCI) configurando OCPUs burstable? Quer que te explique melhor? Então vem…

Forum: Pentaho – Is Execute SQL script a preferable way to run PL/SQL?

Forum: Grant rights to create tables in a particular Oracle schema

Forum: ETL do Mysql para Oracle e vice versa

Resolvendo Problemas de Conexão do Apache Superset com Oracle Database

Certificações

Related Post

Leia também...