From PySpark to Azure Databricks PDF Print E-mail
Written by Administrator   
Sunday, 14 June 2026 07:37

Tigor Sinuraja, owner

First exposed to Databricks at Dutch Railways around 2020, exploring the possibilities of PySpark ML libraries and Linear Regression. I was hooked, like many developers who discover this tool. Like many others, I was also experimenting with ML (see my MMA classifier v5 project) and applied my newly acquired Databricks skills to run it in PySpark notebooks. At Stater I used PySpark extensively on Spark on-premise for almost three years — experience that proved invaluable at Ayvens during a large-scale migration to Azure Databricks: a complex and fast-paced project where all aspects of platform engineering, DevOps, and data engineering had to be addressed. Along the way I got certified, and I'll keep learning as Databricks constantly ships new features. As the best commercial tool for analytics right now, Databricks is the right choice if you're willing — and have the means — to invest. Managed Spark, Unity Catalog governance, Delta Lake, MLflow, and a constantly expanding ecosystem make it hard to beat for enterprise workloads.

Databricks Certified Associate AI badges

Microsoft Fabric frontier

Fabric is moving fast and can be the best fit for your organization. From the time we did a POC on SQL Data Warehouse at Dutch Railways around 2021 (a dedicated pool in the early versions of Synapse — the predecessor of Fabric), it has grown into a next-level suite covering the full spectrum of key functions you need: governance, integration, security, and scalability.

Microsoft Fabric Associate

Snowflake — perfect for SQL-centric teams

Snowflake is one of the leaders of Analytical Platforms and has a lot of traction in different sectors such as Energy. I had the privilege of being part of the team of architects that initiated Snowflake adoption at Dutch Railways. The benchmark we ran left no doubt — from that moment on, Snowflake became the analytical foundation at this large and important organization. I was involved in the migration to Snowflake later on.

Tigor Sinuraja, owner

Mijn eerste kennismaking met Databricks was bij de Nederlandse Spoorwegen rond 2020, waar ik de mogelijkheden van PySpark ML-libraries en Linear Regression verkende. Ik was meteen verkocht, zoals veel ontwikkelaars die deze tool ontdekken. Net als veel anderen experimenteerde ik ook met ML (zie mijn MMA classifier v5 project) en paste ik mijn pas opgedane Databricks-skills toe om het in PySpark notebooks draaiend te krijgen. Bij Stater heb ik PySpark bijna drie jaar intensief gebruikt op Spark on-premise — ervaring die onmisbaar bleek bij Ayvens tijdens een grootschalige migratie naar Azure Databricks: een complex en hoogtempo project waar alle aspecten van platform engineering, DevOps en data engineering moesten worden geadresseerd. Onderweg ben ik gecertificeerd, en ik blijf leren want Databricks brengt voortdurend nieuwe features uit. Als beste commerciële analytics-tool op dit moment is Databricks de juiste keuze als je bereid bent — en de middelen hebt — om te investeren. Managed Spark, Unity Catalog governance, Delta Lake, MLflow en een constant uitbreidend ecosysteem maken het moeilijk te verslaan voor enterprise workloads.

Databricks Certified Associate AI badges

Microsoft Fabric: de nieuwe frontier

Fabric gaat snel en kan de beste keuze zijn voor jouw organisatie. Vanaf de POC die we deden op SQL Data Warehouse bij de Nederlandse Spoorwegen rond 2021 (een dedicated pool in de vroege versies van Synapse — de voorganger van Fabric) is het uitgegroeid tot een next-level suite die het volledige spectrum van benodigde key-functies dekt: governance, integratie, security en schaalbaarheid.

Microsoft Fabric Associate

Snowflake — perfect voor SQL-gerichte teams

Snowflake is een van de leiders op het gebied van Analytical Platforms en heeft veel tractie in verschillende sectoren zoals Energie. Ik had het voorrecht om deel uit te maken van het team van architecten dat de adoptie van Snowflake bij de Nederlandse Spoorwegen heeft geïnitieerd. De benchmark die we uitvoerden liet geen twijfel bestaan — vanaf dat moment werd Snowflake het analytische fundament bij deze grote en belangrijke organisatie. Ik was later betrokken bij de migratie naar Snowflake.

Last Updated on Wednesday, 17 June 2026 07:46