Snøkam logo
← Tilbake til data plattform

Spark

Apache Spark er et verktøy for å behandle store mengder data raskt og effektivt. Det gjør det mulig å analysere data i sanntid eller utføre avanserte beregninger på tvers av store datamengder.
Vi bruker Spark fordi det gir oss kraften til å hente ut innsikt fra store datakilder, bygge maskinlæringsmodeller og støtte løsninger som krever høy ytelse og skalerbarhet.

Våre utviklere med erfaring i spark

Anine Harto
Anine Harto
Senior data engineer

Spark i våre prosjekter

Spark er en sentral del av flere av våre kundeprosjekter. Her ser du noen eksempler på hvordan vi har brukt teknologien i praksis.

image for Dataplattform for Vipps MobilePay

Dataplattform for Vipps MobilePay

image for Anine Harto
SparkDatabricksTerraformPython
Se alle våre prosjekter i Solveggen →

Dette skriver vi om spark

Her deler vi erfaringer vi har gjort oss med spark i prosjekter og i hverdagen vår som utviklere.

image for Hvorfor PySpark MERGE ikke håndterer SCD2 (og hvordan fikse dette i Delta Lake)

Hvorfor PySpark MERGE ikke håndterer SCD2 (og hvordan fikse dette i Delta Lake)

Når man jobber med data som endrer seg over tid, er det helt naturlig å ville beholde historikken. Dette er kjernen i det som kalles Slowly Changing Dimensions type 2 (SCD2), som er en måte å sørge for at vi alltid kan se hvordan en rad så ut før, samtidig som den oppdateres med ny informasjon.

Anine Harto
26. okt. 2025 - 3 min lesetid
image for Hva er en  Delta Lake og en Delta-tabell, og trenger vi egentlig Spark?

Hva er en Delta Lake og en Delta-tabell, og trenger vi egentlig Spark?

La oss kutte gjennom alle buzzwords. En delta lake er i bunn og grunn bare en samling filer, typisk lagret på billig skylagring som Azure Blob Storage eller Amazon S3. Det er praktisk fordi du kan lagre enorme mengder rådata uten å betale for dyre databasesystemer. Hvorfor ikke bare bruke en relasjonsdatabase? Du kunne sikkert gjort det. For eksempel Postgres er en veldig allsidig og bra database. Men du sparer trolig en del penger på å bruke noe som er designet for analyse. I tillegg er slike databaser ofte radorienterte, mens analysejobber yter bedre med kolonnebasert lagring.

Arvid Mildner
29. sep. 2025 - 4 min lesetid
Se flere artikler på bloggen vår >

Vi du vite mer om hvordan vi bruker spark i Snøkam?

Snowball figure