Neste generasjons overvåkingsfunksjoner med Datadog og AWS (Amazon Web Services)

Ruters Core Mobility Platform leverer tjenester til mange kunder. De valgte å bygge tjenestene med utgangspunkt i komponenter med åpen kildekode i stedet for å satse på en tett integrasjon med AWS-spesifikke administrerte tjenester. Hensikten er å skape fleksibilitet, slik at Ruter enkelt kan ta over driften av tjenestene i fremtiden hvis de skulle ønske det.


Ruter AS er et felles administrasjonsselskap for kollektivtrafikken i Oslo og deler av Viken (tidligere Akershus fylke). Selskapet eies av Oslo kommune (60 %) og Viken fylkeskommune (40 %) og har ansvaret for administrasjon, finansiering og markedsføring (men ikke direkte drift) av kollektivtrafikk i de to fylkene, inkludert buss, T-bane, trikk og ferge. Ruter har også avtaler med Vy om regulering av billettpriser på lokale og regionale togstrekninger i de to fylkene.

Utviklingen av digitale tjenester hos Ruter involverer mange aktører. En sentral del av Ruters digitale plattform er Core Mobility Platform, en tjeneste som i sin helhet administreres av Orange Business Services. Core Mobility Platform består av en tjeneste for flåtelogistikk og en rapporteringstjeneste basert på Amazon EC2-instanser der Orange Business Services drifter nøkkelkomponentene Kafka, Cassandra, MQ (Message Queue) og flere databasetjenester på Amazon RDS.

Utfordringen med overvåking

Ruters Core Mobility Platform leverer tjenester til mange kunder, blant annet leverandører av IoT-integrasjon for busser, selvstendige team som utvikler nye funksjoner på Kubernetes for kollektivtrafikkbransjen, og medarbeidere som administrerer Ruters daglige drift.
Kunden valgte en tilnærming til løsningsarkitektur basert på åpne systemer. De valgte å bygge tjenestene med utgangspunkt i komponenter med åpen kildekode i stedet for å satse på en tett integrasjon med AWS-spesifikke administrerte tjenester. Hensikten er å skape fleksibilitet, slik at Ruter enkelt kan ta over driften av tjenestene i fremtiden hvis de skulle ønske det.
Siden så mange mennesker er avhengige av kollektivtrafikk, må man sikre at plattformen alltid er tilgjengelig, derfor er effektiv overvåking avgjørende.

Løsningen ble AWS og Datadog

Det finnes flere komplekse krav til overvåking av Core Mobility Platform, siden mange ulike brukere trenger innsyn i komponentene de er ansvarlige for. Ruter og Orange Business Services valgte Datadog som sitt primære overvåkingsverktøy på grunn av det store utvalget plugin-moduler og muligheten til å korrelere logger og Application Performance Management-data i ett og samme verktøy.

Datadogs plugin-tilnærming gjør det mulig for Ruter og Orange Business Services å legge til ulike moduler ved behov. I denne casestudien fokuserer vi på de delene av plattformen som Orange Business Services har overvåkingsansvar for. Dette omfatter den underliggende AWS-infrastrukturen, EC2 Compute, lagring og nettverk. Alle infrastruktur- og overvåkingskomponenter defineres som IaC ved hjelp av HashiCorp Terraform. Dette gjør det enkelt for Ruter og Orange Business Services å administrere og overvåke ulike miljøer. Ressurser merkes med hvilke clustere og grupper de tilhører. Dette gjør at overvåkingshendelser og -logger automatisk kan knyttes til riktige tjenester etter hvert som skaleringshendelser utløses og nye ressurser startes.


Overåkingsløsning for belastingsfordelning og avvik med AWS

Alle tjenestene som Orange Business Services administrerer for Ruter, er distribuerte komponenter. Hver av dem har krav knyttet til varierende etterspørsel og fleksibel kapasitet, og forespørsler til tjenesten kan komme fra en rekke ulike brukere. Orange Business Services overvåker Apache Cassandra-clusterne ved hjelp av algoritmer for statistisk analyse. Disse brukes til å identifisere ekstreme verdier og avvik i matriser for å gi bedre innsikt i hvordan tjenesten brukes, og hvordan tjenestens ytelse er. Orange Business Services har konfigurert en overvåkingsfunksjon som identifiserer ekstreme verdier ved høy belastning på noder. Dette gjør at Orange Business Services kan spore bruksmønstre og optimalisere clusteret for å øke ytelsen.

Grafen nedenfor viser et eksempel der ytelsen til en enkeltnode i clusteret avviker fra ytelsen til de andre medlemsnodene. Dette kan tyde på at det er et problem med den aktuelle noden, eller med måten dataene er partisjonert i clusteret på.

Bruke Datadog til å forutse terskelbrudd

Datadog innhenter en rekke matriser fra heterogene kilder. Verktøyet bruker prediktive algoritmer til å forutsi hvordan bestemte matriser vil fortsette å stige eller synke, basert på identifiserte trender.

Orange Business Services har ansvaret for å administrere de ulike Cassandra-clusterne for Ruter. Ved å forutsi vekst i beregning eller lagring av clusteret kan Orange Business Services planlegge skalerings- og vedlikeholdsaktivitet før ytelsen begynner å svekkes, uten å basere seg på for store mengder tilgjengelige clusterressurser.

Orange Business Services bruker Amazon Web Services‘ (AWS) tjeneste for trusselidentifisering, GuardDuty, til kontinuerlig overvåking av Ruters produksjonskontoer for å oppdage eventuell skadelig og uautorisert atferd. GuardDuty bruker maskinlæring basert på et sett med AWS-loggkilder. Når det identifiseres et avvik, vises problemet i AWS Security Hub, noe som gir kunden fullstendig innsyn. Orange Business Services har integrert AWS Security Hub-varsler med vårt system for tjenesteadministrasjon, og eventuelle varsler vil bli håndtert av Orange Business Services døgnåpne driftssenter.

Fordeler med Datadog og AWS

Det er mange som forbruker overvåkingsdata innenfor Ruters plattform, men Datadog har gjort det mulig for Orange Business Services og Ruter å tilby en felles overvåkingsplattform som alle teamene kan bruke. Implementeringen gjør Orange Business Services i stand til å levere neste generasjons overvåking med avansert statistisk analyse som identifiserer avvik og ekstreme verdier, kommer med prognoser for fremtidig vekst og kan identifisere potensielle kostnadsbesparelser.

Siden dagens produkter hovedsakelig består av distribuerte komponenter, gir disse verktøyene bedre oversikt over løsningens status og generelle tilstand. Det forenkler prosessen med å identifisere den underliggende årsaken til problemer i forbindelse med hendelseshåndtering.