Till innehåll på sidan

Improving the performance of stream processing pipeline for vehicle data

Examensarbete presentation

Tid: To 2020-10-22 kl 13.00

Föreläsare: Wenyu Gu

Plats: Zoom - https://kth-se.zoom.us/j/65326854876

Den växande mängden positionsberoende data (som innehåller både geo-positionsdata (dvs. latitud, longitud) och även fordon / förarrelaterad information) som samlats in från sensorer på fordon utgör en utmaning för datorprogram att bearbeta den totala mängden data från många fordon . Medan den här växande mängden data hanteras måste datorprogrammen som behandlar dessa data uppvisa låg latens och hög genomströmning - annars minskar värdet av resultaten av denna bearbetning. Som en lösning har big data och cloud computing-tekniker använts i stor utsträckning av industrin.

Denna avhandling undersöker en molnbaserad bearbetningspipeline som bearbetar fordonsplatsdata. Systemet tar emot fordonsdata i realtid och behandlar data på ett strömmande sätt. Målet är att förbättra prestanda för denna strömmande pipeline, främst med avseende på latens, genomströmning och kostnad.

Arbetet började med att titta på den nuvarande lösningen med AWS Kinesis och AWS Lambda. En benchmarking-miljö skapades och användes för att mäta det aktuella systemets prestanda.

Dessutom genomfördes en litteraturstudie för att hitta en bearbetningsram som bäst uppfyller både industriella och akademiska krav. Efter en jämförelse valdes Flink som det nya ramverket. En ny lösning designades för att använda Fink. Därefter jämfördes prestandan för den nuvarande lösningen och den nya Flink-lösningen med samma benchmarking-miljö och. Slutsatsen är att den nya Flink-lösningen har 86,2% lägre latens samtidigt som den stöder tredubbla kapaciteten för det nuvarande systemet till nästan samma kostnad.

Nyckelord: Molntjänster, Strömbearbetning, Flink, Amazon Web Service (AWS)