9 Prosjektideer for Dataanalyseporteføljen

Det Kan være vanskelig å Finne prosjekter for dataanalyseporteføljen din, spesielt når du er ny i feltet. Du kan også tenke at dataprosjektene dine må være spesielt komplekse eller prangende, men det er ikke tilfelle. Det viktigste er å demonstrere dine ferdigheter, ideelt ved hjelp av et datasett som interesserer deg. Og de gode nyhetene? Data er overalt—du trenger bare å vite hvor du finner det og hva du skal gjøre med det.

i dette innlegget vil vi fremheve de viktigste elementene som dataanalyseporteføljen din skal demonstrere. Vi vil deretter dele ni prosjektideer som vil hjelpe deg med å bygge porteføljen din fra bunnen av, med fokus på tre hovedområder: dataskraping, utforskende analyse og datavisualisering.

Vi dekker:

  1. Hva bør du inkludere i dataanalyseporteføljen din?
  2. data scraping project ideas
  3. Utforskende dataanalyse project ideas
  4. visualisering av data project ideas
  5. Hva blir det neste?

Klar til å bli inspirert? Kom igjen!

Hva bør du inkludere i dataanalyseporteføljen din?

dataanalyse handler om å finne innsikt som informerer beslutningstaking. Men det er bare det endelige målet. Som enhver erfaren dataanalytiker vil fortelle deg, er innsiktene vi ser som forbrukere et resultat av mye arbeid. 80% av alle dataanalyseoppgaver innebærer å forberede data for analyse. Dette er fornuftig når du tenker på det—tross alt, vår innsikt er bare så god som kvaliteten på våre data.

ja, porteføljen din må vise at du kan utføre ulike typer dataanalyse. Men det må også vise at du kan samle inn data, rense det og rapportere funnene dine på en klar, visuell måte. Etter hvert som ferdighetene dine blir bedre, vil porteføljen din vokse i kompleksitet. Som nybegynner må du imidlertid vise at du kan:

  • Skrape nettet for data
  • Utfør utforskende analyser
  • Rene ryddige datasett
  • Kommuniser resultatene dine ved hjelp av visualiseringer

Hvis du er uerfaren, kan det bidra til å presentere hvert element som et eget mini-prosjekt. Dette gjør livet enklere siden du kan lære de enkelte ferdighetene på en kontrollert måte. Med det i tankene, vil vi holde det fint og enkelt med noen grunnleggende ideer, og noen verktøy du kanskje vil utforske for å hjelpe deg på veien.

data skraping prosjekt ideer for din portefølje

Hva er data skraping?

dataskraping er det første trinnet i et dataanalyseprosjekt. Det innebærer å trekke data (vanligvis fra nettet) og kompilere det til et brukbart format. Selv om det ikke er mangel på gode datalager tilgjengelig på nettet, er skraping og rengjøring av data selv en fin måte å vise dine ferdigheter på.prosessen med nettskraping kan automatiseres ved hjelp av verktøy som Parsehub, ScraperAPI eller Octoparse (for ikke-kodere) eller ved å bruke biblioteker som Beautiful Soup eller Scrapy (for utviklere). Uansett hvilket verktøy du bruker, er det viktig å vise at du forstår hvordan det fungerer og kan bruke det effektivt.

før du skraper et nettsted, må du sørge for at du har tillatelse til å gjøre det. Hvis du ikke er sikker, kan du alltid søke etter et datasett på et depotsted som Kaggle. Hvis det finnes der, er det en god innsats du kan gå rett til kilden og skrape den selv. Husk skjønt—data skraping kan være utfordrende hvis du er gruvedrift komplekse, dynamiske nettsteder. Vi anbefaler å starte med noe enkelt-et for det meste statisk nettsted. Her er noen ideer for å komme i gang.

data skraping prosjekt ideer

Internett Movie Database

en god nybegynner prosjekt er å trekke ut data Fra IMDb. Du kan samle detaljer om populære tv-programmer, filmanmeldelser og trivia, høyder og vekter av ulike aktører, og så videre. Data På IMDb lagres i et konsistent format på alle sidene, noe som gjør oppgaven mye enklere. Det er også mye potensial her for videre analyse.

Jobbportaler

mange nybegynnere liker å skrape data fra jobbportaler siden de ofte inneholder standard datatyper. Du kan også finne massevis av online tutorials som forklarer hvordan du går frem. For å holde det interessant, hvorfor ikke fokusere på ditt lokale område? Samle jobbtitler, selskaper, lønn, steder, nødvendige ferdigheter og så videre. Dette gir stort potensial for senere visualisering, for eksempel grafisk skillsets mot lønn.

e-handel

En annen populær er å skrape produkt og priser data fra e-handel. For eksempel trekke ut produktinformasjon Om Bluetooth-høyttalere På Amazon, eller samle anmeldelser og priser på ulike tabletter og bærbare datamaskiner. Igjen er dette relativt enkelt å gjøre, og det er skalerbart. Dette betyr at du kan starte med et produkt som har et lite antall anmeldelser, og deretter oppskalere når du er komfortabel med å bruke algoritmer.

Reddit

for noe litt mindre konvensjonelt, er et annet alternativ å skrape et nettsted som Reddit. Du kan søke etter bestemte søkeord, oppvoter, brukerdata og mer. Reddit er en veldig statisk nettside, noe som gjør oppgaven fin og grei. Senere kan du utføre interessante utforskende analyser, for eksempel for å se om det er noen sammenhenger mellom populære innlegg og bestemte søkeord. Hvilket bringer oss til vår neste seksjon.

Utforskende dataanalyse prosjektideer

hva er utforskende dataanalyse?

det neste trinnet i enhver dataanalytikers ferdigheter er evnen til å utføre en utforskende dataanalyse (EDA). En EDA ser på strukturen av data, slik at du kan bestemme deres mønstre og egenskaper. De hjelper deg også med å rense dataene dine. Du kan trekke ut viktige variabler, oppdage avvik og anomalier, og generelt teste dine underliggende forutsetninger.Selv om denne prosessen er en av de mest tidkrevende oppgavene for en dataanalytiker, kan den også være en av de mest givende. Senere modellering fokuserer på å generere svar på bestemte spørsmål. En EDA hjelper deg med å gjøre en av de mest spennende bitene-genererer disse spørsmålene i utgangspunktet.

Språk Som R og Python brukes ofte til å utføre disse oppgavene. De har mange eksisterende algoritmer som du kan bruke til å utføre arbeidet for deg. Den virkelige ferdigheten ligger i å presentere prosjektet og dets resultater. Hvordan du bestemmer deg for å gjøre dette er opp til deg, men en populær metode er å bruke et interaktivt dokumentasjonsverktøy som Jupyter Notebook. Dette lar deg fange elementer av kode, sammen med forklarende tekst og visualiseringer, alt på ett sted. Her er noen ideer til porteføljen din.

Exploratory data analysis project ideas

Globale selvmordsrater

dette globale selvmordsrater datasettet dekker selvmordsrater i ulike land, med tilleggsdata inkludert år, kjønn, alder, befolkning, BNP og MER. Når DU utfører DIN EDA, spør deg selv: Hvilke mønstre kan du se? Er selvmordstallene stigende eller fallende i ulike land? Hvilke variabler (som kjønn eller alder) kan du finne som kan korrelere med selvmordsrater?

World Happiness Report

På den andre enden av skalaen sporer World Happiness Report seks faktorer for å måle lykke over verdens borgere: forventet levealder, økonomi, sosial støtte, fravær av korrupsjon, frihet og generøsitet. Så, hvilket land er den lykkeligste? Hvilket kontinent? Hvilken faktor synes å ha størst (eller minst) innvirkning på en nasjons lykke? Samlet sett er lykke økende eller avtagende?

Bortsett fra de to ideene ovenfor, kan du også bruke dine egne datasett. Tross alt, hvis du allerede har skrapt dine egne data, hvorfor ikke bruke dem? For eksempel, hvis du skrapte en jobbportal, hvilke steder eller regioner tilbyr de best betalte jobbene? Hvilke tilbyr de minst godt betalte? Hvorfor kan det være? Like, med e-handel data, du kan se på hvilke priser og produkter tilbyr best verdi for pengene.

Til Slutt, uansett hvilket datasett du bruker, bør det ta oppmerksomheten din. Hvis dataene er for komplekse eller ikke interesserer deg, vil du sannsynligvis gå tom for damp før du kommer veldig langt. Husk hva videre sondering du kan gjøre for å oppdage interessante trender eller mønstre, og for å trekke ut innsikten du trenger.

Vi har samlet en liste over ti flotte steder å finne gratis datasett for ditt neste prosjekt her.

datavisualisering prosjekt ideer

hva er datavisualisering?

Skraping, rydding og analyse av data er en ting. Kommunisere dine funn er en annen. Hjernen vår liker ikke å se på tall og figurer, men de elsker visualer. Det er her evnen til å skape effektive datavisualiseringer kommer inn. Gode visualiseringer—enten statisk eller interaktiv-gjør et flott tillegg til enhver dataanalyseportefølje. Viser at du kan lage visualiseringer som er både effektiv og visuelt tiltalende vil gå en lang vei mot å imponere en potensiell arbeidsgiver.noen gratis visualiseringsverktøy inkluderer Google Charts, Canva Graph Maker (gratis) og Tableau Public. I mellomtiden, hvis du vil vise frem dine kodingsevner, bruk Et Python-bibliotek som Seaborn, eller bøy dine r-ferdigheter med Shiny. Unødvendig å si, det er mange verktøy tilgjengelig for å hjelpe deg. Den du velger, avhenger av hva du ønsker å oppnå. Her er litt inspirasjon…

datavisualiseringsprosjektideer

Covid-19

Aktuelt emne ser bra ut på enhver portefølje, og pandemien er ingenting hvis ikke aktuelt! Dessuten har nettsteder som Kaggle allerede tusenvis Av Covid – 19 datasett tilgjengelig. Hvordan kan du representere dataene? Kan du bruke en global heatmap for å vise hvor saker har spiked, versus hvor det er svært få? Kanskje du kan lage to overlappende stolpediagrammer for å vise kjente infeksjoner versus spådde infeksjoner. Her er en praktisk veiledning for å hjelpe deg med å visualisere Covid-19-data ved Hjelp Av R, Shiny og Plotly.

mest fulgte På Instagram

Enten du er interessert i sosiale medier, eller kjendis og merkevarekultur, har dette datasettet av De mest fulgte personene På Instagram stort potensial for visualisering. Du kan opprette et interaktivt stolpediagram som sporer endringer i de mest fulgte kontoene over tid. Eller du kan undersøke om merkevare-eller kjendiskontoer er mer effektive på influencer marketing. Ellers, hvorfor ikke finne et annet datasett for sosiale medier for å lage en visualisering? For eksempel, dette kartet OVER USA av dataforsker Greg Rafferty fremhever pent den geografiske kilden til trending emner På Instagram.

Reisedata

et annet emne som egner seg godt til visualisering er transportdata. Det er gode trinnvise opplæringsprogrammer der ute for hvordan du visualiserer reisedata, flydata er et godt eksempel. For eksempel, sjekk ut data scientist Spencer J Fox flight datavisualiseringer ved hjelp av ggplot2, en datavisualiseringspakke For R.

I dette innlegget har vi utforsket hvilke ferdigheter hver nybegynner trenger å demonstrere i sin dataanalyseportefølje. Uansett datasettet du bruker, bør du kunne demonstrere følgende evner: webskraping-bruk verktøy som Parsehub, Beautiful Soup eller Scrapy for å trekke ut data fra nettsteder (husk: statiske er enklere!)

  • Utforskende dataanalyse og datarensing-manipulerer data med verktøy som R og Python, før du tegner noen innledende innsikt.data visualisering-utnytte verktøy som Tableau, Skinnende, Eller Plotly å lage skarpe, overbevisende oversikter og visualiseringer.
  • når du har mestret det grunnleggende, kan du begynne å bli mer ambisiøs med dataanalyseprosjektene dine. For eksempel, hvorfor ikke introdusere noen maskinlæringsprosjekter, som sentimentanalyse eller prediktiv analyse? Det viktigste er å starte enkelt og å huske at en god dataanalyseportefølje ikke trenger å være prangende, bare kompetent.For å videreutvikle dine ferdigheter, er det massevis av online kurs designet for å sette deg på rett spor. Til å begynne med, hvorfor ikke prøve vår gratis, fem-dagers data analytics kort kurs?

    Og hvis du vil lære mer om å bli dataanalytiker og bygge porteføljen din, sjekk ut følgende:

    • Hvordan bygge en dataanalyseportefølje
    • de beste dataanalysesertifiseringsprogrammene på markedet akkurat nå
    • Dette er de vanligste dataanalyseintervjuespørsmålene

    Legg igjen en kommentar

    Din e-postadresse vil ikke bli publisert.