9 pomysły na projekty dla Twojego Portfolio analityki danych

znalezienie projektów dla Twojego portfolio analityki danych może być trudne, zwłaszcza gdy jesteś nowy w tej dziedzinie. Możesz również pomyśleć, że Twoje projekty danych muszą być szczególnie złożone lub efektowne, ale tak nie jest. Najważniejszą rzeczą jest zademonstrowanie swoich umiejętności, najlepiej przy użyciu zestawu danych, który Cię interesuje. A dobre wieści? Dane są wszędzie-wystarczy wiedzieć, gdzie je znaleźć i co z nimi zrobić.

w tym poście podkreślimy kluczowe elementy, które powinien wykazywać twój portfel analityczny danych. Następnie podzielimy się dziewięcioma pomysłami projektowymi, które pomogą Ci zbudować portfolio od podstaw, koncentrując się na trzech kluczowych obszarach: skrobaniu danych, analizie eksploracyjnej i wizualizacji danych.

omówimy:

  1. co należy uwzględnić w portfolio analityki danych?
  2. skrobanie danych pomysły projektów
  3. eksploracyjna analiza danych pomysły projektów
  4. wizualizacja danych pomysły projektów
  5. co dalej?

chcesz się zainspirować? Idziemy!

co należy uwzględnić w portfolio analityki danych?

analiza danych polega na znajdowaniu spostrzeżeń, które ułatwiają podejmowanie decyzji. Ale to tylko cel końcowy. Jak powie Ci każdy doświadczony analityk danych, spostrzeżenia, które postrzegamy jako konsumentów, są wynikiem ogromnej pracy. W rzeczywistości około 80% wszystkich zadań związanych z analizą danych obejmuje przygotowanie danych do analizy. Ma to sens, gdy się nad tym zastanowić-w końcu nasze spostrzeżenia są tak dobre, jak jakość naszych danych.

Tak, Twoje portfolio musi pokazać, że możesz przeprowadzać różne rodzaje analizy danych. Ale musi również pokazać, że możesz zbierać dane, czyścić je i raportować swoje wyniki w jasny, wizualny sposób. Wraz ze wzrostem twoich umiejętności Twoje portfolio będzie rosło w złożoności. Jako początkujący musisz jednak pokazać, że możesz:

  • skrobać sieć w poszukiwaniu danych
  • przeprowadzać analizy eksploracyjne
  • czyścić niechlujne zbiory danych
  • komunikować swoje wyniki za pomocą wizualizacji

Jeśli jesteś niedoświadczony, może pomóc zaprezentować każdy element jako własny mini-projekt. Ułatwia to życie, ponieważ można nauczyć się indywidualnych umiejętności w kontrolowany sposób. Mając to na uwadze, zadbamy o to, aby było to proste i proste dzięki kilku podstawowym pomysłom oraz kilku narzędziom, które możesz chcieć poznać, aby pomóc ci w drodze.

skrobanie danych pomysły na projekty dla Twojego portfolio

co to jest skrobanie danych?

skrobanie danych to pierwszy krok w każdym projekcie analizy danych. Polega na wyciąganiu danych (zwykle z sieci) i kompilowaniu ich do użytecznego formatu. Chociaż nie brakuje świetnych repozytoriów danych dostępnych online, samodzielne skrobanie i czyszczenie danych to świetny sposób na pokazanie swoich umiejętności.

proces skrobania stron internetowych może być zautomatyzowany za pomocą narzędzi takich jak Parsehub, ScraperAPI lub Octoparse (dla programistów) lub za pomocą bibliotek takich jak Beautiful Soup lub Scrapy (dla programistów). Niezależnie od tego, jakiego narzędzia używasz, ważne jest, aby pokazać, że rozumiesz, jak to działa i możesz je skutecznie stosować.

przed zeskrobaniem strony upewnij się, że masz na to pozwolenie. Jeśli nie jesteś pewien, zawsze możesz wyszukać zbiór danych w witrynie repozytorium, takiej jak Kaggle. Jeśli tam istnieje, można iść prosto do źródła i sam go zeskrobać. Pamiętaj jednak—skrobanie danych może być trudne, jeśli wydobywasz złożone, dynamiczne strony internetowe. Zalecamy zacząć od czegoś łatwego-głównie statycznej strony. Oto kilka pomysłów na początek.

pomysły na skrobanie danych

Internet Movie Database

dobrym projektem dla początkujących jest wyodrębnienie danych z IMDb. Możesz zbierać informacje o popularnych programach telewizyjnych, recenzjach filmów i ciekawostkach, wysokościach i ciężarach różnych aktorów i tak dalej. Dane w bazie IMDb są przechowywane w spójnym formacie na wszystkich stronach, co znacznie ułatwia zadanie. Jest tu również duży potencjał do dalszej analizy.

portale pracy

wielu początkujących lubi skrobanie danych z portali pracy, ponieważ często zawierają one standardowe typy danych. Możesz również znaleźć wiele samouczków online wyjaśniających, jak postępować. Aby zachować to interesujące, dlaczego nie skupić się na swojej okolicy? Zbieraj tytuły pracy, firmy, wynagrodzenia, lokalizacje, wymagane umiejętności i tak dalej. Daje to duży potencjał do późniejszej wizualizacji, takiej jak wykresy umiejętności w stosunku do wynagrodzeń.

witryny E-commerce

kolejnym popularnym jest skrobanie danych o produktach i cenach z witryn e-commerce. Na przykład wyodrębnij informacje o produkcie o głośnikach Bluetooth na Amazon lub zbieraj opinie i ceny na różnych tabletach i laptopach. Po raz kolejny jest to stosunkowo proste i skalowalne. Oznacza to, że możesz zacząć od produktu, który ma niewielką liczbę recenzji, a następnie wyeksponować, gdy będziesz wygodnie korzystać z algorytmów.

Reddit

aby uzyskać coś nieco mniej konwencjonalnego, inną opcją jest zeskrobanie witryny takiej jak Reddit. Możesz wyszukiwać określone słowa kluczowe,upvotes, dane użytkownika i inne. Reddit jest bardzo statyczną stroną internetową, dzięki czemu zadanie jest przyjemne i proste. Później możesz przeprowadzić interesujące analizy eksploracyjne, na przykład, aby sprawdzić, czy istnieją jakiekolwiek korelacje między popularnymi wpisami a konkretnymi słowami kluczowymi. Co prowadzi nas do następnej sekcji.

eksploracyjna analiza danych pomysły na projekty

co to jest eksploracyjna analiza danych?

kolejnym krokiem w zestawie umiejętności każdego analityka danych jest możliwość przeprowadzenia eksploracyjnej analizy danych (Eda). EDA analizuje strukturę danych, umożliwiając określenie ich wzorców i cech. Pomagają również w czyszczeniu danych. Możesz wyodrębnić ważne zmienne, wykryć wartości odstające i anomalie i ogólnie przetestować podstawowe założenia.

chociaż proces ten jest jednym z najbardziej czasochłonnych zadań dla analityka danych, może być również jednym z najbardziej satysfakcjonujących. Późniejsze modelowanie koncentruje się na generowaniu odpowiedzi na konkretne pytania. Tymczasem Eda pomaga wykonać jeden z najbardziej ekscytujących bitów-generując te pytania w pierwszej kolejności.

języki takie jak R i Python są często używane do wykonywania tych zadań. Mają wiele istniejących algorytmów, których możesz użyć do przeprowadzenia pracy za Ciebie. Prawdziwa umiejętność polega na prezentacji projektu i jego rezultatów. Sposób, w jaki zdecydujesz się to zrobić, zależy od ciebie, ale jedną z popularnych metod jest użycie interaktywnego narzędzia do dokumentacji, takiego jak Jupyter Notebook. Umożliwia to przechwytywanie elementów kodu wraz z tekstem objaśniającym i wizualizacjami w jednym miejscu. Oto kilka pomysłów na portfolio.

Analiza danych eksploracyjnych pomysły projektowe

Globalne wskaźniki samobójstw

ten globalny zestaw danych o wskaźnikach samobójstw obejmuje wskaźniki samobójstw w różnych krajach, z dodatkowymi danymi, w tym rokiem, płcią, wiekiem, populacją, PKB i innymi. Wykonując EDA, zadaj sobie pytanie: jakie wzory widzisz? Czy wskaźnik samobójstw rośnie lub spada w różnych krajach? Jakie zmienne (takie jak płeć lub Wiek) można znaleźć, które mogą korelować ze wskaźnikiem samobójstw?

Światowy raport o szczęściu

Po drugiej stronie skali, Światowy raport o szczęściu śledzi sześć czynników mierzących szczęście wśród obywateli na świecie: oczekiwaną długość życia, ekonomię, wsparcie społeczne, brak korupcji, wolność i hojność. Który kraj jest najszczęśliwszy? Który kontynent? Który czynnik wydaje się mieć największy (lub najmniejszy) wpływ na szczęście narodu? Ogólnie, czy szczęście wzrasta czy maleje?

oprócz dwóch powyższych pomysłów, możesz również użyć własnych zbiorów danych. W końcu, jeśli już zeskrobałeś własne dane, dlaczego ich nie użyć? Na przykład, jeśli zeskrobałeś portal pracy, które lokalizacje lub regiony oferują najlepiej płatne miejsca pracy? Które oferują najmniej opłacane? Dlaczego? Podobnie, dzięki danym e-commerce można sprawdzić, które ceny i produkty oferują najlepszy stosunek jakości do ceny.

ostatecznie, niezależnie od tego, jakiego zestawu danych używasz, powinien przyciągnąć twoją uwagę. Jeśli dane są zbyt złożone lub nie interesują Cię, prawdopodobnie zabraknie pary, zanim zajdziesz daleko. Pamiętaj, co możesz zrobić, aby wykryć interesujące trendy lub wzorce i wydobyć potrzebne informacje.

zebraliśmy listę dziesięciu wspaniałych miejsc, w których można znaleźć bezpłatne zbiory danych do następnego projektu tutaj.

pomysły na wizualizację danych

co to jest wizualizacja danych?

skrobanie, porządkowanie i analizowanie danych to jedno. Przekazywanie wyników to inna sprawa. Nasze mózgi nie lubią patrzeć na Liczby i liczby, ale kochają wizualizacje. Tutaj pojawia się możliwość tworzenia efektywnych wizualizacji danych. Dobre wizualizacje-statyczne lub interaktywne – stanowią doskonałe uzupełnienie każdego portfolio analityki danych. Pokazanie, że możesz tworzyć wizualizacje, które są zarówno skuteczne, jak i atrakcyjne wizualnie, znacznie zrobi wrażenie na potencjalnym pracodawcy.

niektóre darmowe narzędzia do wizualizacji obejmują wykresy Google, Canva Graph Maker (bezpłatny) i Tableau Public. Tymczasem, jeśli chcesz pokazać swoje umiejętności kodowania, użyj Biblioteki Pythona, takiej jak Seaborn, lub flex swoje umiejętności R Z Shiny. Nie trzeba dodawać, że dostępnych jest wiele narzędzi, które mogą Ci pomóc. Ten, który wybierzesz, zależy od tego, co chcesz osiągnąć. Oto trochę inspiracji …

pomysły na projekt wizualizacji danych

Covid-19

tematyka aktualna wygląda świetnie na każdym portfolio, a pandemia jest nic, jeśli nie aktualna! Co więcej, Strony takie jak Kaggle mają już tysiące dostępnych zestawów danych Covid-19. Jak możesz reprezentować dane? Czy możesz użyć globalnej mapy termicznej, aby pokazać, gdzie przypadki się powiększyły, a gdzie jest ich bardzo niewiele? Być może mógłbyś stworzyć dwa nakładające się Wykresy słupkowe, aby pokazać znane infekcje w porównaniu z przewidywanymi infekcjami. Oto przydatny samouczek, który pomoże Ci wizualizować dane Covid-19 za pomocą R, Shiny i Plotly.Instagram Instagram jest miejscem, w którym najczęściej Obserwowani są ludzie

niezależnie od tego, czy interesują Cię media społecznościowe, czy kultura celebrytów i marek, ten zbiór danych najczęściej obserwowanych osób na Instagramie ma ogromny potencjał wizualizacji. Możesz utworzyć interaktywny wykres słupkowy, który śledzi zmiany na najczęściej obserwowanych kontach w czasie. Możesz też zbadać, czy konta marek lub celebrytów są bardziej skuteczne w marketingu influencer. W przeciwnym razie, dlaczego nie znaleźć innego zestawu danych w mediach społecznościowych, aby utworzyć wizualizację? Na przykład ta mapa USA autorstwa analityka danych Grega Rafferty ładnie podkreśla geograficzne źródło trendujących tematów na Instagramie.

dane o podróży

kolejnym tematem, który dobrze nadaje się do wizualizacji, są dane o transporcie. Istnieją świetne samouczki krok po kroku, jak wizualizować dane podróży, Dane lotu są doskonałym przykładem. Na przykład, sprawdź wizualizacje danych lotu Spencera J Foxa za pomocą ggplot2, pakietu do wizualizacji danych dla R.

w tym poście zbadaliśmy, jakie umiejętności każdy początkujący musi wykazać w swoim portfolio analityki danych. Niezależnie od używanego zestawu danych, powinieneś być w stanie zademonstrować następujące możliwości:

  • web scraping-korzystanie z narzędzi takich jak Parsehub, Beautiful Soup lub Scrapy do wyodrębniania danych ze stron internetowych (pamiętaj: te statyczne są łatwiejsze!)
  • eksploracyjna analiza danych i czyszczenie danych—manipulowanie danymi za pomocą narzędzi takich jak R i Python, przed rysowaniem wstępnych spostrzeżeń.
  • wizualizacja danych-wykorzystując narzędzia takie jak Tableau, błyszczące lub Plotly, aby tworzyć ostre, przekonujące pulpity nawigacyjne i wizualizacje.

gdy już opanujesz podstawy, możesz zacząć stawiać na ambitne projekty analityki danych. Na przykład, dlaczego nie wprowadzić niektórych projektów uczenia maszynowego, takich jak analiza nastrojów lub analiza predykcyjna? Najważniejsze jest, aby zacząć od prostoty i pamiętać, że dobre portfolio analityki danych nie musi być krzykliwe, po prostu kompetentne.

aby dalej rozwijać swoje umiejętności, istnieje wiele kursów online zaprojektowanych, aby skierować cię na właściwą drogę. Na początek wypróbuj nasz bezpłatny, pięciodniowy krótki kurs analityki danych.

Jeśli chcesz dowiedzieć się więcej o zostaniu analitykiem danych i budowaniu swojego portfolio, zapoznaj się z poniższymi informacjami:

  • Jak zbudować portfolio analityki danych
  • najlepsze programy certyfikacji analityki danych na rynku
  • Oto najczęstsze pytania dotyczące analizy danych

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.