The Python Package Index posiada biblioteki praktycznie dla każdej potrzeby wizualizacji danych – od Pastalog do wizualizacji w czasie rzeczywistym treningu sieci neuronowych do Gaze Parser do badań ruchu gałek ocznych. Niektóre z tych bibliotek mogą być używane bez względu na dziedzinę zastosowania, jednak wiele z nich jest intensywnie ukierunkowanych na realizację konkretnego zadania.
Przegląd 11 interdyscyplinarnych bibliotek Pythona do wizualizacji danych, od najpopularniejszych do najmniej popularnych.

Matplotlib

Biblioteka Pythona Matplotlib służy do generowania prostych, ale potężnych wizualizacji. Ma już ponad dekadę i jest najczęściej używaną biblioteką do tworzenia wykresów w społeczności Pythona. Matplotlib jest używany do tworzenia szerokiej gamy wykresów – od histogramów do wykresów cieplnych.

Matplotlob jest pierwszą biblioteką wizualizacji danych w Pythonie, dlatego wiele innych bibliotek jest zbudowanych na Matplotlib i jest zaprojektowanych do pracy w połączeniu z analizą. Biblioteki takie jak pandas i matplotlib są „wrapperami” nad Matplotlibem pozwalającymi na dostęp do wielu metod Matplotliba z mniejszą ilością kodu.

Wszechstronność Matplotlib może być wykorzystana do tworzenia wizualizacji takich jak:

  • Scatter plots
  • Bar charts and Histograms
  • Line plots
  • Pie charts
  • Stem plots
  • Contour plots
  • Quiver plots
  • Spectrograms

Możesz tworzyć siatki, etykiety, legendy itp. z łatwością, ponieważ wszystko jest łatwo konfigurowalne.

Seaborn

Seaborn jest popularną biblioteką wizualizacji danych, która jest zbudowana na szczycie Matplotlib. Domyślne style i palety kolorów Seaborna są znacznie bardziej wyrafinowane niż Matplotliba. Seaborn stawia wizualizację w centrum zrozumienia wszelkich danych. Seaborn jest biblioteką wyższego poziomu – łatwiej jest generować pewne rodzaje wykresów, w tym mapy cieplne, szeregi czasowe i wykresy skrzypiec.

gggplot

Ggplot jest biblioteką wizualizacyjną Pythona opartą na R’s ggplot2 i Grammar of Graphics. Możesz konstruować działki używając wysokopoziomowej gramatyki bez martwienia się o szczegóły implementacji. Ggplot działa inaczej niż Matplotlib: pozwala użytkownikom na warstwowanie komponentów w celu stworzenia pełnego wykresu. Na przykład, użytkownik może zacząć od osi, a następnie dodać punkty, potem linię, linię trendu, itd. The Grammar of Graphics została okrzyknięta „intuicyjną” metodą tworzenia wykresów, jednak doświadczeni użytkownicy Matplotliba mogą potrzebować czasu, aby przyzwyczaić się do tego nowego sposobu myślenia.

Bokeh

Bokeh, natywny dla Pythona, jest również oparty na The Grammar of Graphics jak ggplot. Obsługuje również streaming i dane w czasie rzeczywistym. Jego unikalną zaletą jest zdolność do tworzenia interaktywnych, gotowych do użycia w sieci wykresów, które można łatwo wypisać jako obiekty JSON, dokumenty HTML lub interaktywne aplikacje internetowe.
Bokeh posiada trzy interfejsy o różnym stopniu kontroli, aby dostosować się do różnych typów użytkowników. Najwyższy poziom służy do szybkiego tworzenia wykresów. Zawiera on metody tworzenia typowych wykresów, takich jak wykresy słupkowe, pudełkowe i histogramy. Środkowy poziom pozwala użytkownikowi kontrolować podstawowe elementy składowe każdego wykresu (na przykład, kropki w wykresie rozrzutu) i ma taką samą specyfikę jak Matplotlib. Dolny poziom jest skierowany do programistów i inżynierów oprogramowania. Nie ma wstępnie ustawionych domyślnych ustawień i wymaga od użytkownika zdefiniowania każdego elementu wykresu.

Plotly

Plotly jest powszechnie znany jako platforma online do wizualizacji danych, ale niewiele osób wie, że można do niego uzyskać dostęp z notatnika Pythona. Podobnie jak Bokeh, siła Plotly leży w tworzeniu interaktywnych wykresów i oferuje on wykresy konturowe, których nie można znaleźć w większości bibliotek.

Pygal

Pygal, podobnie jak Plotly i Bokeh, oferuje interaktywne wykresy, które można osadzić w przeglądarce internetowej. Możliwość wyświetlania wykresów jako SVG jest jego głównym wyróżnikiem. Do pracy z mniejszymi zestawami danych, SVGs będzie w sam raz. Jednak w przypadku wykresów zawierających setki tysięcy punktów danych, stają się one powolne i mają problemy z renderowaniem.
Łatwo jest stworzyć ładnie wyglądający wykres za pomocą zaledwie kilku linii kodu, ponieważ każdy typ wykresu jest opakowany w metodę, a wbudowane style są świetne.

Altair

Altair jest deklaratywną biblioteką Pythona do wizualizacji statystycznej opartą na Vega-Lite. Wystarczy wspomnieć o powiązaniach między kolumnami danych a kanałami kodowania, takimi jak oś x, oś y, kolor, itd., a reszta szczegółów wykreślania jest obsługiwana automatycznie. To sprawia, że Altair jest prosty, przyjazny i spójny. Łatwo jest zaprojektować efektywne i piękne wizualizacje przy minimalnej ilości kodu używając Altair.

Geoplotlib

Geoplotlib jest zestawem narzędzi używanym do wykreślania danych geograficznych i tworzenia map. Może być używany do tworzenia różnych typów map, takich jak choroplety, mapy ciepła i mapy gęstości punktów. Do korzystania z Geoplotlib wymagana jest instalacja Pygleta (zorientowanego obiektowo interfejsu programowania).

Geoplotlib zmniejsza złożoność projektowania wizualizacji, dostarczając zestaw wbudowanych narzędzi do najczęstszych zadań, takich jak wizualizacja gęstości, wykresy przestrzenne i pliki kształtów.

Ponieważ większość bibliotek Pythona do wizualizacji danych nie oferuje map, dobrze jest mieć bibliotekę im dedykowaną.

Gleam

Gleam jest inspirowany pakietem Shiny. Pozwala on użytkownikowi na przekształcenie dowolnej analizy w interaktywną aplikację webową przy użyciu jedynie skryptów Pythona. Użytkownicy Gleam nie muszą znać HTML, CSS ani JavaScript, aby to zrobić. Gleam współpracuje z każdą biblioteką Pythona służącą do wizualizacji danych. Po utworzeniu wykresu użytkownicy mogą zbudować na nim pola do filtrowania i sortowania danych.

Brakujące dane

Uporanie się z brakiem danych jest kłopotliwe. Kompletność zbioru danych można szybko ocenić za pomocą Missingno, zamiast żmudnie przeszukiwać tabelę. Użytkownik może filtrować i sortować dane na podstawie kompletności lub zauważać korelacje za pomocą mapy ciepła lub dendrogramu.

Leather

Leather został zaprojektowany do pracy ze wszystkimi typami danych i tworzy wykresy takie jak SVGs, dzięki czemu można je skalować bez utraty jakości obrazu. Twórca Leather, Christopher Groskopf, ujmuje to najlepiej: „Leather to biblioteka do tworzenia wykresów w Pythonie dla tych, którzy potrzebują wykresów teraz i nie dbają o to, czy są one idealne”. Ponieważ biblioteka ta jest stosunkowo nowa, część dokumentacji jest jeszcze w trakcie opracowywania. Wykresy, które można wykonać, są dość podstawowe – ale taki jest zamiar.

Istnieje szeroka gama narzędzi do wizualizacji, z ogromną różnorodnością, w zależności od ostrości zadania pod ręką dostępnego dla Pythona. Znajduje to odzwierciedlenie w samej liczbie dostępnych bibliotek. Konieczne jest, aby użytkownicy pamiętali o różnicach między podejściami i ich konsekwencjach, zanim skupią się na konkretnym podejściu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.