dotnetomaniak.pl - Artykuły z tagiem pyspark

1

Podbij ↑

Koalas, czyli PySpark w przebraniu Numpy - Wiadro Danych

Jednym z podstawowych narzędzi Data Scientist jest Numpy. Niestety nadmiar danych może znacznie utrudnić nam zabawę. Dlatego powstało Koalas. Biblioteka umożliwiająca korzystanie z Apache Spark w taki sposób, jakbyśmy robili to za pomocą Numpy.Spis treścihide1Cel2Środowisko3Pip i Spark Session4Przygotowanie Spark DataFrame5Przygotowanie Koalas DataFrame6Top 10 najczęściej ocenianych filmówPySparkKoalas/PandasSpark SQL7Top 10 filmów wg średnich ocen (ale tylko takich, które mają >100 ocen)PySparkKoalas/Pa...

Tagi: koalas, pandas, pyspark, Python, Spark

Źródło: wiadrodanych.pl

Dziel się z innymi:

Koalas, czyli PySpark w przebraniu Numpy - Wiadro Danych

Inne 2204 dni, 4 godziny, 21 minut temu mszymczyk 28 źrodło rozwiń

1

Podbij ↑

Delta Lake w Pigułce (czyli o podróżach w czasie) - Wiadro Danych

Delta Lake zdobywa ostatnio coraz większa popularność. Słychać o nim na konferencjach na całym świecie. W tym artykule przyjrzymy się jakie problemy rozwiązuje.Spis treścihide1Co to Delta Lake?2Jupyter + Delta Lake3Przygotowanie danych4Bez Delta Lake5Z Delta LakeHistoria i podróże w czasieZarządzanie schematemVacuumDelta Lake APIDeleteUpdateMergeStreaming Sink6Co jest pod maską?7RepoCo to Delta Lake? Delta Lake to nakładka na Apache Spark. Pełni rolę warstwy persystencji i gwarantuje ACID na HDFS, S3, A...

Tagi: apache spark, Big Data, data lake, Delta, Delta Lake, hdfs, pyspark, Spark

Źródło: wiadrodanych.pl

Dziel się z innymi: