dotnetomaniak.pl - Użytkownik : mszymczyk

1

Podbij ↑

Po co rozpraszać storage? Krótko o HDFS.

Dlaczego nie wystarczy nam macierz i jak działa HDFS.

Tagi: distributed database, distributed systems, hadoop distributed file system, hdfs

Źródło: youtu.be

Dziel się z innymi:

Po co rozpraszać storage? Krótko o HDFS.

Programowanie rozproszone 2200 dni, 18 godzin, 2 minuty temu mszymczyk 103 źrodło rozwiń

1

Podbij ↑

Koalas, czyli PySpark w przebraniu Numpy - Wiadro Danych

Jednym z podstawowych narzędzi Data Scientist jest Numpy. Niestety nadmiar danych może znacznie utrudnić nam zabawę. Dlatego powstało Koalas. Biblioteka umożliwiająca korzystanie z Apache Spark w taki sposób, jakbyśmy robili to za pomocą Numpy.Spis treścihide1Cel2Środowisko3Pip i Spark Session4Przygotowanie Spark DataFrame5Przygotowanie Koalas DataFrame6Top 10 najczęściej ocenianych filmówPySparkKoalas/PandasSpark SQL7Top 10 filmów wg średnich ocen (ale tylko takich, które mają >100 ocen)PySparkKoalas/Pa...

Tagi: koalas, pandas, pyspark, Python, Spark

Źródło: wiadrodanych.pl

Dziel się z innymi:

Koalas, czyli PySpark w przebraniu Numpy - Wiadro Danych

Inne 2206 dni, 15 godzin, 42 minuty temu mszymczyk 28 źrodło rozwiń

2

Podbij ↑

Dlaczego Elasticsearch kłamie? Jak działa Elasticsearch? - Wiadro Danych

Elasticsearch zaskakuje nas swoimi możliwościami i szybkością działania, ale czy zwracane wyniki są prawidłowe? W tym wpisie dowiesz się jak Elasticsearch działa pod maską i dlaczego zwracane agregacje są pewnego rodzaju przybliżeniem.Spis treścihide1Elasticsearch pod maskąIndeksy, shardy i replikiZapytania i agregacjeSzacowanie2TestDataFrame w Apache SparkTop 20 LinesTop 10 vehicleNumber3WnioskiPodziel się:Dodaj do ulubionych:PodobneElasticsearch pod maskąIndeksy, shardy i repliki Zacznijmy od tego, ja...

Tagi: apache spark, elastic stack, ElasticSearch, Spark

Źródło: wiadrodanych.pl

Dziel się z innymi:

Dlaczego Elasticsearch kłamie? Jak działa Elasticsearch? - Wiadro Danych

Bazy danych i XML 2213 dni, 17 godzin, 31 minut temu mszymczyk 79 źrodło rozwiń

2

Podbij ↑

Analiza Danych Transportu Miejskiego Warszawy w Kibana i Elasticsearch - Wiadro Danych

W poprzednim wpisie udokumentowałem utworzenie przepływu danych wykorzystującego technologie takie jak Kafka, Kafka Streams, Logstash i Elasticsearch. Po kilku dniach pracy mam już wystarczającą ilość danych, aby przekonać się jakie możliwości analizy danych transportu miejskiego umożliwia Elasticsearch i Kibana.Spis treścihide1DaneLiczność zbioru2MapaHeatmapGrid rectangles3Wykresy, wykresikiDodanie pola z godzinąWykresiki – ogólnieWykresiki – dla linii 122 i 190Najszybszy w mieście wóz, najszybszy w mie...

Tagi: analizy, ElasticSearch, elasticstack, kibana, mapy, ztm

Źródło: wiadrodanych.pl

Dziel się z innymi:

Analiza Danych Transportu Miejskiego Warszawy w Kibana i Elasticsearch - Wiadro Danych

Inne 2226 dni, 18 godzin, 40 minut temu mszymczyk 69 źrodło rozwiń

3

Podbij ↑

Wizualizacja autobusów w Elasticsearch i Kibana - podejście strumieniowe - Kafka Streams, Logstash - Wiadro Danych

Jest to drugie podejście Wizualizacja autobusów w Elasticsearch i Kibana. Tym razem wykorzystam napisany wcześniej program w Kafka Streams do obliczenia prędkości i orientacji autobusów, a następnie wrzucę Logstash-em z Apache Kafka do Elasticsearch.Spis treścihide1Środowisko2Data Flow3Wrzucanie rekordów do Apache Kafka4Logstash5Elasticsearch6Kibana7Mapa8Działanie9RepozytoriumPodziel się:Dodaj do ulubionych:PodobneŚrodowisko Docker-compose już trochę puchnie. Znajduje się w nim Elasticsearch, Kibana, Zo...

Tagi: docker, ElasticSearch, kafka, kafka streams, kibana, logstash, mapy, stream processing, ztm

Źródło: wiadrodanych.pl

Dziel się z innymi:

Wizualizacja autobusów w Elasticsearch i Kibana - podejście strumieniowe - Kafka Streams, Logstash - Wiadro Danych

Bazy danych i XML 2241 dni, 18 godzin, 40 minut temu mszymczyk 66 źrodło rozwiń

1

Podbij ↑

Big Data - Jak zacząć? - Wiadro Danych

No właśnie. Jak zacząć w świecie Big Data? Przecież tyle tych technologii. Widać to choćby na tym schemacie. http://mattturck.com/wp-content/uploads/2019/07/2019MattTurckBigDataLandscapeFinal_Fullsize.png.Newsletter Amerykańscy naukowcy i radzieccy uczeni są zgodni w jednym: nie ma lepszego sposobu na początek przygody z Big Data, jak subskrypcja Wiadro Danych 😎 Przechodząc dalej, akceptujesz politykę prywatnościJęzyk Oczywiście najważniejszym językiem w IT jest… język angielski. Ale skończmy h...

Tagi: Big Data, docker, hdfs, hdinsight, Java, Python, Scala, Spark

Źródło: wiadrodanych.pl

Dziel się z innymi:

Inne 2254 dni, 17 godzin, 51 minut temu mszymczyk 48 źrodło rozwiń

1

Podbij ↑

Kafka Streams 202 - Dockeryzacja aplikacji, czyli Kafka w kontenerze - Wiadro Danych

Obrazy Dockera są łatwe w obsłudze. Nie musimy instalować konkretnej wersji środowiska, bibliotek i innych zależności. Wszystko powinno być zamknięte w abstrakcji zwanej kontenerem. Możemy je uruchamiać i skalować w Docker Swarm lub Kubernetes. W tym wpisie zajmiemy się dockeryzacją aplikacji Kafka Streams na przykładzie strumienia dla lokalizacji autobusów ZTM przedstawionym w poprzednim wpisie.Spis treścihide1Zmiany w pom.xml2Zmiany w kodzie aplikacji Kafka Streams3Dockerfile4Zbudowanie obrazu Docker5D...

Tagi: apache kafka, docker, dockerfile, kafka, kafka streams

Źródło: wiadrodanych.pl

Dziel się z innymi:

Kafka Streams 202 - Dockeryzacja aplikacji, czyli Kafka w kontenerze - Wiadro Danych

Programowanie rozproszone 2255 dni, 17 godzin, 44 minuty temu mszymczyk 34 źrodło rozwiń

1

Podbij ↑

Kafka Streams 201 – Obliczanie prędkości, Processor API, KeyValueStore - Wiadro Danych

Czasami klasyczne Kafka DSL nam nie wystarcza. Processor API pozwala na dowolne zdefiniowanie procesora, a co najlepsze, wykorzystanie State Store. W tym przypadku obliczymy prędkość, kierunek i dystans pojazdów komunikacji miejskiej w Warszwie.Spis treścihide1Rozkład jazdy2Źródło3Plan4Dlaczego Processor API?5No to lecimyOdczyt danych z KafkiTestyTopologiaProcesorTesty6Czy z prawdziwą Kafką też działa?7Repozytorium8PodsumowaniePodobneRozkład jazdyKafka Streams 101 – de/serilizacjaKafka Streams 102 – Wyją...

Tagi: apache kafka, kafka, kafka streams

Źródło: wiadrodanych.pl

Dziel się z innymi:

Kafka Streams 201 – Obliczanie prędkości, Processor API, KeyValueStore - Wiadro Danych

Programowanie rozproszone 2268 dni, 18 godzin, 19 minut temu mszymczyk 29 źrodło rozwiń

1

Podbij ↑

Kafka Streams 103 - Pisz testy, zapomnij o Kafce - Wiadro Danych

Nie wyobrażam sobie programowania bez pisania testów. Gdy śpieszy mi się i o nich „zapominam”, potem i tak poprawiam kod przez jakąś głupotę. Poprawiają jakość i przyśpieszają czas tworzenia oprogramowania. Nie wierzysz?Spis treścihide1Rozkład jazdy2Co zyskamy?3Zależności4Testowalny kod Kafka Streams5Test 1 – LowercaseStreamTopologyTestDriverTest właściwy6Test 2 – SerDeJsonStream7Repozytorium8WnioskiPodobneRozkład jazdyKafka Streams 101 – de/serilizacjaKafka Streams 102 – Wyjątki i Dead Letter QueueKafka...

Tagi: apache kafka, kafka, kafka streams, stream, stream processing, Test, Tests, testy

Źródło: wiadrodanych.pl

Dziel się z innymi:

Kafka Streams 103 - Pisz testy, zapomnij o Kafce - Wiadro Danych

Sztuka programowania 2283 dni, 17 godzin, 40 minut temu mszymczyk 45 źrodło rozwiń

1

Podbij ↑

Kafka Streams 102 - Wyjątki i Dead Letter Queue - Wiadro Danych

Błędy zdarzają się każdemu. Prędzej czy później nasza aplikacja Kafka Streams dostanie wiadomość, która ją zabije (Poison Pill). Niestety uruchomienie jej ponownie nie pomoże, dopóki wiadomość nie zniknie z kolejki. W tym wpisie spróbujemy obsłużyć takie wiadomości i zapisać je do Dead Letter Queue.Spis treścihide1Rozkład jazdy2Poison Pill3Rozwiązania4Problemy5Dead Letter Queue6Filtrowanie wadliwych rekordówPodczas deserializacjiPodczas transformacji7Wykorzystanie Dead Letter QueuePodczas deserializacjiP...

Tagi: apache kafka, kafka, kafka streams

Źródło: wiadrodanych.pl

Dziel się z innymi:

Kafka Streams 102 - Wyjątki i Dead Letter Queue - Wiadro Danych

Programowanie rozproszone 2297 dni, 17 godzin, 50 minut temu mszymczyk 29 źrodło rozwiń

3

Podbij ↑

Kafka Streams 101 - Wiadro Danych

Przetwarzanie strumieniowe jest dzisiaj standardem. Skoro i tak większość osób korzysta z Apache Kafka jako kolejki, czemu nie spróbować Kafka Streams? Jest to rozwiązanie skalowalne i nie wymaga specjalnych środowisk typu YARN czy Apache Mesos. Ten wpis rozpoczyna serię wpisów dotyczących Kafka Streams.Spis treścihide1Cel2Podstawy3Środowisko4Pierwszy strumień – LowerCaseStream5De/Serializacja z łapyPoison Pill6De/Serializacja nie z łapyPoison Pill7Co dalej?8RepozytoriumPodobneCel We wpisach z tego cykl...

Tagi: apache kafka, kafka, kafka streams, przetwarzanie strumieniowe

Źródło: wiadrodanych.pl

Dziel się z innymi:

Programowanie rozproszone 2311 dni, 17 godzin, 22 minuty temu mszymczyk 49 źrodło rozwiń

1

Podbij ↑

(Darmowe) Alerty w Elasticsearch - Wiadro Danych

Elasticsearch najczęściej wykorzystywany jest do agregowania logów i monitorowania elementów systemu. Umożliwia również alertowanie, ale jest to funkcjonalność dostępna od wersji Gold, czyli trzeba za nią zapłacić 😥. Są jednak darmowe rozwiązania. W tym przypadku przyjrzymy się rozwiązaniu Praeco (z łac. obwoływacz, herold) opartym o ElastAlert.Spis treścihide1Praeco2Środowisko3KonfiguracjaPraeco & ElastAlertLogstashReguła w Praeco4Akcja5Reakcja6PodsumowaniePodobnePraeco ElastAlert jest to rozwiązan...

Tagi: elastic, ElasticSearch, stack

Źródło: wiadrodanych.pl

Dziel się z innymi:

(Darmowe) Alerty w Elasticsearch - Wiadro Danych

Bazy danych i XML 2318 dni, 16 godzin, 51 minut temu mszymczyk 43 źrodło rozwiń

2

Podbij ↑

Nie czytaj plików. Elasticsearch zrobi to za Ciebie. - Wiadro Danych

Pewnie się zdziwi Cie ta informacja. Elasticsearch służy do… szukania. Tak. To prawda. Okazuje się, że można go wykorzystać również do indeksowania zawartości plików typu doc, docx, pdf itp. W tym wpisie przyjrzymy się jak to zrobić, jak zmienić analizator oraz jak „zgubić” plik jeśli i tak trzymamy go np. na S3.Spis treścihide1Po co?2Środowisko3Przygotowanie Pipeline4Dodanie pliku5Wyszukiwanie6Ale ja nie potrzebuję analizować całego pliku7Wystarczy mi treść. Pliki trzymam na S38To co z tym OCR-em?9A co ...

Tagi: ElasticSearch, Full Text Search, indeksowanie plików, pliki, search engine, szukanie, wyszukiwanie

Źródło: wiadrodanych.pl

Dziel się z innymi:

Nie czytaj plików. Elasticsearch zrobi to za Ciebie. - Wiadro Danych

Bazy danych i XML 2332 dni, 17 godzin, 21 minut temu mszymczyk 133 źrodło rozwiń

1

Podbij ↑

Delta Lake w Pigułce (czyli o podróżach w czasie) - Wiadro Danych

Delta Lake zdobywa ostatnio coraz większa popularność. Słychać o nim na konferencjach na całym świecie. W tym artykule przyjrzymy się jakie problemy rozwiązuje.Spis treścihide1Co to Delta Lake?2Jupyter + Delta Lake3Przygotowanie danych4Bez Delta Lake5Z Delta LakeHistoria i podróże w czasieZarządzanie schematemVacuumDelta Lake APIDeleteUpdateMergeStreaming Sink6Co jest pod maską?7RepoCo to Delta Lake? Delta Lake to nakładka na Apache Spark. Pełni rolę warstwy persystencji i gwarantuje ACID na HDFS, S3, A...

Tagi: apache spark, Big Data, data lake, Delta, Delta Lake, hdfs, pyspark, Spark

Źródło: wiadrodanych.pl

Dziel się z innymi:

Delta Lake w Pigułce (czyli o podróżach w czasie) - Wiadro Danych

Bazy danych i XML 2346 dni, 16 godzin, 57 minut temu mszymczyk 52 źrodło rozwiń

1

Podbij ↑

Spark i Elasticsearch? To tak można? elasticsearch-spark - Wiadro Danych

Elasticsearch można lubić lub nie. Fakty są takie, że robi robotę. Razem z Kibana, Logstash i Beats pozwalają w prosty sposób zbierać logi, metryki i przeprowadzać analizy w czasie rzeczywistym. Gdy potrzebujemy więcej, możemy chwycić za inne narzędzia. W tym wpisie przyjrzymy się jak połączyć Apache Spark i Elasticsearch. Psst! Repo z kodem na dole wpisu!😎Czemu Spark? Ostatnio zwrócił moją uwagę HELK, czyli rozwiązanie do analizy cyber oparte na Elastic Stack. Patrząc na jego architekturę, widzimy wy...

Tagi: apache spark, elastic stack, ElasticSearch, elasticsearch-spark, ELK, Spark

Źródło: wiadrodanych.pl

Dziel się z innymi:

Spark i Elasticsearch? To tak można? elasticsearch-spark - Wiadro Danych

Bazy danych i XML 2359 dni, 16 godzin, 53 minuty temu mszymczyk 53 źrodło rozwiń

2

Podbij ↑

Keep Calm And Serilog Elasticsearch Kibana on .NET Core - 132. Spotkanie WG.NET - Wiadro Danych

Prędzej czy później programista dowiaduje się o istotności logowania w swojej aplikacji. Najlepiej podejść do tematu w sposób „leniwy” tj. minimum wysiłku, maksimum efektów 😉. Elasticsearch i Kibana bardzo w tym pomagają. 16.01.2020 przedstawiłem swoje doświadczenia z tym związane na meetup-ie Warszawskiej Grupy .NET . Slajdy i kod znajdziesz tutaj: https://wiadrodanych.pl/wg-net-serilog-elk/Autor MaciejOpublikowano Kategorie Elasticsearch, Logowanie, Programowanie, Wystąpienia, Zbieranie logówTagi a...

Tagi: .net core, asp net core, ElasticSearch, kibana, logging, logowanie, logs, net core, serilog

Źródło: wiadrodanych.pl

Dziel się z innymi:

Keep Calm And Serilog Elasticsearch Kibana on .NET Core - 132. Spotkanie WG.NET - Wiadro Danych

Sztuka programowania 2367 dni, 16 godzin, 47 minut temu mszymczyk 78 źrodło rozwiń

2

Podbij ↑

Wizualizacja map w Elasticsearch i Kibana - GPS komunikacji miejskiej - Wiadro Danych

Myślisz o analizie i wizualizacji danych geo? Czemu nie spróbować Elasticsearch? Tzw. ELK (Elasticsearch + Logstash + Kibana) to nie tylko baza NoSQL. Jest to cały system, który umożliwia przechowywanie, wyszukiwanie, analizę i wizualizację danych z dowolnego źródła w czasie rzeczywistym. W tym przypadku wykorzystamy otwarte dane lokalizacji komunikacji miejskiej w Warszawie. Wspomniałem o nich w tym artykule.Instalacja Elasticsearch + Kibana Tak jak opisywałem to w poprzednim wpisie, użyjemy docker + d...

Tagi: analiza, docker, ElasticSearch, ELK, GIS, kibana, Map, mapy, NoSQL, Python, wizualizacje

Źródło: wiadrodanych.pl

Dziel się z innymi:

Wizualizacja map w Elasticsearch i Kibana - GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 2375 dni, 17 godzin, 49 minut temu mszymczyk 105 źrodło rozwiń

1

Podbij ↑

Nie masz środowiska? Docker na pomoc! - Wiadro Danych

Dlaczego Docker? Wiele osób pyta mnie, czy do nauki potrzebne jest specjalne środowisko lub klaster. Klaster na pewno jest fajną opcją. Mimo wszystko sporo możliwości daje pojedyncza maszyna z Dockerem na pokładzie. Dlaczego Docker? Od momentu gdy poznałem podstawy Docker, nie potrafię sobie przypomnieć kiedy instalowałem jakąś bazę danych na swoim komputerze. Bardzo ułatwia pracę, deweloperkę i poznawanie nowych technologii bez zaśmiecania sobie systemu. Nie będę wchodzić w szczegóły opisując co to jes...

Tagi: docker, docker compose

Źródło: wiadrodanych.pl

Dziel się z innymi:

Nie masz środowiska? Docker na pomoc! - Wiadro Danych

Architektura 2392 dni, 16 godzin, 50 minut temu mszymczyk 179 źrodło rozwiń

1

Podbij ↑

Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy - Wiadro Danych

Słyszałeś/aś o Apache Graphframes? Teoria grafów to nie tylko ich własności, ale i algorytmy. W tym wpisie tworzę model i wykonuję algorytm PageRank.

Tagi: algorytmy, Graf, grafy, GraphFrames, Jupyter, pagerank, Python, Spark, tweepy

Źródło: wiadrodanych.pl

Dziel się z innymi:

Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy - Wiadro Danych

Bazy danych i XML 2407 dni, 16 godzin, 52 minuty temu mszymczyk 59 źrodło rozwiń

1

Podbij ↑

Obliczanie prędkości w Apache Spark - GPS komunikacji miejskiej - Wiadro Danych

W poprzednim poście utworzyliśmy strumień danych lokalizacji pojazdów komunikacji miejskiej na jednym z topiców w Apache Kafka. Teraz dorwiemy się do tego strumienia z poziomu Apache Spark, zapiszemy trochę danych na HDFS i zobaczymy czy da się coś z nimi zrobić. Dla przypomnienia, wpis jest częścią mini projektu związanego z danymi lokalizacji pojazdów komunikacji miejskiej w Warszawie. Plan na dzień dzisiejszy poniżej, a zastanawiamy się nad jego środkiem => Apache SparkOdczyt z Kafki Najszybszą meto...

Tagi: apache kafka, apache spark, GPS, kafka, przetwarzanie strumieniowe, Spark, spark streaming, ztm

Źródło: wiadrodanych.pl

Dziel się z innymi:

Obliczanie prędkości w Apache Spark - GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 2413 dni, 17 godzin, 6 minut temu mszymczyk 45 źrodło rozwiń

mszymczyk | użytkownik

Po co rozpraszać storage? Krótko o HDFS.

Koalas, czyli PySpark w przebraniu Numpy - Wiadro Danych

Dlaczego Elasticsearch kłamie? Jak działa Elasticsearch? - Wiadro Danych

Analiza Danych Transportu Miejskiego Warszawy w Kibana i Elasticsearch - Wiadro Danych

Wizualizacja autobusów w Elasticsearch i Kibana - podejście strumieniowe - Kafka Streams, Logstash - Wiadro Danych

Big Data - Jak zacząć? - Wiadro Danych

Kafka Streams 202 - Dockeryzacja aplikacji, czyli Kafka w kontenerze - Wiadro Danych

Kafka Streams 201 – Obliczanie prędkości, Processor API, KeyValueStore - Wiadro Danych

Kafka Streams 103 - Pisz testy, zapomnij o Kafce - Wiadro Danych

Kafka Streams 102 - Wyjątki i Dead Letter Queue - Wiadro Danych

Kafka Streams 101 - Wiadro Danych

(Darmowe) Alerty w Elasticsearch - Wiadro Danych

Nie czytaj plików. Elasticsearch zrobi to za Ciebie. - Wiadro Danych

Delta Lake w Pigułce (czyli o podróżach w czasie) - Wiadro Danych

Spark i Elasticsearch? To tak można? elasticsearch-spark - Wiadro Danych

Keep Calm And Serilog Elasticsearch Kibana on .NET Core - 132. Spotkanie WG.NET - Wiadro Danych

Wizualizacja map w Elasticsearch i Kibana - GPS komunikacji miejskiej - Wiadro Danych

Nie masz środowiska? Docker na pomoc! - Wiadro Danych

Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy - Wiadro Danych

Obliczanie prędkości w Apache Spark - GPS komunikacji miejskiej - Wiadro Danych

Polecamy

Nadchodzące wydarzenia

Tagi

Logowanie

lub...

lub...

Załóż konto

Zapomniałeś hasła

Edycja reklamy

Edycja wydarzenia