Strona głównaUżytkownik

mszymczyk | użytkownik

mszymczyk
mszymczyk
581,04
2 dni, 2 godziny, 41 minut temu
19 kwietnia, 2018
dotnetomaniak.pl

Dlaczego nie wystarczy nam macierz i jak działa HDFS.

Po co rozpraszać storage? Krótko o HDFS.

Programowanie rozproszone piątek, 3 lipca 2020 17:55:56 GMT mszymczyk 6 spam? źrodło rozwiń

Jednym z podstawowych narzędzi Data Scientist jest Numpy. Niestety nadmiar danych może znacznie utrudnić nam zabawę. Dlatego powstało Koalas. Biblioteka umożliwiająca korzystanie z Apache Spark w taki sposób, jakbyśmy robili to za pomocą Numpy.Spis treścihide1Cel2Środowisko3Pip i Spark Session4Przygotowanie Spark DataFrame5Przygotowanie Koalas DataFrame6Top 10 najczęściej ocenianych filmówPySparkKoalas/PandasSpark SQL7Top 10 filmów wg średnich ocen (ale tylko takich, które mają >100 ocen)PySparkKoalas/Pa...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Koalas, czyli PySpark w przebraniu Numpy - Wiadro Danych

Inne 5 dni, 11 godzin, 44 minuty temu mszymczyk 20 źrodło rozwiń

Elasticsearch zaskakuje nas swoimi możliwościami i szybkością działania, ale czy zwracane wyniki są prawidłowe? W tym wpisie dowiesz się jak Elasticsearch działa pod maską i dlaczego zwracane agregacje są pewnego rodzaju przybliżeniem.Spis treścihide1Elasticsearch pod maskąIndeksy, shardy i replikiZapytania i agregacjeSzacowanie2TestDataFrame w Apache SparkTop 20 LinesTop 10 vehicleNumber3WnioskiPodziel się:Dodaj do ulubionych:PodobneElasticsearch pod maskąIndeksy, shardy i repliki Zacznijmy od tego, ja...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Dlaczego Elasticsearch kłamie? Jak działa Elasticsearch? - Wiadro Danych

Bazy danych i XML 12 dni, 13 godzin, 33 minuty temu mszymczyk 57 źrodło rozwiń

W poprzednim wpisie udokumentowałem utworzenie przepływu danych wykorzystującego technologie takie jak Kafka, Kafka Streams, Logstash i Elasticsearch. Po kilku dniach pracy mam już wystarczającą ilość danych, aby przekonać się jakie możliwości analizy danych transportu miejskiego umożliwia Elasticsearch i Kibana.Spis treścihide1DaneLiczność zbioru2MapaHeatmapGrid rectangles3Wykresy, wykresikiDodanie pola z godzinąWykresiki – ogólnieWykresiki – dla linii 122 i 190Najszybszy w mieście wóz, najszybszy w mie...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Analiza Danych Transportu Miejskiego Warszawy w Kibana i Elasticsearch - Wiadro Danych

Inne 25 dni, 14 godzin, 42 minuty temu mszymczyk 59 źrodło rozwiń

Jest to drugie podejście Wizualizacja autobusów w Elasticsearch i Kibana. Tym razem wykorzystam napisany wcześniej program w Kafka Streams do obliczenia prędkości i orientacji autobusów, a następnie wrzucę Logstash-em z Apache Kafka do Elasticsearch.Spis treścihide1Środowisko2Data Flow3Wrzucanie rekordów do Apache Kafka4Logstash5Elasticsearch6Kibana7Mapa8Działanie9RepozytoriumPodziel się:Dodaj do ulubionych:PodobneŚrodowisko Docker-compose już trochę puchnie. Znajduje się w nim Elasticsearch, Kibana, Zo...

Wizualizacja autobusów w Elasticsearch i Kibana - podejście strumieniowe - Kafka Streams, Logstash - Wiadro Danych

Bazy danych i XML 40 dni, 14 godzin, 42 minuty temu mszymczyk 57 źrodło rozwiń

No właśnie. Jak zacząć w świecie Big Data? Przecież tyle tych technologii. Widać to choćby na tym schemacie. http://mattturck.com/wp-content/uploads/2019/07/2019MattTurckBigDataLandscapeFinal_Fullsize.png.Newsletter Amerykańscy naukowcy i radzieccy uczeni są zgodni w jednym: nie ma lepszego sposobu na początek przygody z Big Data, jak subskrypcja Wiadro Danych 😎 Przechodząc dalej, akceptujesz politykę prywatnościJęzyk Oczywiście najważniejszym językiem w IT jest… język angielski. Ale skończmy h...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Big Data - Jak zacząć? - Wiadro Danych

Inne 53 dni, 13 godzin, 52 minuty temu mszymczyk 45 źrodło rozwiń

Obrazy Dockera są łatwe w obsłudze. Nie musimy instalować konkretnej wersji środowiska, bibliotek i innych zależności. Wszystko powinno być zamknięte w abstrakcji zwanej kontenerem. Możemy je uruchamiać i skalować w Docker Swarm lub Kubernetes. W tym wpisie zajmiemy się dockeryzacją aplikacji Kafka Streams na przykładzie strumienia dla lokalizacji autobusów ZTM przedstawionym w poprzednim wpisie.Spis treścihide1Zmiany w pom.xml2Zmiany w kodzie aplikacji Kafka Streams3Dockerfile4Zbudowanie obrazu Docker5D...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Kafka Streams 202 - Dockeryzacja aplikacji, czyli Kafka w kontenerze - Wiadro Danych

Programowanie rozproszone 54 dni, 13 godzin, 45 minut temu mszymczyk 26 źrodło rozwiń

Czasami klasyczne Kafka DSL nam nie wystarcza. Processor API pozwala na dowolne zdefiniowanie procesora, a co najlepsze, wykorzystanie State Store. W tym przypadku obliczymy prędkość, kierunek i dystans pojazdów komunikacji miejskiej w Warszwie.Spis treścihide1Rozkład jazdy2Źródło3Plan4Dlaczego Processor API?5No to lecimyOdczyt danych z KafkiTestyTopologiaProcesorTesty6Czy z prawdziwą Kafką też działa?7Repozytorium8PodsumowaniePodobneRozkład jazdyKafka Streams 101 – de/serilizacjaKafka Streams 102 – Wyją...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Kafka Streams 201 – Obliczanie prędkości, Processor API, KeyValueStore - Wiadro Danych

Programowanie rozproszone 67 dni, 14 godzin, 20 minut temu mszymczyk 25 źrodło rozwiń

Nie wyobrażam sobie programowania bez pisania testów. Gdy śpieszy mi się i o nich „zapominam”, potem i tak poprawiam kod przez jakąś głupotę. Poprawiają jakość i przyśpieszają czas tworzenia oprogramowania. Nie wierzysz?Spis treścihide1Rozkład jazdy2Co zyskamy?3Zależności4Testowalny kod Kafka Streams5Test 1 – LowercaseStreamTopologyTestDriverTest właściwy6Test 2 – SerDeJsonStream7Repozytorium8WnioskiPodobneRozkład jazdyKafka Streams 101 – de/serilizacjaKafka Streams 102 – Wyjątki i Dead Letter QueueKafka...

Kafka Streams 103 - Pisz testy, zapomnij o Kafce - Wiadro Danych

Sztuka programowania 82 dni, 13 godzin, 42 minuty temu mszymczyk 41 źrodło rozwiń

Błędy zdarzają się każdemu. Prędzej czy później nasza aplikacja Kafka Streams dostanie wiadomość, która ją zabije (Poison Pill). Niestety uruchomienie jej ponownie nie pomoże, dopóki wiadomość nie zniknie z kolejki. W tym wpisie spróbujemy obsłużyć takie wiadomości i zapisać je do Dead Letter Queue.Spis treścihide1Rozkład jazdy2Poison Pill3Rozwiązania4Problemy5Dead Letter Queue6Filtrowanie wadliwych rekordówPodczas deserializacjiPodczas transformacji7Wykorzystanie Dead Letter QueuePodczas deserializacjiP...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Kafka Streams 102 - Wyjątki i Dead Letter Queue - Wiadro Danych

Programowanie rozproszone 96 dni, 13 godzin, 51 minut temu mszymczyk 29 źrodło rozwiń

Przetwarzanie strumieniowe jest dzisiaj standardem. Skoro i tak większość osób korzysta z Apache Kafka jako kolejki, czemu nie spróbować Kafka Streams? Jest to rozwiązanie skalowalne i nie wymaga specjalnych środowisk typu YARN czy Apache Mesos. Ten wpis rozpoczyna serię wpisów dotyczących Kafka Streams.Spis treścihide1Cel2Podstawy3Środowisko4Pierwszy strumień – LowerCaseStream5De/Serializacja z łapyPoison Pill6De/Serializacja nie z łapyPoison Pill7Co dalej?8RepozytoriumPodobneCel We wpisach z tego cykl...

Kafka Streams 101 - Wiadro Danych

Programowanie rozproszone 110 dni, 13 godzin, 24 minuty temu mszymczyk 48 źrodło rozwiń

Elasticsearch najczęściej wykorzystywany jest do agregowania logów i monitorowania elementów systemu. Umożliwia również alertowanie, ale jest to funkcjonalność dostępna od wersji Gold, czyli trzeba za nią zapłacić 😥. Są jednak darmowe rozwiązania. W tym przypadku przyjrzymy się rozwiązaniu Praeco (z łac. obwoływacz, herold) opartym o ElastAlert.Spis treścihide1Praeco2Środowisko3KonfiguracjaPraeco & ElastAlertLogstashReguła w Praeco4Akcja5Reakcja6PodsumowaniePodobnePraeco ElastAlert jest to rozwiązan...

Źródło: wiadrodanych.pl
Dziel się z innymi:
(Darmowe) Alerty w Elasticsearch - Wiadro Danych

Bazy danych i XML 117 dni, 12 godzin, 53 minuty temu mszymczyk 40 źrodło rozwiń

Pewnie się zdziwi Cie ta informacja. Elasticsearch służy do… szukania. Tak. To prawda. Okazuje się, że można go wykorzystać również do indeksowania zawartości plików typu doc, docx, pdf itp. W tym wpisie przyjrzymy się jak to zrobić, jak zmienić analizator oraz jak „zgubić” plik jeśli i tak trzymamy go np. na S3.Spis treścihide1Po co?2Środowisko3Przygotowanie Pipeline4Dodanie pliku5Wyszukiwanie6Ale ja nie potrzebuję analizować całego pliku7Wystarczy mi treść. Pliki trzymam na S38To co z tym OCR-em?9A co ...

Nie czytaj plików. Elasticsearch zrobi to za Ciebie. - Wiadro Danych

Bazy danych i XML 131 dni, 13 godzin, 22 minuty temu mszymczyk 128 źrodło rozwiń

Delta Lake zdobywa ostatnio coraz większa popularność. Słychać o nim na konferencjach na całym świecie. W tym artykule przyjrzymy się jakie problemy rozwiązuje.Spis treścihide1Co to Delta Lake?2Jupyter + Delta Lake3Przygotowanie danych4Bez Delta Lake5Z Delta LakeHistoria i podróże w czasieZarządzanie schematemVacuumDelta Lake APIDeleteUpdateMergeStreaming Sink6Co jest pod maską?7RepoCo to Delta Lake? Delta Lake to nakładka na Apache Spark. Pełni rolę warstwy persystencji i gwarantuje ACID na HDFS, S3, A...

Delta Lake w Pigułce (czyli o podróżach w czasie) - Wiadro Danych

Bazy danych i XML 145 dni, 12 godzin, 59 minut temu mszymczyk 49 źrodło rozwiń

Może się zdarzyć tak, że nasza aplikacja rzuci wyjątek, którego się nie spodziewaliśmy. Nie wygląda to dobrze, jeśli taki nieobsłużony wyjątek trafi do użytkownika. Dodatkowo, jeśli nie otrzymamy informacji o tym, że taki wyjątek wystąpił, trudno będzie nam go poprawić i nie dopuścić do jego powtórzenia. W związku z tym warto w naszej aplikacji dodać globalną obsługę wyjątków i ich logowanie. O tym, jak skonfigurować logowanie, pisałem tutaj i tutaj. W tym poście pokażę kilka sposobów na złapanie takich...

Źródło: www.admu.pl
Dziel się z innymi:
Globalna obsługa wyjątków w C# – ADMU Blog

Sztuka programowania 158 dni, 12 godzin, 54 minuty temu Admu 268 źrodło rozwiń

Elasticsearch można lubić lub nie. Fakty są takie, że robi robotę. Razem z Kibana, Logstash i Beats pozwalają w prosty sposób zbierać logi, metryki i przeprowadzać analizy w czasie rzeczywistym. Gdy potrzebujemy więcej, możemy chwycić za inne narzędzia. W tym wpisie przyjrzymy się jak połączyć Apache Spark i Elasticsearch. Psst! Repo z kodem na dole wpisu!😎Czemu Spark? Ostatnio zwrócił moją uwagę HELK, czyli rozwiązanie do analizy cyber oparte na Elastic Stack. Patrząc na jego architekturę, widzimy wy...

Spark i Elasticsearch? To tak można? elasticsearch-spark - Wiadro Danych

Bazy danych i XML 158 dni, 12 godzin, 54 minuty temu mszymczyk 51 źrodło rozwiń

Niedawno postawiłem świeży stos ELK (Elastic Search, Logstash, Kibana). Wszystko fajnie śmigało przez trochę ponad 2 tygodnie aż przestało.

Tagi: logs, logstash
Źródło: szogun1987.pl
Dziel się z innymi:
Gdy Logstash przestaje działać po dwóch tygodniach. – Strona Szoguna

Narzędzia 167 dni, 13 godzin, 16 minut temu szogun1987 110 źrodło rozwiń

Prędzej czy później programista dowiaduje się o istotności logowania w swojej aplikacji. Najlepiej podejść do tematu w sposób „leniwy” tj. minimum wysiłku, maksimum efektów 😉. Elasticsearch i Kibana bardzo w tym pomagają. 16.01.2020 przedstawiłem swoje doświadczenia z tym związane na meetup-ie Warszawskiej Grupy .NET . Slajdy i kod znajdziesz tutaj: https://wiadrodanych.pl/wg-net-serilog-elk/Autor MaciejOpublikowano Kategorie Elasticsearch, Logowanie, Programowanie, Wystąpienia, Zbieranie logówTagi a...

Keep Calm And Serilog Elasticsearch Kibana on .NET Core - 132. Spotkanie WG.NET - Wiadro Danych

Sztuka programowania 166 dni, 12 godzin, 49 minut temu mszymczyk 74 źrodło rozwiń

Myślisz o analizie i wizualizacji danych geo? Czemu nie spróbować Elasticsearch? Tzw. ELK (Elasticsearch + Logstash + Kibana) to nie tylko baza NoSQL. Jest to cały system, który umożliwia przechowywanie, wyszukiwanie, analizę i wizualizację danych z dowolnego źródła w czasie rzeczywistym. W tym przypadku wykorzystamy otwarte dane lokalizacji komunikacji miejskiej w Warszawie. Wspomniałem o nich w tym artykule.Instalacja Elasticsearch + Kibana Tak jak opisywałem to w poprzednim wpisie, użyjemy docker + d...

Wizualizacja map w Elasticsearch i Kibana - GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 174 dni, 13 godzin, 51 minut temu mszymczyk 101 źrodło rozwiń

Dlaczego Docker? Wiele osób pyta mnie, czy do nauki potrzebne jest specjalne środowisko lub klaster. Klaster na pewno jest fajną opcją. Mimo wszystko sporo możliwości daje pojedyncza maszyna z Dockerem na pokładzie. Dlaczego Docker? Od momentu gdy poznałem podstawy Docker, nie potrafię sobie przypomnieć kiedy instalowałem jakąś bazę danych na swoim komputerze. Bardzo ułatwia pracę, deweloperkę i poznawanie nowych technologii bez zaśmiecania sobie systemu. Nie będę wchodzić w szczegóły opisując co to jes...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Nie masz środowiska? Docker na pomoc! - Wiadro Danych

Architektura 191 dni, 12 godzin, 52 minuty temu mszymczyk 177 źrodło rozwiń

1 2

Najaktywniejsi

1
(32 895,6)
2
(32 816,53)
3
(27 178,29)
4
(21 178,88)
5
(20 336,33)
6
(13 018,14)
7
(10 512,47)
8
(9 775,28)
9
(8 388,28)
10
(6 822,96)
11
(6 214,22)
12
(5 393,84)
13
(4 127,41)
14
(4 026,73)
15
(3 908,07)
16
(3 599,64)
17
(3 448,35)
18
(3 318,39)
19
(3 224,66)
20
(3 173,43)