Strona głównaUżytkownik

mszymczyk | użytkownik

mszymczyk
mszymczyk
369,02
18 godzin, 29 minut temu
19 kwietnia, 2018
dotnetomaniak.pl

Elasticsearch można lubić lub nie. Fakty są takie, że robi robotę. Razem z Kibana, Logstash i Beats pozwalają w prosty sposób zbierać logi, metryki i przeprowadzać analizy w czasie rzeczywistym. Gdy potrzebujemy więcej, możemy chwycić za inne narzędzia. W tym wpisie przyjrzymy się jak połączyć Apache Spark i Elasticsearch. Psst! Repo z kodem na dole wpisu!😎Czemu Spark? Ostatnio zwrócił moją uwagę HELK, czyli rozwiązanie do analizy cyber oparte na Elastic Stack. Patrząc na jego architekturę, widzimy wy...

Spark i Elasticsearch? To tak można? elasticsearch-spark - Wiadro Danych

Bazy danych i XML wtorek, 28 stycznia 2020 08:10:12 GMT mszymczyk 1 spam? źrodło rozwiń

Niedawno postawiłem świeży stos ELK (Elastic Search, Logstash, Kibana). Wszystko fajnie śmigało przez trochę ponad 2 tygodnie aż przestało.

Tagi: logs, logstash
Źródło: szogun1987.pl
Dziel się z innymi:
Gdy Logstash przestaje działać po dwóch tygodniach. – Strona Szoguna

Narzędzia 8 dni, 19 godzin, 18 minut temu szogun1987 92 źrodło rozwiń

Prędzej czy później programista dowiaduje się o istotności logowania w swojej aplikacji. Najlepiej podejść do tematu w sposób „leniwy” tj. minimum wysiłku, maksimum efektów 😉. Elasticsearch i Kibana bardzo w tym pomagają. 16.01.2020 przedstawiłem swoje doświadczenia z tym związane na meetup-ie Warszawskiej Grupy .NET . Slajdy i kod znajdziesz tutaj: https://wiadrodanych.pl/wg-net-serilog-elk/Autor MaciejOpublikowano Kategorie Elasticsearch, Logowanie, Programowanie, Wystąpienia, Zbieranie logówTagi a...

Keep Calm And Serilog Elasticsearch Kibana on .NET Core - 132. Spotkanie WG.NET - Wiadro Danych

Sztuka programowania 7 dni, 18 godzin, 51 minut temu mszymczyk 65 źrodło rozwiń

Myślisz o analizie i wizualizacji danych geo? Czemu nie spróbować Elasticsearch? Tzw. ELK (Elasticsearch + Logstash + Kibana) to nie tylko baza NoSQL. Jest to cały system, który umożliwia przechowywanie, wyszukiwanie, analizę i wizualizację danych z dowolnego źródła w czasie rzeczywistym. W tym przypadku wykorzystamy otwarte dane lokalizacji komunikacji miejskiej w Warszawie. Wspomniałem o nich w tym artykule.Instalacja Elasticsearch + Kibana Tak jak opisywałem to w poprzednim wpisie, użyjemy docker + d...

Wizualizacja map w Elasticsearch i Kibana - GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 15 dni, 19 godzin, 52 minuty temu mszymczyk 93 źrodło rozwiń

Dlaczego Docker? Wiele osób pyta mnie, czy do nauki potrzebne jest specjalne środowisko lub klaster. Klaster na pewno jest fajną opcją. Mimo wszystko sporo możliwości daje pojedyncza maszyna z Dockerem na pokładzie. Dlaczego Docker? Od momentu gdy poznałem podstawy Docker, nie potrafię sobie przypomnieć kiedy instalowałem jakąś bazę danych na swoim komputerze. Bardzo ułatwia pracę, deweloperkę i poznawanie nowych technologii bez zaśmiecania sobie systemu. Nie będę wchodzić w szczegóły opisując co to jes...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Nie masz środowiska? Docker na pomoc! - Wiadro Danych

Architektura 32 dni, 18 godzin, 54 minuty temu mszymczyk 164 źrodło rozwiń

Słyszałeś/aś o Apache Graphframes? Teoria grafów to nie tylko ich własności, ale i algorytmy. W tym wpisie tworzę model i wykonuję algorytm PageRank.

Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy - Wiadro Danych

Bazy danych i XML 47 dni, 18 godzin, 56 minut temu mszymczyk 58 źrodło rozwiń

Reading time ~25 minutes I need a document database. Why? There are areas in my problem generating (How to calculate 17 billion similarities) pet project cookit that are just asking for a document modelling approach. Most people will say that this is a straightforward problem to solve:Slap on MongoDB, and you are ready to go. It is NOT a good idea.Get email notifications about new posts: This article started as a way to structurize the comparison process but grew a bit more ( just like my previous ...

Dziel się z innymi:
MongoDB vs RavenDB – IndexOutOfRange

Bazy danych i XML 54 dni, 18 godzin, 52 minuty temu maklipsa 99 źrodło rozwiń

W poprzednim poście utworzyliśmy strumień danych lokalizacji pojazdów komunikacji miejskiej na jednym z topiców w Apache Kafka. Teraz dorwiemy się do tego strumienia z poziomu Apache Spark, zapiszemy trochę danych na HDFS i zobaczymy czy da się coś z nimi zrobić. Dla przypomnienia, wpis jest częścią mini projektu związanego z danymi lokalizacji pojazdów komunikacji miejskiej w Warszawie. Plan na dzień dzisiejszy poniżej, a zastanawiamy się nad jego środkiem => Apache SparkOdczyt z Kafki Najszybszą meto...

Obliczanie prędkości w Apache Spark - GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 53 dni, 19 godzin, 9 minut temu mszymczyk 44 źrodło rozwiń

Dziś przyjrzymy się narzędziu, jakim jest Apache Airflow. Spróbujemy użyć dwóch operatorów i zasilić kafkę danymi z API. Przy okazji rozpoczynam taki „mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaję różne technologie poprzez praktykę. W tym wpisie wspomniałem o źródle, którym są otwarte dane Warszawy https://api.um.warszawa.pl/. Mój plan to wysyłanie takich danych na Kafkę i przetworzenie ich strumieniowo (np. w Sparku). Takie dane potem wylądują na HDFS, ELK (sprawdzimy czy da się sensownie ...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Apache Airflow + Kafka - Zbieramy dane GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 61 dni, 18 godzin, 51 minut temu mszymczyk 87 źrodło rozwiń

Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.Dane W ostanim wpisie wspomniałem kilkanaście źródeł danych. Na jednym z nich znalazłem Enron Email Dataset. Jest to zbiór maili przedsiębiorstwa energetycznego Enron. Co takiego charakteryzuje ten zbiór? Zawiera dużo małych plików.Jak dużo? Ściągnąłem, rozpakowałem i wy...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Problem małych plików w HDFS - Wiadro Danych

Bazy danych i XML 68 dni, 18 godzin, 58 minut temu mszymczyk 36 źrodło rozwiń

Bawiąc się różnymi bibliotekami, frameworkami itp. potrzebujemy danych. Możemy takie wygenerować, ale efekt nie będzie ten sam. Dane pochodzące z rzeczywistego źródła lepiej oddają różnorodność (jedna z V z której składa się Big Data). Są też po prostu ciekawsze, trudniejsze i mogą być związane naszymi zainteresowaniami (np. triathlon)

Źródło: wiadrodanych.pl
Dziel się z innymi:
Skąd brać dane? 11 źródeł (w tym polskie) - Wiadro Danych

Bazy danych i XML 75 dni, 18 godzin, 47 minut temu mszymczyk 168 źrodło rozwiń

Zapytanie szybsze 40-krotnie? Czemu nie. A to wszystko przez dwie operacje w Apache Spark

Źródło: wiadrodanych.pl
Dziel się z innymi:
Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych - Wiadro Danych

Bazy danych i XML 82 dni, 18 godzin, 56 minut temu mszymczyk 41 źrodło rozwiń

Gdzie jest Json? Porównanie CSV, JSON, Parquet i ORC.

Źródło: wiadrodanych.pl
Dziel się z innymi:
Półtora miliarda haseł w Spark – część 2 – formaty danych - Wiadro Danych

Bazy danych i XML 85 dni, 18 godzin, 56 minut temu mszymczyk 38 źrodło rozwiń

W skrócie: Apache Spark + HDInsight na Azure. Zajmiemy się prostym, ale pokaźnym zbiorem maili i haseł z różnych wycieków danych. W tym przykładzie będę używał DataFrames w Spark 2.0.

Półtora miliarda haseł w Spark - część 1 - czyszczenie - Wiadro Danych

Cloud 95 dni, 20 godzin, 3 minuty temu mszymczyk 62 źrodło rozwiń

Mieliście kiedyś taką sytuację przy Apache Cassandra, że aplikacja robi UPDATE na bazie danych ale nigdzie nie ma śladu po tym UPDATE? Jak już jej trochę poużywałeś, to prawdopodobnie znasz temat. Jak dopiero z nią zaczynasz… W projekcie używamy Cassandry która, póki co, na każdym ze środowisk składa się z jednego node-a. Każdy z serwisów ma swój keyspace. Wszystko pięknie działało. Nie było problemów. Do czasu. Była potrzeba przepisania jednego z serwisów i tymczasowo dwa serwisy (a czasami jeden ser...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Gdy Kasia gubi CQL-e - Apache Cassandra i NTP - Wiadro Danych

Bazy danych i XML 99 dni, 20 godzin, 57 minut temu mszymczyk 70 źrodło rozwiń

Mistrzostwa świata w Tri na dystansie Ironman za nami. Współzawodnictwo na Hawajach to marzenie każdego ambitnego triathlonisty. Z tej okazji wziąłem na warsztat wyniki zawodów triathlonowych na dystansie Ironman w latach 2005-2016 (436131 rekordów) znalezione na http://academictorrents.com. Do analizy wykorzystałem pythona, a wszczególności numpy, pandas oraz matplotlib. Repo z plikiem jupyter i wykresamidane CSV-ki wyglądają mniej więcej tak:Importy import numpy as np import pandas as pd import mat...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Jak zostać Ironmanem? Analiza CSV-ek w pandas - Wiadro Danych

Inne 104 dni, 19 godzin, 54 minuty temu mszymczyk 95 źrodło rozwiń

W poprzednim wpisie wyjaśniłem na szybko co to Data Lake. Teraz dowiesz się z jakich warstw się składa i co się pod nimi kryje.Transient Loading Zone Jest to pierwsza warstwa do której trafiają dane do naszego Data Lake-a. Mogą to być np.: pliki, logi, dane z baz, hurtowni, wyniki procesów ETL, stream-y i wyniki zapytań jakiegoś API. Warstwa ta odpowiada za kontrole jakości. Nikt nie chce śmieci w swojej bazie. Wadliwe dane lepiej odrzucić, jednostki sprowadzić do metrycznych (lub odwrotnie) i tak dal...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Cebula ma warstwy. Data Lake ma warstwy - Wiadro Danych

Architektura 112 dni, 19 godzin, 56 minut temu mszymczyk 108 źrodło rozwiń

W poprzednim wpisie (Big Data to 3 słowa) wspomniałem z jakimi wyzwaniami mierzy się Big Data. Dotyczy to również architektury. Wykorzystywana wcześniej EDW (Enterprise Data Warehouse) nie pasuje do nowych standardów. Opracowano nową architekturę o bardzo obrazowej nazwie Data Lake (dosłownie Jezioro Danych). Wyobraź sobie te wszystkie górskie potoki (nazwa strumień danych nie wygląda na przypadkową), które spływają do jeziorka z którego wszyscy korzystają… ale najpierw przyjrzyjmy się co było nie tak w ...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Czy słonie pływają? Kilka słów o Data Lake - Wiadro Danych

Architektura 117 dni, 20 godzin, 33 minuty temu mszymczyk 67 źrodło rozwiń

Co to jest w ogóle Big Data? Słyszymy o systemach Big Data, technologiach Big Data, rozwiązaniach Big Data… a nawet o systemach klasy Big Data. Jest to trochę takie słowo wytrych, buzzword które nabrało popularności i się „sprzedaje”. Poniżej opisałem to co kryje się pod tym terminem według mnie. Termin Big Data najczęściej kojarzony jest z technologią Hadoop, czyli podejściem do rozproszonego przetwarzania danych wykorzystującego technikę MapReduce. Czy Hadoop to Big Data? Nie, nie tylko. Jak widać np....

Tagi: Big Data, hadoop
Źródło: wiadrodanych.pl
Dziel się z innymi:
Big Data to 3 słowa - Wiadro Danych

Inne 120 dni, 19 godzin, 55 minut temu mszymczyk 68 źrodło rozwiń

Ciężko czyta się grafy w postaci tekstowej. Znacznie lepsze jest do tego pismo pierwotne jakim są obrazki. Jeśli miałeś kiedyś problem z wizualizacją grafu w bibliotece GraphFrames na Apache Zeppelin to zapraszam do zerknięcia w kod.

Źródło: www.mszymczyk.com
Dziel się z innymi:
Visualizing GraphFrames in Apache Zeppelin - mSzymczyk Blog

Bazy danych i XML 257 dni, 20 godzin, 20 minut temu mszymczyk 32 źrodło rozwiń

1 2
Sklep z gadzetami

Najaktywniejsi

1
(32 895,6)
2
(32 816,53)
3
(27 178,29)
4
(21 178,88)
5
(20 336,33)
6
(13 018,14)
7
(10 512,28)
8
(9 775,28)
9
(8 388,28)
10
(6 822,96)
11
(6 214,22)
12
(5 393,84)
13
(4 127,41)
14
(4 026,73)
15
(3 893,07)
16
(3 599,57)
17
(3 448,35)
18
(3 318,39)
19
(3 224,66)
20
(3 105,41)