Strona głównaUżytkownik

mszymczyk | użytkownik

mszymczyk
mszymczyk
890,06
1012 dni, 10 godzin, 5 minut temu
19 kwietnia, 2018
dotnetomaniak.pl

Myślisz o analizie i wizualizacji danych geo? Czemu nie spróbować Elasticsearch? Tzw. ELK (Elasticsearch + Logstash + Kibana) to nie tylko baza NoSQL. Jest to cały system, który umożliwia przechowywanie, wyszukiwanie, analizę i wizualizację danych z dowolnego źródła w czasie rzeczywistym. W tym przypadku wykorzystamy otwarte dane lokalizacji komunikacji miejskiej w Warszawie. Wspomniałem o nich w tym artykule.Instalacja Elasticsearch + Kibana Tak jak opisywałem to w poprzednim wpisie, użyjemy docker + d...

Wizualizacja map w Elasticsearch i Kibana - GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 1776 dni, 1 godzinę, 8 minut temu mszymczyk 105 źrodło rozwiń

Dlaczego Docker? Wiele osób pyta mnie, czy do nauki potrzebne jest specjalne środowisko lub klaster. Klaster na pewno jest fajną opcją. Mimo wszystko sporo możliwości daje pojedyncza maszyna z Dockerem na pokładzie. Dlaczego Docker? Od momentu gdy poznałem podstawy Docker, nie potrafię sobie przypomnieć kiedy instalowałem jakąś bazę danych na swoim komputerze. Bardzo ułatwia pracę, deweloperkę i poznawanie nowych technologii bez zaśmiecania sobie systemu. Nie będę wchodzić w szczegóły opisując co to jes...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Nie masz środowiska? Docker na pomoc! - Wiadro Danych

Architektura 1793 dni, 9 minut temu mszymczyk 179 źrodło rozwiń

Słyszałeś/aś o Apache Graphframes? Teoria grafów to nie tylko ich własności, ale i algorytmy. W tym wpisie tworzę model i wykonuję algorytm PageRank.

Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy - Wiadro Danych

Reading time ~25 minutes I need a document database. Why? There are areas in my problem generating (How to calculate 17 billion similarities) pet project cookit that are just asking for a document modelling approach. Most people will say that this is a straightforward problem to solve:Slap on MongoDB, and you are ready to go. It is NOT a good idea.Get email notifications about new posts: This article started as a way to structurize the comparison process but grew a bit more ( just like my previous ...

Dziel się z innymi:
MongoDB vs RavenDB – IndexOutOfRange

Bazy danych i XML 1815 dni, 7 minut temu maklipsa 104 źrodło rozwiń

W poprzednim poście utworzyliśmy strumień danych lokalizacji pojazdów komunikacji miejskiej na jednym z topiców w Apache Kafka. Teraz dorwiemy się do tego strumienia z poziomu Apache Spark, zapiszemy trochę danych na HDFS i zobaczymy czy da się coś z nimi zrobić. Dla przypomnienia, wpis jest częścią mini projektu związanego z danymi lokalizacji pojazdów komunikacji miejskiej w Warszawie. Plan na dzień dzisiejszy poniżej, a zastanawiamy się nad jego środkiem => Apache SparkOdczyt z Kafki Najszybszą meto...

Obliczanie prędkości w Apache Spark - GPS komunikacji miejskiej - Wiadro Danych

Dziś przyjrzymy się narzędziu, jakim jest Apache Airflow. Spróbujemy użyć dwóch operatorów i zasilić kafkę danymi z API. Przy okazji rozpoczynam taki „mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaję różne technologie poprzez praktykę. W tym wpisie wspomniałem o źródle, którym są otwarte dane Warszawy https://api.um.warszawa.pl/. Mój plan to wysyłanie takich danych na Kafkę i przetworzenie ich strumieniowo (np. w Sparku). Takie dane potem wylądują na HDFS, ELK (sprawdzimy czy da się sensownie ...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Apache Airflow + Kafka - Zbieramy dane GPS komunikacji miejskiej - Wiadro Danych

Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.Dane W ostanim wpisie wspomniałem kilkanaście źródeł danych. Na jednym z nich znalazłem Enron Email Dataset. Jest to zbiór maili przedsiębiorstwa energetycznego Enron. Co takiego charakteryzuje ten zbiór? Zawiera dużo małych plików.Jak dużo? Ściągnąłem, rozpakowałem i wy...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Problem małych plików w HDFS - Wiadro Danych

Bawiąc się różnymi bibliotekami, frameworkami itp. potrzebujemy danych. Możemy takie wygenerować, ale efekt nie będzie ten sam. Dane pochodzące z rzeczywistego źródła lepiej oddają różnorodność (jedna z V z której składa się Big Data). Są też po prostu ciekawsze, trudniejsze i mogą być związane naszymi zainteresowaniami (np. triathlon)

Źródło: wiadrodanych.pl
Dziel się z innymi:
Skąd brać dane? 11 źródeł (w tym polskie) - Wiadro Danych

Bazy danych i XML 1836 dni, 3 minuty temu mszymczyk 173 źrodło rozwiń

Zapytanie szybsze 40-krotnie? Czemu nie. A to wszystko przez dwie operacje w Apache Spark

Źródło: wiadrodanych.pl
Dziel się z innymi:
Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych - Wiadro Danych

Gdzie jest Json? Porównanie CSV, JSON, Parquet i ORC.

Źródło: wiadrodanych.pl
Dziel się z innymi:
Półtora miliarda haseł w Spark – część 2 – formaty danych - Wiadro Danych

W skrócie: Apache Spark + HDInsight na Azure. Zajmiemy się prostym, ale pokaźnym zbiorem maili i haseł z różnych wycieków danych. W tym przykładzie będę używał DataFrames w Spark 2.0.

Półtora miliarda haseł w Spark - część 1 - czyszczenie - Wiadro Danych

Cloud 1856 dni, 1 godzinę, 18 minut temu mszymczyk 62 źrodło rozwiń

Mieliście kiedyś taką sytuację przy Apache Cassandra, że aplikacja robi UPDATE na bazie danych ale nigdzie nie ma śladu po tym UPDATE? Jak już jej trochę poużywałeś, to prawdopodobnie znasz temat. Jak dopiero z nią zaczynasz… W projekcie używamy Cassandry która, póki co, na każdym ze środowisk składa się z jednego node-a. Każdy z serwisów ma swój keyspace. Wszystko pięknie działało. Nie było problemów. Do czasu. Była potrzeba przepisania jednego z serwisów i tymczasowo dwa serwisy (a czasami jeden ser...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Gdy Kasia gubi CQL-e - Apache Cassandra i NTP - Wiadro Danych

Bazy danych i XML 1860 dni, 2 godziny, 12 minut temu mszymczyk 72 źrodło rozwiń

Mistrzostwa świata w Tri na dystansie Ironman za nami. Współzawodnictwo na Hawajach to marzenie każdego ambitnego triathlonisty. Z tej okazji wziąłem na warsztat wyniki zawodów triathlonowych na dystansie Ironman w latach 2005-2016 (436131 rekordów) znalezione na http://academictorrents.com. Do analizy wykorzystałem pythona, a wszczególności numpy, pandas oraz matplotlib. Repo z plikiem jupyter i wykresamidane CSV-ki wyglądają mniej więcej tak:Importy import numpy as np import pandas as pd import mat...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Jak zostać Ironmanem? Analiza CSV-ek w pandas - Wiadro Danych

Inne 1865 dni, 1 godzinę, 10 minut temu mszymczyk 95 źrodło rozwiń

W poprzednim wpisie wyjaśniłem na szybko co to Data Lake. Teraz dowiesz się z jakich warstw się składa i co się pod nimi kryje.Transient Loading Zone Jest to pierwsza warstwa do której trafiają dane do naszego Data Lake-a. Mogą to być np.: pliki, logi, dane z baz, hurtowni, wyniki procesów ETL, stream-y i wyniki zapytań jakiegoś API. Warstwa ta odpowiada za kontrole jakości. Nikt nie chce śmieci w swojej bazie. Wadliwe dane lepiej odrzucić, jednostki sprowadzić do metrycznych (lub odwrotnie) i tak dal...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Cebula ma warstwy. Data Lake ma warstwy - Wiadro Danych

Architektura 1873 dni, 1 godzinę, 11 minut temu mszymczyk 111 źrodło rozwiń

W poprzednim wpisie (Big Data to 3 słowa) wspomniałem z jakimi wyzwaniami mierzy się Big Data. Dotyczy to również architektury. Wykorzystywana wcześniej EDW (Enterprise Data Warehouse) nie pasuje do nowych standardów. Opracowano nową architekturę o bardzo obrazowej nazwie Data Lake (dosłownie Jezioro Danych). Wyobraź sobie te wszystkie górskie potoki (nazwa strumień danych nie wygląda na przypadkową), które spływają do jeziorka z którego wszyscy korzystają… ale najpierw przyjrzyjmy się co było nie tak w ...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Czy słonie pływają? Kilka słów o Data Lake - Wiadro Danych

Architektura 1878 dni, 1 godzinę, 49 minut temu mszymczyk 69 źrodło rozwiń

Co to jest w ogóle Big Data? Słyszymy o systemach Big Data, technologiach Big Data, rozwiązaniach Big Data… a nawet o systemach klasy Big Data. Jest to trochę takie słowo wytrych, buzzword które nabrało popularności i się „sprzedaje”. Poniżej opisałem to co kryje się pod tym terminem według mnie. Termin Big Data najczęściej kojarzony jest z technologią Hadoop, czyli podejściem do rozproszonego przetwarzania danych wykorzystującego technikę MapReduce. Czy Hadoop to Big Data? Nie, nie tylko. Jak widać np....

Tagi: Big Data, hadoop
Źródło: wiadrodanych.pl
Dziel się z innymi:
Big Data to 3 słowa - Wiadro Danych

Inne 1881 dni, 1 godzinę, 11 minut temu mszymczyk 68 źrodło rozwiń

Ciężko czyta się grafy w postaci tekstowej. Znacznie lepsze jest do tego pismo pierwotne jakim są obrazki. Jeśli miałeś kiedyś problem z wizualizacją grafu w bibliotece GraphFrames na Apache Zeppelin to zapraszam do zerknięcia w kod.

Źródło: www.mszymczyk.com
Dziel się z innymi:
Visualizing GraphFrames in Apache Zeppelin - mSzymczyk Blog

Bazy danych i XML 2018 dni, 1 godzinę, 36 minut temu mszymczyk 33 źrodło rozwiń

Konkretne przypadki które warto znać w temacie konwersji konceptualnego modelu danych (ERD) do modelu fizycznego. Wersja polska i angielska.

[EN] Converting conceptual/logical to physical data model - mSzymczyk Blog

Bazy danych i XML 2214 dni, 23 godziny, 52 minuty temu mszymczyk 47 źrodło rozwiń

O tym jak bardzo Doker potrafi ułatwić pracę programiście. Jeśli Docker jest dla Ciebie zagadką, warto się zapoznać.

Technology that every developer should use

Narzędzia 2375 dni, 1 godzinę, 50 minut temu mszymczyk 86 źrodło rozwiń

What makes you a happy developer?

Happy Developer - mSzymczyk Blog

Inne 2395 dni, 1 godzinę, 10 minut temu mszymczyk 52 źrodło rozwiń

1 2 3 4