dotnetomaniak.pl - Użytkownik : mszymczyk

2

Podbij ↑

Wizualizacja map w Elasticsearch i Kibana - GPS komunikacji miejskiej - Wiadro Danych

Myślisz o analizie i wizualizacji danych geo? Czemu nie spróbować Elasticsearch? Tzw. ELK (Elasticsearch + Logstash + Kibana) to nie tylko baza NoSQL. Jest to cały system, który umożliwia przechowywanie, wyszukiwanie, analizę i wizualizację danych z dowolnego źródła w czasie rzeczywistym. W tym przypadku wykorzystamy otwarte dane lokalizacji komunikacji miejskiej w Warszawie. Wspomniałem o nich w tym artykule.Instalacja Elasticsearch + Kibana Tak jak opisywałem to w poprzednim wpisie, użyjemy docker + d...

Tagi: analiza, docker, ElasticSearch, ELK, GIS, kibana, Map, mapy, NoSQL, Python, wizualizacje

Źródło: wiadrodanych.pl

Dziel się z innymi:

Wizualizacja map w Elasticsearch i Kibana - GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 1992 dni, 2 godziny, 2 minuty temu mszymczyk 105 źrodło rozwiń

1

Podbij ↑

Nie masz środowiska? Docker na pomoc! - Wiadro Danych

Dlaczego Docker? Wiele osób pyta mnie, czy do nauki potrzebne jest specjalne środowisko lub klaster. Klaster na pewno jest fajną opcją. Mimo wszystko sporo możliwości daje pojedyncza maszyna z Dockerem na pokładzie. Dlaczego Docker? Od momentu gdy poznałem podstawy Docker, nie potrafię sobie przypomnieć kiedy instalowałem jakąś bazę danych na swoim komputerze. Bardzo ułatwia pracę, deweloperkę i poznawanie nowych technologii bez zaśmiecania sobie systemu. Nie będę wchodzić w szczegóły opisując co to jes...

Tagi: docker, docker compose

Źródło: wiadrodanych.pl

Dziel się z innymi:

Nie masz środowiska? Docker na pomoc! - Wiadro Danych

Architektura 2009 dni, 1 godzinę, 3 minuty temu mszymczyk 179 źrodło rozwiń

1

Podbij ↑

Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy - Wiadro Danych

Słyszałeś/aś o Apache Graphframes? Teoria grafów to nie tylko ich własności, ale i algorytmy. W tym wpisie tworzę model i wykonuję algorytm PageRank.

Tagi: algorytmy, Graf, grafy, GraphFrames, Jupyter, pagerank, Python, Spark, tweepy

Źródło: wiadrodanych.pl

Dziel się z innymi:

Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy - Wiadro Danych

Bazy danych i XML 2024 dni, 1 godzinę, 6 minut temu mszymczyk 59 źrodło rozwiń

4

Podbij ↑

MongoDB vs RavenDB – IndexOutOfRange

Reading time ~25 minutes I need a document database. Why? There are areas in my problem generating (How to calculate 17 billion similarities) pet project cookit that are just asking for a document modelling approach. Most people will say that this is a straightforward problem to solve:Slap on MongoDB, and you are ready to go. It is NOT a good idea.Get email notifications about new posts: This article started as a way to structurize the comparison process but grew a bit more ( just like my previous ...

Tagi: bazy-danych, Databases, porównanie

Źródło: indexoutofrange.com

Dziel się z innymi:

Bazy danych i XML 2031 dni, 1 godzinę, 1 minutę temu maklipsa 104 źrodło rozwiń

1

Podbij ↑

Obliczanie prędkości w Apache Spark - GPS komunikacji miejskiej - Wiadro Danych

W poprzednim poście utworzyliśmy strumień danych lokalizacji pojazdów komunikacji miejskiej na jednym z topiców w Apache Kafka. Teraz dorwiemy się do tego strumienia z poziomu Apache Spark, zapiszemy trochę danych na HDFS i zobaczymy czy da się coś z nimi zrobić. Dla przypomnienia, wpis jest częścią mini projektu związanego z danymi lokalizacji pojazdów komunikacji miejskiej w Warszawie. Plan na dzień dzisiejszy poniżej, a zastanawiamy się nad jego środkiem => Apache SparkOdczyt z Kafki Najszybszą meto...

Tagi: apache kafka, apache spark, GPS, kafka, przetwarzanie strumieniowe, Spark, spark streaming, ztm

Źródło: wiadrodanych.pl

Dziel się z innymi:

Obliczanie prędkości w Apache Spark - GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 2030 dni, 1 godzinę, 19 minut temu mszymczyk 45 źrodło rozwiń

1

Podbij ↑

Apache Airflow + Kafka - Zbieramy dane GPS komunikacji miejskiej - Wiadro Danych

Dziś przyjrzymy się narzędziu, jakim jest Apache Airflow. Spróbujemy użyć dwóch operatorów i zasilić kafkę danymi z API. Przy okazji rozpoczynam taki „mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaję różne technologie poprzez praktykę. W tym wpisie wspomniałem o źródle, którym są otwarte dane Warszawy https://api.um.warszawa.pl/. Mój plan to wysyłanie takich danych na Kafkę i przetworzenie ich strumieniowo (np. w Sparku). Takie dane potem wylądują na HDFS, ELK (sprawdzimy czy da się sensownie ...

Tagi: airflow, apache airflow, apache kafka, kafka

Źródło: wiadrodanych.pl

Dziel się z innymi:

Apache Airflow + Kafka - Zbieramy dane GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 2038 dni, 1 godzinę, 1 minutę temu mszymczyk 93 źrodło rozwiń

1

Podbij ↑

Problem małych plików w HDFS - Wiadro Danych

Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.Dane W ostanim wpisie wspomniałem kilkanaście źródeł danych. Na jednym z nich znalazłem Enron Email Dataset. Jest to zbiór maili przedsiębiorstwa energetycznego Enron. Co takiego charakteryzuje ten zbiór? Zawiera dużo małych plików.Jak dużo? Ściągnąłem, rozpakowałem i wy...

Tagi: Big Data, bigdata, hadoop, hdfs

Źródło: wiadrodanych.pl

Dziel się z innymi:

Problem małych plików w HDFS - Wiadro Danych

Bazy danych i XML 2045 dni, 1 godzinę, 8 minut temu mszymczyk 37 źrodło rozwiń

3

Podbij ↑

Skąd brać dane? 11 źródeł (w tym polskie) - Wiadro Danych

Bawiąc się różnymi bibliotekami, frameworkami itp. potrzebujemy danych. Możemy takie wygenerować, ale efekt nie będzie ten sam. Dane pochodzące z rzeczywistego źródła lepiej oddają różnorodność (jedna z V z której składa się Big Data). Są też po prostu ciekawsze, trudniejsze i mogą być związane naszymi zainteresowaniami (np. triathlon)

Tagi: dane, data, dataset, open data, open dataset, otwarte dane

Źródło: wiadrodanych.pl

Dziel się z innymi:

Skąd brać dane? 11 źródeł (w tym polskie) - Wiadro Danych

Bazy danych i XML 2052 dni, 57 minut temu mszymczyk 173 źrodło rozwiń

1

Podbij ↑

Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych - Wiadro Danych

Zapytanie szybsze 40-krotnie? Czemu nie. A to wszystko przez dwie operacje w Apache Spark

Tagi: apache spark, breachcompilation, pyspark, Spark

Źródło: wiadrodanych.pl

Dziel się z innymi:

Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych - Wiadro Danych

Bazy danych i XML 2059 dni, 1 godzinę, 5 minut temu mszymczyk 43 źrodło rozwiń

1

Podbij ↑

Półtora miliarda haseł w Spark – część 2 – formaty danych - Wiadro Danych

Gdzie jest Json? Porównanie CSV, JSON, Parquet i ORC.

Tagi: apache spark, csv, JSON, orc, parquet, pyspark, Spark

Źródło: wiadrodanych.pl

Dziel się z innymi:

Półtora miliarda haseł w Spark – część 2 – formaty danych - Wiadro Danych

Bazy danych i XML 2062 dni, 1 godzinę, 6 minut temu mszymczyk 40 źrodło rozwiń

1

Podbij ↑

Półtora miliarda haseł w Spark - część 1 - czyszczenie - Wiadro Danych

W skrócie: Apache Spark + HDInsight na Azure. Zajmiemy się prostym, ale pokaźnym zbiorem maili i haseł z różnych wycieków danych. W tym przykładzie będę używał DataFrames w Spark 2.0.

Tagi: apache spark, apache zeppelin, Azure, hdfs, hdinsight, parquet, Scala, Spark, zeppelin

Źródło: wiadrodanych.pl

Dziel się z innymi:

Półtora miliarda haseł w Spark - część 1 - czyszczenie - Wiadro Danych

Cloud 2072 dni, 2 godziny, 12 minut temu mszymczyk 62 źrodło rozwiń

1

Podbij ↑

Gdy Kasia gubi CQL-e - Apache Cassandra i NTP - Wiadro Danych

Mieliście kiedyś taką sytuację przy Apache Cassandra, że aplikacja robi UPDATE na bazie danych ale nigdzie nie ma śladu po tym UPDATE? Jak już jej trochę poużywałeś, to prawdopodobnie znasz temat. Jak dopiero z nią zaczynasz… W projekcie używamy Cassandry która, póki co, na każdym ze środowisk składa się z jednego node-a. Każdy z serwisów ma swój keyspace. Wszystko pięknie działało. Nie było problemów. Do czasu. Była potrzeba przepisania jednego z serwisów i tymczasowo dwa serwisy (a czasami jeden ser...

Tagi: Cassandra, czas, DataStax, NTP, synchronizacja

Źródło: wiadrodanych.pl

Dziel się z innymi:

Gdy Kasia gubi CQL-e - Apache Cassandra i NTP - Wiadro Danych

Bazy danych i XML 2076 dni, 3 godziny, 6 minut temu mszymczyk 72 źrodło rozwiń

2

Podbij ↑

Jak zostać Ironmanem? Analiza CSV-ek w pandas - Wiadro Danych

Mistrzostwa świata w Tri na dystansie Ironman za nami. Współzawodnictwo na Hawajach to marzenie każdego ambitnego triathlonisty. Z tej okazji wziąłem na warsztat wyniki zawodów triathlonowych na dystansie Ironman w latach 2005-2016 (436131 rekordów) znalezione na http://academictorrents.com. Do analizy wykorzystałem pythona, a wszczególności numpy, pandas oraz matplotlib. Repo z plikiem jupyter i wykresamidane CSV-ki wyglądają mniej więcej tak:Importy import numpy as np import pandas as pd import mat...

Tagi: csv, ironman, Jupyter, matplotlib, numpy, pandas, Python

Źródło: wiadrodanych.pl

Dziel się z innymi:

Jak zostać Ironmanem? Analiza CSV-ek w pandas - Wiadro Danych

Inne 2081 dni, 2 godziny, 4 minuty temu mszymczyk 95 źrodło rozwiń

1

Podbij ↑

Cebula ma warstwy. Data Lake ma warstwy - Wiadro Danych

W poprzednim wpisie wyjaśniłem na szybko co to Data Lake. Teraz dowiesz się z jakich warstw się składa i co się pod nimi kryje.Transient Loading Zone Jest to pierwsza warstwa do której trafiają dane do naszego Data Lake-a. Mogą to być np.: pliki, logi, dane z baz, hurtowni, wyniki procesów ETL, stream-y i wyniki zapytań jakiegoś API. Warstwa ta odpowiada za kontrole jakości. Nikt nie chce śmieci w swojej bazie. Wadliwe dane lepiej odrzucić, jednostki sprowadzić do metrycznych (lub odwrotnie) i tak dal...

Tagi: bid data, data lake

Źródło: wiadrodanych.pl

Dziel się z innymi:

Cebula ma warstwy. Data Lake ma warstwy - Wiadro Danych

Architektura 2089 dni, 2 godziny, 6 minut temu mszymczyk 111 źrodło rozwiń

1

Podbij ↑

Czy słonie pływają? Kilka słów o Data Lake - Wiadro Danych

W poprzednim wpisie (Big Data to 3 słowa) wspomniałem z jakimi wyzwaniami mierzy się Big Data. Dotyczy to również architektury. Wykorzystywana wcześniej EDW (Enterprise Data Warehouse) nie pasuje do nowych standardów. Opracowano nową architekturę o bardzo obrazowej nazwie Data Lake (dosłownie Jezioro Danych). Wyobraź sobie te wszystkie górskie potoki (nazwa strumień danych nie wygląda na przypadkową), które spływają do jeziorka z którego wszyscy korzystają… ale najpierw przyjrzyjmy się co było nie tak w ...

Tagi: architecture, architektura, Big Data, data lake

Źródło: wiadrodanych.pl

Dziel się z innymi:

Czy słonie pływają? Kilka słów o Data Lake - Wiadro Danych

Architektura 2094 dni, 2 godziny, 43 minuty temu mszymczyk 69 źrodło rozwiń

1

Podbij ↑

Big Data to 3 słowa - Wiadro Danych

Co to jest w ogóle Big Data? Słyszymy o systemach Big Data, technologiach Big Data, rozwiązaniach Big Data… a nawet o systemach klasy Big Data. Jest to trochę takie słowo wytrych, buzzword które nabrało popularności i się „sprzedaje”. Poniżej opisałem to co kryje się pod tym terminem według mnie. Termin Big Data najczęściej kojarzony jest z technologią Hadoop, czyli podejściem do rozproszonego przetwarzania danych wykorzystującego technikę MapReduce. Czy Hadoop to Big Data? Nie, nie tylko. Jak widać np....

Tagi: Big Data, hadoop

Źródło: wiadrodanych.pl

Dziel się z innymi:

Inne 2097 dni, 2 godziny, 5 minut temu mszymczyk 68 źrodło rozwiń

1

Podbij ↑

Visualizing GraphFrames in Apache Zeppelin - mSzymczyk Blog

Ciężko czyta się grafy w postaci tekstowej. Znacznie lepsze jest do tego pismo pierwotne jakim są obrazki. Jeśli miałeś kiedyś problem z wizualizacją grafu w bibliotece GraphFrames na Apache Zeppelin to zapraszam do zerknięcia w kod.

Tagi: Big Data, Graf, graph, GraphFrames, Spark, Wizualizacja

Źródło: www.mszymczyk.com

Dziel się z innymi:

Visualizing GraphFrames in Apache Zeppelin - mSzymczyk Blog

Bazy danych i XML 2234 dni, 2 godziny, 30 minut temu mszymczyk 33 źrodło rozwiń

1

Podbij ↑

[EN] Converting conceptual/logical to physical data model - mSzymczyk Blog

Konkretne przypadki które warto znać w temacie konwersji konceptualnego modelu danych (ERD) do modelu fizycznego. Wersja polska i angielska.

Tagi: bazy danych, data, data model, DATABASE, ERD, model danych, model fizyczny, model konceptualny, power designer, rdb, rdbms

Źródło: www.mszymczyk.com

Dziel się z innymi:

[EN] Converting conceptual/logical to physical data model - mSzymczyk Blog

Bazy danych i XML 2431 dni, 46 minut temu mszymczyk 47 źrodło rozwiń

1

Podbij ↑

Technology that every developer should use

O tym jak bardzo Doker potrafi ułatwić pracę programiście. Jeśli Docker jest dla Ciebie zagadką, warto się zapoznać.

Tagi: container, CONTAINERS, docker, kontener, kontenery, konteneryzacja, mss

Źródło: www.mszymczyk.com

Dziel się z innymi:

Technology that every developer should use

Narzędzia 2591 dni, 2 godziny, 44 minuty temu mszymczyk 86 źrodło rozwiń

1

Podbij ↑

Happy Developer - mSzymczyk Blog

What makes you a happy developer?

Tagi: developer, feedback, happy, lifestyle, motivation, satisfaction

Źródło: www.mszymczyk.com

Dziel się z innymi:

Inne 2611 dni, 2 godziny, 4 minuty temu mszymczyk 52 źrodło rozwiń

mszymczyk | użytkownik

Wizualizacja map w Elasticsearch i Kibana - GPS komunikacji miejskiej - Wiadro Danych

Nie masz środowiska? Docker na pomoc! - Wiadro Danych

Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy - Wiadro Danych

MongoDB vs RavenDB – IndexOutOfRange

Obliczanie prędkości w Apache Spark - GPS komunikacji miejskiej - Wiadro Danych

Apache Airflow + Kafka - Zbieramy dane GPS komunikacji miejskiej - Wiadro Danych

Problem małych plików w HDFS - Wiadro Danych

Skąd brać dane? 11 źródeł (w tym polskie) - Wiadro Danych

Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych - Wiadro Danych

Półtora miliarda haseł w Spark – część 2 – formaty danych - Wiadro Danych

Półtora miliarda haseł w Spark - część 1 - czyszczenie - Wiadro Danych

Gdy Kasia gubi CQL-e - Apache Cassandra i NTP - Wiadro Danych

Jak zostać Ironmanem? Analiza CSV-ek w pandas - Wiadro Danych

Cebula ma warstwy. Data Lake ma warstwy - Wiadro Danych

Czy słonie pływają? Kilka słów o Data Lake - Wiadro Danych

Big Data to 3 słowa - Wiadro Danych

Visualizing GraphFrames in Apache Zeppelin - mSzymczyk Blog

[EN] Converting conceptual/logical to physical data model - mSzymczyk Blog

Technology that every developer should use

Happy Developer - mSzymczyk Blog

Polecamy

Nadchodzące wydarzenia

Tagi

Logowanie

lub...

lub...

Załóż konto

Zapomniałeś hasła

Edycja reklamy

Edycja wydarzenia