dotnetomaniak.pl - Użytkownik : mszymczyk

1

Podbij ↑

Apache Airflow + Kafka - Zbieramy dane GPS komunikacji miejskiej - Wiadro Danych

Dziś przyjrzymy się narzędziu, jakim jest Apache Airflow. Spróbujemy użyć dwóch operatorów i zasilić kafkę danymi z API. Przy okazji rozpoczynam taki „mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaję różne technologie poprzez praktykę. W tym wpisie wspomniałem o źródle, którym są otwarte dane Warszawy https://api.um.warszawa.pl/. Mój plan to wysyłanie takich danych na Kafkę i przetworzenie ich strumieniowo (np. w Sparku). Takie dane potem wylądują na HDFS, ELK (sprawdzimy czy da się sensownie ...

Tagi: airflow, apache airflow, apache kafka, kafka

Źródło: wiadrodanych.pl

Dziel się z innymi:

Apache Airflow + Kafka - Zbieramy dane GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 2038 dni, 7 godzin, 7 minut temu mszymczyk 93 źrodło rozwiń

1

Podbij ↑

Problem małych plików w HDFS - Wiadro Danych

Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.Dane W ostanim wpisie wspomniałem kilkanaście źródeł danych. Na jednym z nich znalazłem Enron Email Dataset. Jest to zbiór maili przedsiębiorstwa energetycznego Enron. Co takiego charakteryzuje ten zbiór? Zawiera dużo małych plików.Jak dużo? Ściągnąłem, rozpakowałem i wy...

Tagi: Big Data, bigdata, hadoop, hdfs

Źródło: wiadrodanych.pl

Dziel się z innymi:

Problem małych plików w HDFS - Wiadro Danych

Bazy danych i XML 2045 dni, 7 godzin, 14 minut temu mszymczyk 37 źrodło rozwiń

3

Podbij ↑

Skąd brać dane? 11 źródeł (w tym polskie) - Wiadro Danych

Bawiąc się różnymi bibliotekami, frameworkami itp. potrzebujemy danych. Możemy takie wygenerować, ale efekt nie będzie ten sam. Dane pochodzące z rzeczywistego źródła lepiej oddają różnorodność (jedna z V z której składa się Big Data). Są też po prostu ciekawsze, trudniejsze i mogą być związane naszymi zainteresowaniami (np. triathlon)

Tagi: dane, data, dataset, open data, open dataset, otwarte dane

Źródło: wiadrodanych.pl

Dziel się z innymi:

Skąd brać dane? 11 źródeł (w tym polskie) - Wiadro Danych

Bazy danych i XML 2052 dni, 7 godzin, 3 minuty temu mszymczyk 173 źrodło rozwiń

1

Podbij ↑

Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych - Wiadro Danych

Zapytanie szybsze 40-krotnie? Czemu nie. A to wszystko przez dwie operacje w Apache Spark

Tagi: apache spark, breachcompilation, pyspark, Spark

Źródło: wiadrodanych.pl

Dziel się z innymi:

Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych - Wiadro Danych

Bazy danych i XML 2059 dni, 7 godzin, 12 minut temu mszymczyk 43 źrodło rozwiń

1

Podbij ↑

Półtora miliarda haseł w Spark – część 2 – formaty danych - Wiadro Danych

Gdzie jest Json? Porównanie CSV, JSON, Parquet i ORC.

Tagi: apache spark, csv, JSON, orc, parquet, pyspark, Spark

Źródło: wiadrodanych.pl

Dziel się z innymi:

Półtora miliarda haseł w Spark – część 2 – formaty danych - Wiadro Danych

Bazy danych i XML 2062 dni, 7 godzin, 12 minut temu mszymczyk 40 źrodło rozwiń

1

Podbij ↑

Półtora miliarda haseł w Spark - część 1 - czyszczenie - Wiadro Danych

W skrócie: Apache Spark + HDInsight na Azure. Zajmiemy się prostym, ale pokaźnym zbiorem maili i haseł z różnych wycieków danych. W tym przykładzie będę używał DataFrames w Spark 2.0.

Tagi: apache spark, apache zeppelin, Azure, hdfs, hdinsight, parquet, Scala, Spark, zeppelin

Źródło: wiadrodanych.pl

Dziel się z innymi:

Półtora miliarda haseł w Spark - część 1 - czyszczenie - Wiadro Danych

Cloud 2072 dni, 8 godzin, 19 minut temu mszymczyk 62 źrodło rozwiń

1

Podbij ↑

Gdy Kasia gubi CQL-e - Apache Cassandra i NTP - Wiadro Danych

Mieliście kiedyś taką sytuację przy Apache Cassandra, że aplikacja robi UPDATE na bazie danych ale nigdzie nie ma śladu po tym UPDATE? Jak już jej trochę poużywałeś, to prawdopodobnie znasz temat. Jak dopiero z nią zaczynasz… W projekcie używamy Cassandry która, póki co, na każdym ze środowisk składa się z jednego node-a. Każdy z serwisów ma swój keyspace. Wszystko pięknie działało. Nie było problemów. Do czasu. Była potrzeba przepisania jednego z serwisów i tymczasowo dwa serwisy (a czasami jeden ser...

Tagi: Cassandra, czas, DataStax, NTP, synchronizacja

Źródło: wiadrodanych.pl

Dziel się z innymi:

Gdy Kasia gubi CQL-e - Apache Cassandra i NTP - Wiadro Danych

Bazy danych i XML 2076 dni, 9 godzin, 13 minut temu mszymczyk 72 źrodło rozwiń

2

Podbij ↑

Jak zostać Ironmanem? Analiza CSV-ek w pandas - Wiadro Danych

Mistrzostwa świata w Tri na dystansie Ironman za nami. Współzawodnictwo na Hawajach to marzenie każdego ambitnego triathlonisty. Z tej okazji wziąłem na warsztat wyniki zawodów triathlonowych na dystansie Ironman w latach 2005-2016 (436131 rekordów) znalezione na http://academictorrents.com. Do analizy wykorzystałem pythona, a wszczególności numpy, pandas oraz matplotlib. Repo z plikiem jupyter i wykresamidane CSV-ki wyglądają mniej więcej tak:Importy import numpy as np import pandas as pd import mat...

Tagi: csv, ironman, Jupyter, matplotlib, numpy, pandas, Python

Źródło: wiadrodanych.pl

Dziel się z innymi:

Jak zostać Ironmanem? Analiza CSV-ek w pandas - Wiadro Danych

Inne 2081 dni, 8 godzin, 10 minut temu mszymczyk 95 źrodło rozwiń

1

Podbij ↑

Cebula ma warstwy. Data Lake ma warstwy - Wiadro Danych

W poprzednim wpisie wyjaśniłem na szybko co to Data Lake. Teraz dowiesz się z jakich warstw się składa i co się pod nimi kryje.Transient Loading Zone Jest to pierwsza warstwa do której trafiają dane do naszego Data Lake-a. Mogą to być np.: pliki, logi, dane z baz, hurtowni, wyniki procesów ETL, stream-y i wyniki zapytań jakiegoś API. Warstwa ta odpowiada za kontrole jakości. Nikt nie chce śmieci w swojej bazie. Wadliwe dane lepiej odrzucić, jednostki sprowadzić do metrycznych (lub odwrotnie) i tak dal...

Tagi: bid data, data lake

Źródło: wiadrodanych.pl

Dziel się z innymi:

Cebula ma warstwy. Data Lake ma warstwy - Wiadro Danych

Architektura 2089 dni, 8 godzin, 12 minut temu mszymczyk 111 źrodło rozwiń

1

Podbij ↑

Czy słonie pływają? Kilka słów o Data Lake - Wiadro Danych

W poprzednim wpisie (Big Data to 3 słowa) wspomniałem z jakimi wyzwaniami mierzy się Big Data. Dotyczy to również architektury. Wykorzystywana wcześniej EDW (Enterprise Data Warehouse) nie pasuje do nowych standardów. Opracowano nową architekturę o bardzo obrazowej nazwie Data Lake (dosłownie Jezioro Danych). Wyobraź sobie te wszystkie górskie potoki (nazwa strumień danych nie wygląda na przypadkową), które spływają do jeziorka z którego wszyscy korzystają… ale najpierw przyjrzyjmy się co było nie tak w ...

Tagi: architecture, architektura, Big Data, data lake

Źródło: wiadrodanych.pl

Dziel się z innymi:

Czy słonie pływają? Kilka słów o Data Lake - Wiadro Danych

Architektura 2094 dni, 8 godzin, 49 minut temu mszymczyk 69 źrodło rozwiń

1

Podbij ↑

Big Data to 3 słowa - Wiadro Danych

Co to jest w ogóle Big Data? Słyszymy o systemach Big Data, technologiach Big Data, rozwiązaniach Big Data… a nawet o systemach klasy Big Data. Jest to trochę takie słowo wytrych, buzzword które nabrało popularności i się „sprzedaje”. Poniżej opisałem to co kryje się pod tym terminem według mnie. Termin Big Data najczęściej kojarzony jest z technologią Hadoop, czyli podejściem do rozproszonego przetwarzania danych wykorzystującego technikę MapReduce. Czy Hadoop to Big Data? Nie, nie tylko. Jak widać np....

Tagi: Big Data, hadoop

Źródło: wiadrodanych.pl

Dziel się z innymi:

Inne 2097 dni, 8 godzin, 11 minut temu mszymczyk 68 źrodło rozwiń

1

Podbij ↑

Visualizing GraphFrames in Apache Zeppelin - mSzymczyk Blog

Ciężko czyta się grafy w postaci tekstowej. Znacznie lepsze jest do tego pismo pierwotne jakim są obrazki. Jeśli miałeś kiedyś problem z wizualizacją grafu w bibliotece GraphFrames na Apache Zeppelin to zapraszam do zerknięcia w kod.

Tagi: Big Data, Graf, graph, GraphFrames, Spark, Wizualizacja

Źródło: www.mszymczyk.com

Dziel się z innymi:

Visualizing GraphFrames in Apache Zeppelin - mSzymczyk Blog

Bazy danych i XML 2234 dni, 8 godzin, 36 minut temu mszymczyk 33 źrodło rozwiń

1

Podbij ↑

[EN] Converting conceptual/logical to physical data model - mSzymczyk Blog

Konkretne przypadki które warto znać w temacie konwersji konceptualnego modelu danych (ERD) do modelu fizycznego. Wersja polska i angielska.

Tagi: bazy danych, data, data model, DATABASE, ERD, model danych, model fizyczny, model konceptualny, power designer, rdb, rdbms

Źródło: www.mszymczyk.com

Dziel się z innymi:

[EN] Converting conceptual/logical to physical data model - mSzymczyk Blog

Bazy danych i XML 2431 dni, 6 godzin, 53 minuty temu mszymczyk 47 źrodło rozwiń

1

Podbij ↑

Technology that every developer should use

O tym jak bardzo Doker potrafi ułatwić pracę programiście. Jeśli Docker jest dla Ciebie zagadką, warto się zapoznać.

Tagi: container, CONTAINERS, docker, kontener, kontenery, konteneryzacja, mss

Źródło: www.mszymczyk.com

Dziel się z innymi:

Technology that every developer should use

Narzędzia 2591 dni, 8 godzin, 50 minut temu mszymczyk 86 źrodło rozwiń

1

Podbij ↑

Happy Developer - mSzymczyk Blog

What makes you a happy developer?

Tagi: developer, feedback, happy, lifestyle, motivation, satisfaction

Źródło: www.mszymczyk.com

Dziel się z innymi:

Inne 2611 dni, 8 godzin, 10 minut temu mszymczyk 52 źrodło rozwiń

1

Podbij ↑

A few thoughts about normalization and N+1 problem - mSzymczyk Blog

I have impression that there is not enough talk about denormalization at universities. One gets the impression that normalization is a standard and should be used anytime, anywhere.

Tagi: dane, denormalizacja, denormalization, model, model danych, n+1 problem, normalizacja, normalization, postać normalna

Źródło: www.mszymczyk.com

Dziel się z innymi:

A few thoughts about normalization and N+1 problem - mSzymczyk Blog

Bazy danych i XML 2611 dni, 8 godzin, 10 minut temu mszymczyk 58 źrodło rozwiń

1

Podbij ↑

Learning or rather procrastination?

Nie wydaje Ci się czasem że za dużo czasu "tracisz" na coś co wydaje się rozwijające?

Tagi: książki, nauka, pocket, podcast, podcasty, prokrastynacja, youtube

Źródło: www.mszymczyk.com

Dziel się z innymi:

Inne 2618 dni, 6 godzin, 40 minut temu mszymczyk 82 źrodło rozwiń

mszymczyk | użytkownik

Apache Airflow + Kafka - Zbieramy dane GPS komunikacji miejskiej - Wiadro Danych

Problem małych plików w HDFS - Wiadro Danych

Skąd brać dane? 11 źródeł (w tym polskie) - Wiadro Danych

Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych - Wiadro Danych

Półtora miliarda haseł w Spark – część 2 – formaty danych - Wiadro Danych

Półtora miliarda haseł w Spark - część 1 - czyszczenie - Wiadro Danych

Gdy Kasia gubi CQL-e - Apache Cassandra i NTP - Wiadro Danych

Jak zostać Ironmanem? Analiza CSV-ek w pandas - Wiadro Danych

Cebula ma warstwy. Data Lake ma warstwy - Wiadro Danych

Czy słonie pływają? Kilka słów o Data Lake - Wiadro Danych

Big Data to 3 słowa - Wiadro Danych

Visualizing GraphFrames in Apache Zeppelin - mSzymczyk Blog

[EN] Converting conceptual/logical to physical data model - mSzymczyk Blog

Technology that every developer should use

Happy Developer - mSzymczyk Blog

A few thoughts about normalization and N+1 problem - mSzymczyk Blog

Learning or rather procrastination?

Polecamy

Nadchodzące wydarzenia

Tagi

Logowanie

lub...

lub...

Załóż konto

Zapomniałeś hasła

Edycja reklamy

Edycja wydarzenia