Strona głównaUżytkownik

mszymczyk | użytkownik

mszymczyk
mszymczyk
770,06
52 dni, 12 godzin, 13 minut temu
19 kwietnia, 2018
dotnetomaniak.pl

Myślałeś/aś kiedyś o utworzeniu strumienia z operacji w bazie danych? W tym wpisie dowiesz się czym jest Change Data Capture i jak go wykorzystać planując architekturę naszego systemu. W części praktycznej sprawdzimy działanie Debezium na bazie MySQLSpis treścihide1Co to jest Change Data Capture?Rodzaje Change Data CaptureQuery-BasedLog-Based2Jak mogę to wykorzystać?Zapis do wielu źródełIntegracja baz danychETL i Stream Processing3DebeziumŚrodowiskoKonfiguracja Debezium MySQL w Kafka ConnectDodanie danyc...

Change Data Capture - Zmień Bazę W Strumień (Debezium) - Wiadro Danych

Bazy danych i XML 51 dni, 11 godzin, 24 minuty temu mszymczyk 56 źrodło rozwiń

Czy znasz Model C4? A może nie wiesz, dlaczego warto zapoznać się z tym Terminem? W artykule przedstawiam 10 powodów. Dlaczego jest to temat gody uwagi. Przeczytaj poniższy tekst, a zainteresujesz się tematem.

Źródło: mrdev.pl
Dziel się z innymi:
10 powodów, dla których warto znać Model C4.

Architektura 56 dni, 11 godzin, 16 minut temu godev 219 źrodło rozwiń

Mówi się, że Apache Airflow to CRON na sterydach. Zdobywa uznanie wśród narzędzi do orchestracji ETL’i. Harmonogramowanie, zarządzanie i monitorowanie zadań mu nie straszne. Podstawowym sposobem definiowania zadań są acyklicze grafy skierowane (DAG). Zadania w nich muszą wymieniać się informacjami. We wpisie dowiesz się jak używać Variables i XCom w Apache Airflow.

Źródło: wiadrodanych.pl
Dziel się z innymi:
Jak Używać Variables i XCom w Apache Airflow? - Wiadro Danych

Inne 84 dni, 11 godzin, 14 minut temu mszymczyk 14 źrodło rozwiń

Dane z Twitter można pozyskać na wiele sposobów, ale komu chce się pisać kod 😉. Szczególnie taki, który będzie działał 24/7. W Elastic Stack można w prosty sposób zbierać i analizować dane z Twitter’a. Logstash ma gotowe wejście do zbierania strumienia tweet’ów. Kafka Connect omawiana w poprzednim artykule również ma taką opcję, jednak Logstash może wysyłać dane do wielu źródeł (w tym do Apache Kafka) i jest prostszy w obsłudze.Spis treścihide1Środowisko Elastic Stack2Logstash Pipeline3Dane4KibanaTag Cl...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Analiza danych z Twitter dla leni w Elastic Stack (Xbox VS PlayStation) - Wiadro Danych

Inne 136 dni, 12 godzin, 25 minut temu mszymczyk 33 źrodło rozwiń

Kafka Connect to część platformy Apache Kafka. Służy do łączenia Kafki z zewnętrznymi serwisami takimi jak systemy plików lub bazy danych. W artykule dowiesz się jaki problem rozwiązuje i jak ją uruchomić.Spis treścihide1Dlaczego Kafka Connect?2Alternatywy3Konektory4Środowisko5Tryb Standalone – Zapis do pliku6Tryb DistributedGenerowanie danych – Datagen SourceZapis danych – AWS S3 Sink7PodsumowaniePodziel się:Like this:RelatedDlaczego Kafka Connect? Apache Kafka wykorzystywana jest w architekturze mikro...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Kafka Connect w pigułce - Wiadro Danych

Inne 148 dni, 12 godzin, 45 minut temu mszymczyk 45 źrodło rozwiń

Nagrałem film, w którym mówię o zaletach baz NoSQL. Odzew był ciekawy, ale momentami miałem wrażenie, że nie wszyscy widzą dwie strony medalu. Fakty są takie, że na bazach NoSQL można się nieźle przejechać 😉.Spis treścihide1Wersja wideo2Zarządzanie schematem3Mniej wybacza4Brak ACID5Brak SQL6Ograniczona analityka i/lub brak JOINów7PodsumowaniePodziel się:Like this:RelatedWersja wideoZarządzanie schematem Każda baza NoSQL podchodzi do schematu na swój sposób. W niektórych schematu nie ma (MongoDB), w nie...

Źródło: wiadrodanych.pl
Dziel się z innymi:
5 pułapek NoSQL - Wiadro Danych

Bazy danych i XML 163 dni, 12 godzin, 32 minuty temu mszymczyk 109 źrodło rozwiń

W Apache Spark/PySpark posługujemy się abstrakcjami, a faktyczne przetwarzanie dokonywane jest dopiero gdy chcemy zmaterializować wynik operacji. Do dyspozycji mamy szereg bibliotek, którymi możemy łączyć się z różnymi bazami i systemów plików. W tym artykule dowiesz się jak połączyć dane z MySQL i MongoDB, a następnie zapisać je w Apache Cassandra.Spis treścihide1Środowisko2Dodanie danych do MongoDB3Dodanie danych do MySQL4Schemat danych w Cassandrze5ETL do Apache Cassandra w PySpark6Ciekawostka7Repozyt...

Źródło: wiadrodanych.pl
Dziel się z innymi:
PySpark ETL z MySQL i MongoDB do Cassandra - Wiadro Danych

Bazy danych i XML 177 dni, 12 godzin, 21 minut temu mszymczyk 22 źrodło rozwiń

Jest to kontynuacja poprzedniego wpisu. Tym razem przyjrzymy się zakładce Detections w Elastic SIEM. Naszym celem jest automatyzacja wykrywania IOC wykorzystując sprawdzone reguły. Przypomnijmy: Zainstalowaliśmy Elasticsearch + Kibana na jednej z maszyn. Monitorujemy maszynę z Ubuntu (Auditbeat, Filebeat, Packetbeat) i Windows 10 (Winlogbeat), choć w tym wpisie skupimy się na tej drugiej.Spis treścihide1Jak odblokować Detections w Elastic SIEM?Konfiguracja security w ElasticsearchKonfiguracja TLS między ...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Elastic SIEM w pigułce (część 2) - Wiadro Danych

Inne 183 dni, 12 godzin, 29 minut temu mszymczyk 19 źrodło rozwiń

Środowiska IT robią się coraz większe, rozproszone i ciężkie do zarządzania. Wszystkie komponenty systemu trzeba zabezpieczyć i monitorować przed cyber zagrożeniami. Potrzebna jest skalowalna platforma, która potrafi magazynować i analizować logi, metryki oraz zdarzenia. Rozwiązania SIEM potrafią kosztować niemałe pieniądze. W tym wpisie przyjrzymy się darmowemu rozwiązaniu dostępnego w Elastic Stack, czyli Elastic SIEM.

Źródło: wiadrodanych.pl
Dziel się z innymi:
Elastic SIEM w pigułce (część 1) - Wiadro Danych

Inne 205 dni, 13 godzin, 7 minut temu mszymczyk 40 źrodło rozwiń

Bazy relacyjne są sprawdzonym rozwiązaniem, ale nie pasują do wszystkich problemów. Na ratunek przychodzą bazy NoSQL.

Źródło: youtu.be
Dziel się z innymi:
Czemu Bazy NoSQL? (5 powodów) - YouTube

Bazy danych i XML 211 dni, 23 godziny, 30 minut temu mszymczyk 84 źrodło rozwiń

Working with big databases, consisting of many, many tables (like hundreds or thousands), can be really painful. Recently, this happened to me and I discovered 2 lifehacks that help me survive this hard days. Filtering tables You know the struggle when you know a part of a database table name but cannot remember the whole name? How could it be named? BasketPositions, CustomerBasketPositions or maybe PositionsOfBasket? How can you know?! Yeah, it’s the everyday struggle with huge projects! This is...

Lifehacks for working with big databases – A Girl Among Geeks

Narzędzia 213 dni, 9 godzin, 54 minuty temu AGirlAmongGeeks 86 źrodło rozwiń

Apache Cassandra to specyficzna baza danych. Skaluje się (uwaga) liniowo. Ma to swoją cenę: specyficzne modelowanie tabel, konfigurowalna spójność i ograniczona analityka. Apple wykonuje miliony operacji na sekundę na ponad 160 tys. instancjach Cassandry. Gromadzi przy tym ponad 100 PB danych. Ograniczoną analitykę można „wyleczyć” wykorzystując Apache Spark i connector od DataStax i o tym jest ten wpis.Spis treścihide1Środowisko2Dane3Utworzenie tabel w Apache Cassandra4Zasilenie Cassandry SparkiemWczyta...

Jak zacząć z Apache Spark i Cassandra - Wiadro Danych

Bazy danych i XML 219 dni, 12 godzin, 9 minut temu mszymczyk 48 źrodło rozwiń

Kolejki można wykorzystywać zarówno na poziomie kodu i struktur danych jak i planując architekturę. Występuje w większości systemów rozproszonych.

7 Powodów Dla Których Potrzebujesz Kolejki - YouTube

Architektura 227 dni, 13 godzin, 5 minut temu mszymczyk 80 źrodło rozwiń

Było o HDFS. Teraz wjeżdża temat MapReduce. Trzeba zagonić serwery do roboty 😈

Jak działa MapReduce?

Programowanie rozproszone 234 dni, 13 godzin, 48 minut temu mszymczyk 96 źrodło rozwiń

Dlaczego nie wystarczy nam macierz i jak działa HDFS.

Po co rozpraszać storage? Krótko o HDFS.

Programowanie rozproszone 241 dni, 12 godzin, 40 minut temu mszymczyk 102 źrodło rozwiń

Jednym z podstawowych narzędzi Data Scientist jest Numpy. Niestety nadmiar danych może znacznie utrudnić nam zabawę. Dlatego powstało Koalas. Biblioteka umożliwiająca korzystanie z Apache Spark w taki sposób, jakbyśmy robili to za pomocą Numpy.Spis treścihide1Cel2Środowisko3Pip i Spark Session4Przygotowanie Spark DataFrame5Przygotowanie Koalas DataFrame6Top 10 najczęściej ocenianych filmówPySparkKoalas/PandasSpark SQL7Top 10 filmów wg średnich ocen (ale tylko takich, które mają >100 ocen)PySparkKoalas/Pa...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Koalas, czyli PySpark w przebraniu Numpy - Wiadro Danych

Inne 247 dni, 10 godzin, 20 minut temu mszymczyk 23 źrodło rozwiń

Elasticsearch zaskakuje nas swoimi możliwościami i szybkością działania, ale czy zwracane wyniki są prawidłowe? W tym wpisie dowiesz się jak Elasticsearch działa pod maską i dlaczego zwracane agregacje są pewnego rodzaju przybliżeniem.Spis treścihide1Elasticsearch pod maskąIndeksy, shardy i replikiZapytania i agregacjeSzacowanie2TestDataFrame w Apache SparkTop 20 LinesTop 10 vehicleNumber3WnioskiPodziel się:Dodaj do ulubionych:PodobneElasticsearch pod maskąIndeksy, shardy i repliki Zacznijmy od tego, ja...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Dlaczego Elasticsearch kłamie? Jak działa Elasticsearch? - Wiadro Danych

Bazy danych i XML 254 dni, 12 godzin, 9 minut temu mszymczyk 75 źrodło rozwiń

W poprzednim wpisie udokumentowałem utworzenie przepływu danych wykorzystującego technologie takie jak Kafka, Kafka Streams, Logstash i Elasticsearch. Po kilku dniach pracy mam już wystarczającą ilość danych, aby przekonać się jakie możliwości analizy danych transportu miejskiego umożliwia Elasticsearch i Kibana.Spis treścihide1DaneLiczność zbioru2MapaHeatmapGrid rectangles3Wykresy, wykresikiDodanie pola z godzinąWykresiki – ogólnieWykresiki – dla linii 122 i 190Najszybszy w mieście wóz, najszybszy w mie...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Analiza Danych Transportu Miejskiego Warszawy w Kibana i Elasticsearch - Wiadro Danych

Inne 267 dni, 13 godzin, 18 minut temu mszymczyk 64 źrodło rozwiń

Jest to drugie podejście Wizualizacja autobusów w Elasticsearch i Kibana. Tym razem wykorzystam napisany wcześniej program w Kafka Streams do obliczenia prędkości i orientacji autobusów, a następnie wrzucę Logstash-em z Apache Kafka do Elasticsearch.Spis treścihide1Środowisko2Data Flow3Wrzucanie rekordów do Apache Kafka4Logstash5Elasticsearch6Kibana7Mapa8Działanie9RepozytoriumPodziel się:Dodaj do ulubionych:PodobneŚrodowisko Docker-compose już trochę puchnie. Znajduje się w nim Elasticsearch, Kibana, Zo...

Wizualizacja autobusów w Elasticsearch i Kibana - podejście strumieniowe - Kafka Streams, Logstash - Wiadro Danych

Bazy danych i XML 282 dni, 13 godzin, 18 minut temu mszymczyk 62 źrodło rozwiń

No właśnie. Jak zacząć w świecie Big Data? Przecież tyle tych technologii. Widać to choćby na tym schemacie. http://mattturck.com/wp-content/uploads/2019/07/2019MattTurckBigDataLandscapeFinal_Fullsize.png.Newsletter Amerykańscy naukowcy i radzieccy uczeni są zgodni w jednym: nie ma lepszego sposobu na początek przygody z Big Data, jak subskrypcja Wiadro Danych 😎 Przechodząc dalej, akceptujesz politykę prywatnościJęzyk Oczywiście najważniejszym językiem w IT jest… język angielski. Ale skończmy h...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Big Data - Jak zacząć? - Wiadro Danych

Inne 295 dni, 12 godzin, 28 minut temu mszymczyk 45 źrodło rozwiń

1 2 3

Najaktywniejsi

1
(32 895,6)
2
(32 816,53)
3
(27 178,29)
4
(21 178,88)
5
(20 336,33)
6
(13 018,14)
7
(10 531,65)
8
(9 775,28)
9
(8 728,31)
10
(6 837,96)
11
(6 214,22)
12
(5 393,84)
13
(4 157,41)
14
(4 026,73)
15
(3 908,07)
16
(3 599,64)
17
(3 448,35)
18
(3 318,39)
19
(3 224,66)
20
(3 221,45)