dotnetomaniak.pl - Najnowsze artykuły o .NET w dziale Bazy danych i XML

Elasticsearch najczęściej wykorzystywany jest do agregowania logów i monitorowania elementów systemu. Umożliwia również alertowanie, ale jest to funkcjonalność dostępna od wersji Gold, czyli trzeba za nią zapłacić 😥. Są jednak darmowe rozwiązania. W tym przypadku przyjrzymy się rozwiązaniu Praeco (z łac. obwoływacz, herold) opartym o ElastAlert.Spis treścihide1Praeco2Środowisko3KonfiguracjaPraeco & ElastAlertLogstashReguła w Praeco4Akcja5Reakcja6PodsumowaniePodobnePraeco ElastAlert jest to rozwiązan...

Źródło: wiadrodanych.pl
Dziel się z innymi:
(Darmowe) Alerty w Elasticsearch - Wiadro Danych

Bazy danych i XML 27 dni, 7 godzin, 44 minuty temu mszymczyk 39 źrodło rozwiń

Pewnie się zdziwi Cie ta informacja. Elasticsearch służy do… szukania. Tak. To prawda. Okazuje się, że można go wykorzystać również do indeksowania zawartości plików typu doc, docx, pdf itp. W tym wpisie przyjrzymy się jak to zrobić, jak zmienić analizator oraz jak „zgubić” plik jeśli i tak trzymamy go np. na S3.Spis treścihide1Po co?2Środowisko3Przygotowanie Pipeline4Dodanie pliku5Wyszukiwanie6Ale ja nie potrzebuję analizować całego pliku7Wystarczy mi treść. Pliki trzymam na S38To co z tym OCR-em?9A co ...

Nie czytaj plików. Elasticsearch zrobi to za Ciebie. - Wiadro Danych

Bazy danych i XML 41 dni, 8 godzin, 14 minut temu mszymczyk 125 źrodło rozwiń

Delta Lake zdobywa ostatnio coraz większa popularność. Słychać o nim na konferencjach na całym świecie. W tym artykule przyjrzymy się jakie problemy rozwiązuje.Spis treścihide1Co to Delta Lake?2Jupyter + Delta Lake3Przygotowanie danych4Bez Delta Lake5Z Delta LakeHistoria i podróże w czasieZarządzanie schematemVacuumDelta Lake APIDeleteUpdateMergeStreaming Sink6Co jest pod maską?7RepoCo to Delta Lake? Delta Lake to nakładka na Apache Spark. Pełni rolę warstwy persystencji i gwarantuje ACID na HDFS, S3, A...

Delta Lake w Pigułce (czyli o podróżach w czasie) - Wiadro Danych

Bazy danych i XML 55 dni, 7 godzin, 50 minut temu mszymczyk 48 źrodło rozwiń

Elasticsearch można lubić lub nie. Fakty są takie, że robi robotę. Razem z Kibana, Logstash i Beats pozwalają w prosty sposób zbierać logi, metryki i przeprowadzać analizy w czasie rzeczywistym. Gdy potrzebujemy więcej, możemy chwycić za inne narzędzia. W tym wpisie przyjrzymy się jak połączyć Apache Spark i Elasticsearch. Psst! Repo z kodem na dole wpisu!😎Czemu Spark? Ostatnio zwrócił moją uwagę HELK, czyli rozwiązanie do analizy cyber oparte na Elastic Stack. Patrząc na jego architekturę, widzimy wy...

Spark i Elasticsearch? To tak można? elasticsearch-spark - Wiadro Danych

Bazy danych i XML 68 dni, 7 godzin, 46 minut temu mszymczyk 50 źrodło rozwiń

Microsoft SQL Server is available for Linux so we can run it from Docker container, but usually we need to initialize database at startup, which currently is a bit tricky...

Dziel się z innymi:
Initialize MS SQL in Docker container - create database at startup

Bazy danych i XML 70 dni, 7 godzin, 42 minuty temu Tometchy 112 źrodło rozwiń

Myślisz o analizie i wizualizacji danych geo? Czemu nie spróbować Elasticsearch? Tzw. ELK (Elasticsearch + Logstash + Kibana) to nie tylko baza NoSQL. Jest to cały system, który umożliwia przechowywanie, wyszukiwanie, analizę i wizualizację danych z dowolnego źródła w czasie rzeczywistym. W tym przypadku wykorzystamy otwarte dane lokalizacji komunikacji miejskiej w Warszawie. Wspomniałem o nich w tym artykule.Instalacja Elasticsearch + Kibana Tak jak opisywałem to w poprzednim wpisie, użyjemy docker + d...

Wizualizacja map w Elasticsearch i Kibana - GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 84 dni, 8 godzin, 42 minuty temu mszymczyk 100 źrodło rozwiń

Słyszałeś/aś o Apache Graphframes? Teoria grafów to nie tylko ich własności, ale i algorytmy. W tym wpisie tworzę model i wykonuję algorytm PageRank.

Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy - Wiadro Danych

Bazy danych i XML 116 dni, 7 godzin, 46 minut temu mszymczyk 58 źrodło rozwiń

W poprzednim poście utworzyliśmy strumień danych lokalizacji pojazdów komunikacji miejskiej na jednym z topiców w Apache Kafka. Teraz dorwiemy się do tego strumienia z poziomu Apache Spark, zapiszemy trochę danych na HDFS i zobaczymy czy da się coś z nimi zrobić. Dla przypomnienia, wpis jest częścią mini projektu związanego z danymi lokalizacji pojazdów komunikacji miejskiej w Warszawie. Plan na dzień dzisiejszy poniżej, a zastanawiamy się nad jego środkiem => Apache SparkOdczyt z Kafki Najszybszą meto...

Obliczanie prędkości w Apache Spark - GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 122 dni, 7 godzin, 59 minut temu mszymczyk 44 źrodło rozwiń

Reading time ~25 minutes I need a document database. Why? There are areas in my problem generating (How to calculate 17 billion similarities) pet project cookit that are just asking for a document modelling approach. Most people will say that this is a straightforward problem to solve:Slap on MongoDB, and you are ready to go. It is NOT a good idea.Get email notifications about new posts: This article started as a way to structurize the comparison process but grew a bit more ( just like my previous ...

Dziel się z innymi:
MongoDB vs RavenDB – IndexOutOfRange

Bazy danych i XML 123 dni, 7 godzin, 41 minut temu maklipsa 101 źrodło rozwiń

Dziś przyjrzymy się narzędziu, jakim jest Apache Airflow. Spróbujemy użyć dwóch operatorów i zasilić kafkę danymi z API. Przy okazji rozpoczynam taki „mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaję różne technologie poprzez praktykę. W tym wpisie wspomniałem o źródle, którym są otwarte dane Warszawy https://api.um.warszawa.pl/. Mój plan to wysyłanie takich danych na Kafkę i przetworzenie ich strumieniowo (np. w Sparku). Takie dane potem wylądują na HDFS, ELK (sprawdzimy czy da się sensownie ...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Apache Airflow + Kafka - Zbieramy dane GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 130 dni, 7 godzin, 41 minut temu mszymczyk 88 źrodło rozwiń

Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.Dane W ostanim wpisie wspomniałem kilkanaście źródeł danych. Na jednym z nich znalazłem Enron Email Dataset. Jest to zbiór maili przedsiębiorstwa energetycznego Enron. Co takiego charakteryzuje ten zbiór? Zawiera dużo małych plików.Jak dużo? Ściągnąłem, rozpakowałem i wy...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Problem małych plików w HDFS - Wiadro Danych

Bazy danych i XML 137 dni, 7 godzin, 48 minut temu mszymczyk 36 źrodło rozwiń

Bawiąc się różnymi bibliotekami, frameworkami itp. potrzebujemy danych. Możemy takie wygenerować, ale efekt nie będzie ten sam. Dane pochodzące z rzeczywistego źródła lepiej oddają różnorodność (jedna z V z której składa się Big Data). Są też po prostu ciekawsze, trudniejsze i mogą być związane naszymi zainteresowaniami (np. triathlon)

Źródło: wiadrodanych.pl
Dziel się z innymi:
Skąd brać dane? 11 źródeł (w tym polskie) - Wiadro Danych

Bazy danych i XML 144 dni, 7 godzin, 37 minut temu mszymczyk 169 źrodło rozwiń

Zapytanie szybsze 40-krotnie? Czemu nie. A to wszystko przez dwie operacje w Apache Spark

Źródło: wiadrodanych.pl
Dziel się z innymi:
Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych - Wiadro Danych

Bazy danych i XML 151 dni, 7 godzin, 45 minut temu mszymczyk 41 źrodło rozwiń

Gdzie jest Json? Porównanie CSV, JSON, Parquet i ORC.

Źródło: wiadrodanych.pl
Dziel się z innymi:
Półtora miliarda haseł w Spark – część 2 – formaty danych - Wiadro Danych

Bazy danych i XML 154 dni, 7 godzin, 46 minut temu mszymczyk 38 źrodło rozwiń

Wpis poświęcony HierarchyID w najnowszym EF.

Źródło: softwarehut.com
Dziel się z innymi:
Using HierarchyID in Entity Framework | SoftwareHut Tech Blog

Bazy danych i XML 154 dni, 7 godzin, 46 minut temu kompdzior 81 źrodło rozwiń

Mieliście kiedyś taką sytuację przy Apache Cassandra, że aplikacja robi UPDATE na bazie danych ale nigdzie nie ma śladu po tym UPDATE? Jak już jej trochę poużywałeś, to prawdopodobnie znasz temat. Jak dopiero z nią zaczynasz… W projekcie używamy Cassandry która, póki co, na każdym ze środowisk składa się z jednego node-a. Każdy z serwisów ma swój keyspace. Wszystko pięknie działało. Nie było problemów. Do czasu. Była potrzeba przepisania jednego z serwisów i tymczasowo dwa serwisy (a czasami jeden ser...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Gdy Kasia gubi CQL-e - Apache Cassandra i NTP - Wiadro Danych

Bazy danych i XML 168 dni, 9 godzin, 46 minut temu mszymczyk 70 źrodło rozwiń

Czyniąc długą historię krótką- jeśli osql nie wspiera ficera- sprawdź czy z nazwą pliku wszystko w porządku (np czy nie ma spacji) - case study.

Tagi: MS SQL, osql
Źródło: piatkosia.k4be.pl
Dziel się z innymi:
Tych państwa nie obsługujemy

Bazy danych i XML 185 dni, 8 godzin, 48 minut temu piatkosia 138 źrodło rozwiń

Już kiedyś opisywałem na tym blogu, że jednym z większych problemów, które widzę w projektach moich kursantów, są migracje bazy danych. Kilka miesięcy temu opisywałem trzy różne podejścia: migrację w Entity Framework, Fluent Migratora oraz DbUp. Podejścia te, jak sądzę, pokrywają większość przypadków, które możesz mieć w swojej aplikacji. Kolejnym problemem związanym z migracjami jest ich uruchamianie. O ile w jakimś projekcie jest już użyty jakiś mechanizm (n...

Źródło: plawgo.pl
Dziel się z innymi:
Uruchamianie migracji bazy w Azure DevOps - Blog Daniela Plawgo

Bazy danych i XML 200 dni, 10 godzin, 36 minut temu danielplawgo 85 źrodło rozwiń

W poprzednim wpisie pokazałem Ci, jak użyć Sql Server Snapshots do resetowania stanu bazy w automatycznych testach. Innym podejściem, które możemy wykorzystać podczas pracy, jest po prostu usuwanie z bazy danych, które zostały dodane podczas wykonywania testów. Tytułowa biblioteka Respawn umożliwia realizację czegoś takiego w bardzo prosty sposób, ale ma również niestety swoje wady. Zobacz, co umożliwia i gdzie może Ci się ona przydać.Respawn Respawn (https://...

Źródło: plawgo.pl
Dziel się z innymi:
Respawn – usuwanie danych z bazy - Blog Daniela Plawgo

Bazy danych i XML 207 dni, 9 godzin, 17 minut temu danielplawgo 96 źrodło rozwiń

In several recent posts, we discussed two ways to trade off correctness for performance in database systems. In particular, I wrote two posts (first one and second one) on the subject of isolation levels, and one post on the subject of consistency le...

An explanation of the difference between Isolation levels vs. Consistency levels

Bazy danych i XML 224 dni, 8 godzin, 43 minuty temu rroszczyk 103 źrodło rozwiń

1 2 3 4 5... 20 21

Najaktywniejsi

1
(32 895,6)
2
(32 816,53)
3
(27 178,29)
4
(21 178,88)
5
(20 336,33)
6
(13 018,14)
7
(10 512,3)
8
(9 775,28)
9
(8 388,28)
10
(6 822,96)
11
(6 214,22)
12
(5 393,84)
13
(4 127,41)
14
(4 026,73)
15
(3 908,07)
16
(3 599,64)
17
(3 448,35)
18
(3 318,39)
19
(3 224,66)
20
(3 107,41)