dotnetomaniak.pl - Najnowsze artykuły o .NET w dziale Bazy danych i XML

Elasticsearch zaskakuje nas swoimi możliwościami i szybkością działania, ale czy zwracane wyniki są prawidłowe? W tym wpisie dowiesz się jak Elasticsearch działa pod maską i dlaczego zwracane agregacje są pewnego rodzaju przybliżeniem.Spis treścihide1Elasticsearch pod maskąIndeksy, shardy i replikiZapytania i agregacjeSzacowanie2TestDataFrame w Apache SparkTop 20 LinesTop 10 vehicleNumber3WnioskiPodziel się:Dodaj do ulubionych:PodobneElasticsearch pod maskąIndeksy, shardy i repliki Zacznijmy od tego, ja...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Dlaczego Elasticsearch kłamie? Jak działa Elasticsearch? - Wiadro Danych

Bazy danych i XML 12 dni, 13 godzin, 31 minut temu mszymczyk 57 źrodło rozwiń

W ramach urlopu i siedzenia w domu postanowiłam zaprogramować coś ciekawego w celu poszerzenia swoich umiejętności dotyczących m.in. .NET Core i Web API. Tak powstał pet projekt MyNozbe oparty na Nozbe. W trakcie programowania natknęłam się na ciekawy problem dotyczący Entity Frameworka, którym chciałam się z Wami podzielić.

EntityFramework – IncludeFilter() i IncludeOptimized() – Programmer-girl

Bazy danych i XML 34 dni, 14 godzin, 41 minut temu Weronika Mularczyk 128 źrodło rozwiń

Jest to drugie podejście Wizualizacja autobusów w Elasticsearch i Kibana. Tym razem wykorzystam napisany wcześniej program w Kafka Streams do obliczenia prędkości i orientacji autobusów, a następnie wrzucę Logstash-em z Apache Kafka do Elasticsearch.Spis treścihide1Środowisko2Data Flow3Wrzucanie rekordów do Apache Kafka4Logstash5Elasticsearch6Kibana7Mapa8Działanie9RepozytoriumPodziel się:Dodaj do ulubionych:PodobneŚrodowisko Docker-compose już trochę puchnie. Znajduje się w nim Elasticsearch, Kibana, Zo...

Wizualizacja autobusów w Elasticsearch i Kibana - podejście strumieniowe - Kafka Streams, Logstash - Wiadro Danych

Bazy danych i XML 40 dni, 14 godzin, 40 minut temu mszymczyk 57 źrodło rozwiń

Przemysław Walkowski No i stało się. Skończyłem kurs. 12 tygodni, co tydzień nowe lekcje i dużo wiedzy. Poniżej zamieszczam moją recenzję. Kurs kupiłem za 800zł i od początku zgodnie z terminami robiłem to co było wymagane. Głownie zadania domowe. Kurs jest dostępny https://dbmaster.pl/. Kurs prowadził w całości Damian Widera. Zapraszam do recenzji.TLTR; Kurs jest bardzo ale to bardzo nie równy. Brak stałego poziomu prowadzi do tego, że czasem byłem bardzo za...

Tagi: bazy danych, kurs
Dziel się z innymi:
Recenzja kursu DB-Master | Blog Programisty.NET

Bazy danych i XML 48 dni, 13 godzin, 46 minut temu przemekwa 111 źrodło rozwiń

Pisząc aplikację zwykle piszemy testy. Raczej nie muszę wyjaśniać po co 🙂 Czy tworząc różne procedury lub funkcje na bazie danych też sprawdzamy ich poprawność pisząc testy? Tu już niekoniecznie. A szkoda, bo pisanie testów w tSQLt nie różni się za bardzo od pisania zwykłych testów jednostkowych...

Dziel się z innymi:
tSQLt czyli testy SQL – Programmer-girl

Bazy danych i XML 48 dni, 13 godzin, 46 minut temu Weronika Mularczyk 54 źrodło rozwiń

Entity Framework Core 5 vs SQLBulkCopyPosted in ASP.NET Core 5 & EF Core 5. Entity Framework Core 5 is a great ORM to use and connect to the database with. It is easy to use and easy to understand. It offers just enough for the most common scenarios. So what about inserting big amounts of data in a one go? Would it be fast enough?Let’s have a look at the code As my example, I’ll take a very simple entity – a Profile and PrimeHotel repository available here at my GitHub.  My DbContext is very simple ...

Tagi: .net 5, ef core
Dziel się z innymi:
Entity Framework Core 5 vs SQLBulkCopy – Michał Białecki Blog

Bazy danych i XML 52 dni, 13 godzin, 34 minuty temu michal-bialecki 75 źrodło rozwiń

Elasticsearch najczęściej wykorzystywany jest do agregowania logów i monitorowania elementów systemu. Umożliwia również alertowanie, ale jest to funkcjonalność dostępna od wersji Gold, czyli trzeba za nią zapłacić 😥. Są jednak darmowe rozwiązania. W tym przypadku przyjrzymy się rozwiązaniu Praeco (z łac. obwoływacz, herold) opartym o ElastAlert.Spis treścihide1Praeco2Środowisko3KonfiguracjaPraeco & ElastAlertLogstashReguła w Praeco4Akcja5Reakcja6PodsumowaniePodobnePraeco ElastAlert jest to rozwiązan...

Źródło: wiadrodanych.pl
Dziel się z innymi:
(Darmowe) Alerty w Elasticsearch - Wiadro Danych

Bazy danych i XML 117 dni, 12 godzin, 50 minut temu mszymczyk 40 źrodło rozwiń

Pewnie się zdziwi Cie ta informacja. Elasticsearch służy do… szukania. Tak. To prawda. Okazuje się, że można go wykorzystać również do indeksowania zawartości plików typu doc, docx, pdf itp. W tym wpisie przyjrzymy się jak to zrobić, jak zmienić analizator oraz jak „zgubić” plik jeśli i tak trzymamy go np. na S3.Spis treścihide1Po co?2Środowisko3Przygotowanie Pipeline4Dodanie pliku5Wyszukiwanie6Ale ja nie potrzebuję analizować całego pliku7Wystarczy mi treść. Pliki trzymam na S38To co z tym OCR-em?9A co ...

Nie czytaj plików. Elasticsearch zrobi to za Ciebie. - Wiadro Danych

Bazy danych i XML 131 dni, 13 godzin, 20 minut temu mszymczyk 128 źrodło rozwiń

Delta Lake zdobywa ostatnio coraz większa popularność. Słychać o nim na konferencjach na całym świecie. W tym artykule przyjrzymy się jakie problemy rozwiązuje.Spis treścihide1Co to Delta Lake?2Jupyter + Delta Lake3Przygotowanie danych4Bez Delta Lake5Z Delta LakeHistoria i podróże w czasieZarządzanie schematemVacuumDelta Lake APIDeleteUpdateMergeStreaming Sink6Co jest pod maską?7RepoCo to Delta Lake? Delta Lake to nakładka na Apache Spark. Pełni rolę warstwy persystencji i gwarantuje ACID na HDFS, S3, A...

Delta Lake w Pigułce (czyli o podróżach w czasie) - Wiadro Danych

Bazy danych i XML 145 dni, 12 godzin, 57 minut temu mszymczyk 49 źrodło rozwiń

Elasticsearch można lubić lub nie. Fakty są takie, że robi robotę. Razem z Kibana, Logstash i Beats pozwalają w prosty sposób zbierać logi, metryki i przeprowadzać analizy w czasie rzeczywistym. Gdy potrzebujemy więcej, możemy chwycić za inne narzędzia. W tym wpisie przyjrzymy się jak połączyć Apache Spark i Elasticsearch. Psst! Repo z kodem na dole wpisu!😎Czemu Spark? Ostatnio zwrócił moją uwagę HELK, czyli rozwiązanie do analizy cyber oparte na Elastic Stack. Patrząc na jego architekturę, widzimy wy...

Spark i Elasticsearch? To tak można? elasticsearch-spark - Wiadro Danych

Bazy danych i XML 158 dni, 12 godzin, 52 minuty temu mszymczyk 51 źrodło rozwiń

Microsoft SQL Server is available for Linux so we can run it from Docker container, but usually we need to initialize database at startup, which currently is a bit tricky...

Dziel się z innymi:
Initialize MS SQL in Docker container - create database at startup

Bazy danych i XML 160 dni, 12 godzin, 48 minut temu Tometchy 113 źrodło rozwiń

Myślisz o analizie i wizualizacji danych geo? Czemu nie spróbować Elasticsearch? Tzw. ELK (Elasticsearch + Logstash + Kibana) to nie tylko baza NoSQL. Jest to cały system, który umożliwia przechowywanie, wyszukiwanie, analizę i wizualizację danych z dowolnego źródła w czasie rzeczywistym. W tym przypadku wykorzystamy otwarte dane lokalizacji komunikacji miejskiej w Warszawie. Wspomniałem o nich w tym artykule.Instalacja Elasticsearch + Kibana Tak jak opisywałem to w poprzednim wpisie, użyjemy docker + d...

Wizualizacja map w Elasticsearch i Kibana - GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 174 dni, 13 godzin, 48 minut temu mszymczyk 101 źrodło rozwiń

Słyszałeś/aś o Apache Graphframes? Teoria grafów to nie tylko ich własności, ale i algorytmy. W tym wpisie tworzę model i wykonuję algorytm PageRank.

Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy - Wiadro Danych

Bazy danych i XML 206 dni, 12 godzin, 52 minuty temu mszymczyk 58 źrodło rozwiń

W poprzednim poście utworzyliśmy strumień danych lokalizacji pojazdów komunikacji miejskiej na jednym z topiców w Apache Kafka. Teraz dorwiemy się do tego strumienia z poziomu Apache Spark, zapiszemy trochę danych na HDFS i zobaczymy czy da się coś z nimi zrobić. Dla przypomnienia, wpis jest częścią mini projektu związanego z danymi lokalizacji pojazdów komunikacji miejskiej w Warszawie. Plan na dzień dzisiejszy poniżej, a zastanawiamy się nad jego środkiem => Apache SparkOdczyt z Kafki Najszybszą meto...

Obliczanie prędkości w Apache Spark - GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 212 dni, 13 godzin, 5 minut temu mszymczyk 44 źrodło rozwiń

Reading time ~25 minutes I need a document database. Why? There are areas in my problem generating (How to calculate 17 billion similarities) pet project cookit that are just asking for a document modelling approach. Most people will say that this is a straightforward problem to solve:Slap on MongoDB, and you are ready to go. It is NOT a good idea.Get email notifications about new posts: This article started as a way to structurize the comparison process but grew a bit more ( just like my previous ...

Dziel się z innymi:
MongoDB vs RavenDB – IndexOutOfRange

Bazy danych i XML 213 dni, 12 godzin, 47 minut temu maklipsa 102 źrodło rozwiń

Dziś przyjrzymy się narzędziu, jakim jest Apache Airflow. Spróbujemy użyć dwóch operatorów i zasilić kafkę danymi z API. Przy okazji rozpoczynam taki „mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaję różne technologie poprzez praktykę. W tym wpisie wspomniałem o źródle, którym są otwarte dane Warszawy https://api.um.warszawa.pl/. Mój plan to wysyłanie takich danych na Kafkę i przetworzenie ich strumieniowo (np. w Sparku). Takie dane potem wylądują na HDFS, ELK (sprawdzimy czy da się sensownie ...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Apache Airflow + Kafka - Zbieramy dane GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 220 dni, 12 godzin, 47 minut temu mszymczyk 89 źrodło rozwiń

Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.Dane W ostanim wpisie wspomniałem kilkanaście źródeł danych. Na jednym z nich znalazłem Enron Email Dataset. Jest to zbiór maili przedsiębiorstwa energetycznego Enron. Co takiego charakteryzuje ten zbiór? Zawiera dużo małych plików.Jak dużo? Ściągnąłem, rozpakowałem i wy...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Problem małych plików w HDFS - Wiadro Danych

Bazy danych i XML 227 dni, 12 godzin, 54 minuty temu mszymczyk 36 źrodło rozwiń

Bawiąc się różnymi bibliotekami, frameworkami itp. potrzebujemy danych. Możemy takie wygenerować, ale efekt nie będzie ten sam. Dane pochodzące z rzeczywistego źródła lepiej oddają różnorodność (jedna z V z której składa się Big Data). Są też po prostu ciekawsze, trudniejsze i mogą być związane naszymi zainteresowaniami (np. triathlon)

Źródło: wiadrodanych.pl
Dziel się z innymi:
Skąd brać dane? 11 źródeł (w tym polskie) - Wiadro Danych

Bazy danych i XML 234 dni, 12 godzin, 43 minuty temu mszymczyk 170 źrodło rozwiń

Zapytanie szybsze 40-krotnie? Czemu nie. A to wszystko przez dwie operacje w Apache Spark

Źródło: wiadrodanych.pl
Dziel się z innymi:
Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych - Wiadro Danych

Bazy danych i XML 241 dni, 12 godzin, 52 minuty temu mszymczyk 41 źrodło rozwiń

Gdzie jest Json? Porównanie CSV, JSON, Parquet i ORC.

Źródło: wiadrodanych.pl
Dziel się z innymi:
Półtora miliarda haseł w Spark – część 2 – formaty danych - Wiadro Danych

Bazy danych i XML 244 dni, 12 godzin, 52 minuty temu mszymczyk 38 źrodło rozwiń

1 2 3 4 5... 20 21

Najaktywniejsi

1
(32 895,6)
2
(32 816,53)
3
(27 178,29)
4
(21 178,88)
5
(20 336,33)
6
(13 018,14)
7
(10 512,47)
8
(9 775,28)
9
(8 388,28)
10
(6 822,96)
11
(6 214,22)
12
(5 393,84)
13
(4 127,41)
14
(4 026,73)
15
(3 908,07)
16
(3 599,64)
17
(3 448,35)
18
(3 318,39)
19
(3 224,66)
20
(3 173,43)