dotnetomaniak.pl - Najnowsze artykuły o .NET w dziale Bazy danych i XML - Strona 2

Delta Lake zdobywa ostatnio coraz większa popularność. Słychać o nim na konferencjach na całym świecie. W tym artykule przyjrzymy się jakie problemy rozwiązuje.Spis treścihide1Co to Delta Lake?2Jupyter + Delta Lake3Przygotowanie danych4Bez Delta Lake5Z Delta LakeHistoria i podróże w czasieZarządzanie schematemVacuumDelta Lake APIDeleteUpdateMergeStreaming Sink6Co jest pod maską?7RepoCo to Delta Lake? Delta Lake to nakładka na Apache Spark. Pełni rolę warstwy persystencji i gwarantuje ACID na HDFS, S3, A...

Delta Lake w Pigułce (czyli o podróżach w czasie) - Wiadro Danych

Bazy danych i XML 425 dni, 10 godzin, 52 minuty temu mszymczyk 51 źrodło rozwiń

Elasticsearch można lubić lub nie. Fakty są takie, że robi robotę. Razem z Kibana, Logstash i Beats pozwalają w prosty sposób zbierać logi, metryki i przeprowadzać analizy w czasie rzeczywistym. Gdy potrzebujemy więcej, możemy chwycić za inne narzędzia. W tym wpisie przyjrzymy się jak połączyć Apache Spark i Elasticsearch. Psst! Repo z kodem na dole wpisu!😎Czemu Spark? Ostatnio zwrócił moją uwagę HELK, czyli rozwiązanie do analizy cyber oparte na Elastic Stack. Patrząc na jego architekturę, widzimy wy...

Spark i Elasticsearch? To tak można? elasticsearch-spark - Wiadro Danych

Bazy danych i XML 438 dni, 10 godzin, 47 minut temu mszymczyk 52 źrodło rozwiń

Microsoft SQL Server is available for Linux so we can run it from Docker container, but usually we need to initialize database at startup, which currently is a bit tricky...

Dziel się z innymi:
Initialize MS SQL in Docker container - create database at startup

Bazy danych i XML 440 dni, 10 godzin, 43 minuty temu Tometchy 114 źrodło rozwiń

Myślisz o analizie i wizualizacji danych geo? Czemu nie spróbować Elasticsearch? Tzw. ELK (Elasticsearch + Logstash + Kibana) to nie tylko baza NoSQL. Jest to cały system, który umożliwia przechowywanie, wyszukiwanie, analizę i wizualizację danych z dowolnego źródła w czasie rzeczywistym. W tym przypadku wykorzystamy otwarte dane lokalizacji komunikacji miejskiej w Warszawie. Wspomniałem o nich w tym artykule.Instalacja Elasticsearch + Kibana Tak jak opisywałem to w poprzednim wpisie, użyjemy docker + d...

Wizualizacja map w Elasticsearch i Kibana - GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 454 dni, 11 godzin, 44 minuty temu mszymczyk 103 źrodło rozwiń

Słyszałeś/aś o Apache Graphframes? Teoria grafów to nie tylko ich własności, ale i algorytmy. W tym wpisie tworzę model i wykonuję algorytm PageRank.

Kto najlepiej ćwierka? Podstawy Graphframes + Tweepy - Wiadro Danych

Bazy danych i XML 486 dni, 10 godzin, 47 minut temu mszymczyk 58 źrodło rozwiń

W poprzednim poście utworzyliśmy strumień danych lokalizacji pojazdów komunikacji miejskiej na jednym z topiców w Apache Kafka. Teraz dorwiemy się do tego strumienia z poziomu Apache Spark, zapiszemy trochę danych na HDFS i zobaczymy czy da się coś z nimi zrobić. Dla przypomnienia, wpis jest częścią mini projektu związanego z danymi lokalizacji pojazdów komunikacji miejskiej w Warszawie. Plan na dzień dzisiejszy poniżej, a zastanawiamy się nad jego środkiem => Apache SparkOdczyt z Kafki Najszybszą meto...

Obliczanie prędkości w Apache Spark - GPS komunikacji miejskiej - Wiadro Danych

Reading time ~25 minutes I need a document database. Why? There are areas in my problem generating (How to calculate 17 billion similarities) pet project cookit that are just asking for a document modelling approach. Most people will say that this is a straightforward problem to solve:Slap on MongoDB, and you are ready to go. It is NOT a good idea.Get email notifications about new posts: This article started as a way to structurize the comparison process but grew a bit more ( just like my previous ...

Dziel się z innymi:
MongoDB vs RavenDB – IndexOutOfRange

Bazy danych i XML 493 dni, 10 godzin, 43 minuty temu maklipsa 102 źrodło rozwiń

Dziś przyjrzymy się narzędziu, jakim jest Apache Airflow. Spróbujemy użyć dwóch operatorów i zasilić kafkę danymi z API. Przy okazji rozpoczynam taki „mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaję różne technologie poprzez praktykę. W tym wpisie wspomniałem o źródle, którym są otwarte dane Warszawy https://api.um.warszawa.pl/. Mój plan to wysyłanie takich danych na Kafkę i przetworzenie ich strumieniowo (np. w Sparku). Takie dane potem wylądują na HDFS, ELK (sprawdzimy czy da się sensownie ...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Apache Airflow + Kafka - Zbieramy dane GPS komunikacji miejskiej - Wiadro Danych

Bazy danych i XML 500 dni, 10 godzin, 42 minuty temu mszymczyk 92 źrodło rozwiń

Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.Dane W ostanim wpisie wspomniałem kilkanaście źródeł danych. Na jednym z nich znalazłem Enron Email Dataset. Jest to zbiór maili przedsiębiorstwa energetycznego Enron. Co takiego charakteryzuje ten zbiór? Zawiera dużo małych plików.Jak dużo? Ściągnąłem, rozpakowałem i wy...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Problem małych plików w HDFS - Wiadro Danych

Bazy danych i XML 507 dni, 10 godzin, 49 minut temu mszymczyk 36 źrodło rozwiń

Bawiąc się różnymi bibliotekami, frameworkami itp. potrzebujemy danych. Możemy takie wygenerować, ale efekt nie będzie ten sam. Dane pochodzące z rzeczywistego źródła lepiej oddają różnorodność (jedna z V z której składa się Big Data). Są też po prostu ciekawsze, trudniejsze i mogą być związane naszymi zainteresowaniami (np. triathlon)

Źródło: wiadrodanych.pl
Dziel się z innymi:
Skąd brać dane? 11 źródeł (w tym polskie) - Wiadro Danych

Bazy danych i XML 514 dni, 10 godzin, 38 minut temu mszymczyk 171 źrodło rozwiń

Zapytanie szybsze 40-krotnie? Czemu nie. A to wszystko przez dwie operacje w Apache Spark

Źródło: wiadrodanych.pl
Dziel się z innymi:
Półtora miliarda haseł w Spark – część 3 – partycjonowanie danych - Wiadro Danych

Bazy danych i XML 521 dni, 10 godzin, 47 minut temu mszymczyk 41 źrodło rozwiń

Gdzie jest Json? Porównanie CSV, JSON, Parquet i ORC.

Źródło: wiadrodanych.pl
Dziel się z innymi:
Półtora miliarda haseł w Spark – część 2 – formaty danych - Wiadro Danych

Bazy danych i XML 524 dni, 10 godzin, 47 minut temu mszymczyk 38 źrodło rozwiń

Wpis poświęcony HierarchyID w najnowszym EF.

Źródło: softwarehut.com
Dziel się z innymi:
Using HierarchyID in Entity Framework | SoftwareHut Tech Blog

Bazy danych i XML 524 dni, 10 godzin, 47 minut temu kompdzior 81 źrodło rozwiń

Mieliście kiedyś taką sytuację przy Apache Cassandra, że aplikacja robi UPDATE na bazie danych ale nigdzie nie ma śladu po tym UPDATE? Jak już jej trochę poużywałeś, to prawdopodobnie znasz temat. Jak dopiero z nią zaczynasz… W projekcie używamy Cassandry która, póki co, na każdym ze środowisk składa się z jednego node-a. Każdy z serwisów ma swój keyspace. Wszystko pięknie działało. Nie było problemów. Do czasu. Była potrzeba przepisania jednego z serwisów i tymczasowo dwa serwisy (a czasami jeden ser...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Gdy Kasia gubi CQL-e - Apache Cassandra i NTP - Wiadro Danych

Bazy danych i XML 538 dni, 12 godzin, 48 minut temu mszymczyk 70 źrodło rozwiń

Czyniąc długą historię krótką- jeśli osql nie wspiera ficera- sprawdź czy z nazwą pliku wszystko w porządku (np czy nie ma spacji) - case study.

Tagi: MS SQL, osql
Źródło: piatkosia.k4be.pl
Dziel się z innymi:
Tych państwa nie obsługujemy

Bazy danych i XML 555 dni, 11 godzin, 49 minut temu piatkosia 138 źrodło rozwiń

Już kiedyś opisywałem na tym blogu, że jednym z większych problemów, które widzę w projektach moich kursantów, są migracje bazy danych. Kilka miesięcy temu opisywałem trzy różne podejścia: migrację w Entity Framework, Fluent Migratora oraz DbUp. Podejścia te, jak sądzę, pokrywają większość przypadków, które możesz mieć w swojej aplikacji. Kolejnym problemem związanym z migracjami jest ich uruchamianie. O ile w jakimś projekcie jest już użyty jakiś mechanizm (n...

Źródło: plawgo.pl
Dziel się z innymi:
Uruchamianie migracji bazy w Azure DevOps - Blog Daniela Plawgo

Bazy danych i XML 570 dni, 13 godzin, 38 minut temu danielplawgo 85 źrodło rozwiń

W poprzednim wpisie pokazałem Ci, jak użyć Sql Server Snapshots do resetowania stanu bazy w automatycznych testach. Innym podejściem, które możemy wykorzystać podczas pracy, jest po prostu usuwanie z bazy danych, które zostały dodane podczas wykonywania testów. Tytułowa biblioteka Respawn umożliwia realizację czegoś takiego w bardzo prosty sposób, ale ma również niestety swoje wady. Zobacz, co umożliwia i gdzie może Ci się ona przydać.Respawn Respawn (https://...

Źródło: plawgo.pl
Dziel się z innymi:
Respawn – usuwanie danych z bazy - Blog Daniela Plawgo

Bazy danych i XML 577 dni, 12 godzin, 18 minut temu danielplawgo 98 źrodło rozwiń

In several recent posts, we discussed two ways to trade off correctness for performance in database systems. In particular, I wrote two posts (first one and second one) on the subject of isolation levels, and one post on the subject of consistency le...

An explanation of the difference between Isolation levels vs. Consistency levels

Bazy danych i XML 594 dni, 11 godzin, 45 minut temu rroszczyk 104 źrodło rozwiń

Reading time ~4 minutes NoSQL PaaS databases like AWS DynamoDB or Cosmos DB offer incredible capabilities in scale, speed, and availability. There is also a dark side to those databases. They will punish anyone greatly for mistakes. And no mistakes are punished more than choosing the wrong partition key. Below is an ORDERED list on how to approach selecting the partition key.1. Transaction boundary I can’t stress this enough.This is the most critical factor. If our transaction boundary is wrong, pleas...

Dziel się z innymi:
How to choose the partition key in CosmosDB – IndexOutOfRange

Bazy danych i XML 601 dni, 11 godzin, 25 minut temu maklipsa 21 źrodło rozwiń

Reading time ~6 minutes This article is Part 2 in a 2-Part Series. Part 1 - How to model hierarchical data in noSQL databasesPart 2 - This Article The problem of storing draft state and auditing is not limited to noSQL databases, and as previously, below patterns can be applied to SQL modeling. But because noSQL databases are, in most cases, lacking transactionality over multiple partitions, the problem is harder there. Making it more interesting :) Additionally, smart use of neet features of noSQL ...

Modeling version and temporary state in noSQL databases – IndexOutOfRange

Bazy danych i XML 626 dni, 11 godzin, 59 minut temu maklipsa 35 źrodło rozwiń

1 2 3 4 5... 21 22

Najaktywniejsi

1
(32 895,6)
2
(32 816,53)
3
(27 178,29)
4
(21 178,88)
5
(20 336,33)
6
(13 018,14)
7
(10 531,65)
8
(9 775,28)
9
(8 791,31)
10
(6 837,96)
11
(6 214,22)
12
(5 393,84)
13
(4 157,41)
14
(4 026,73)
15
(3 908,07)
16
(3 599,64)
17
(3 448,35)
18
(3 318,39)
19
(3 224,66)
20
(3 221,45)