Bazy relacyjne są sprawdzonym rozwiązaniem, ale nie pasują do wszystkich problemów. Na ratunek przychodzą bazy NoSQL.
Bazy danych i XML 1599 dni, 16 godzin, 47 minut temu 88 źrodło rozwiń
A couple of tricks which simplify database access code while using Dapper library.
Bazy danych i XML 1601 dni, 3 godziny, 11 minut temu 135 źrodło rozwiń
Apache Cassandra to specyficzna baza danych. Skaluje się (uwaga) liniowo. Ma to swoją cenę: specyficzne modelowanie tabel, konfigurowalna spójność i ograniczona analityka. Apple wykonuje miliony operacji na sekundę na ponad 160 tys. instancjach Cassandry. Gromadzi przy tym ponad 100 PB danych. Ograniczoną analitykę można „wyleczyć” wykorzystując Apache Spark i connector od DataStax i o tym jest ten wpis.Spis treścihide1Środowisko2Dane3Utworzenie tabel w Apache Cassandra4Zasilenie Cassandry SparkiemWczyta...
Bazy danych i XML 1607 dni, 5 godzin, 25 minut temu 50 źrodło rozwiń
Elasticsearch zaskakuje nas swoimi możliwościami i szybkością działania, ale czy zwracane wyniki są prawidłowe? W tym wpisie dowiesz się jak Elasticsearch działa pod maską i dlaczego zwracane agregacje są pewnego rodzaju przybliżeniem.Spis treścihide1Elasticsearch pod maskąIndeksy, shardy i replikiZapytania i agregacjeSzacowanie2TestDataFrame w Apache SparkTop 20 LinesTop 10 vehicleNumber3WnioskiPodziel się:Dodaj do ulubionych:PodobneElasticsearch pod maskąIndeksy, shardy i repliki Zacznijmy od tego, ja...
Bazy danych i XML 1642 dni, 5 godzin, 25 minut temu 78 źrodło rozwiń
W ramach urlopu i siedzenia w domu postanowiłam zaprogramować coś ciekawego w celu poszerzenia swoich umiejętności dotyczących m.in. .NET Core i Web API. Tak powstał pet projekt MyNozbe oparty na Nozbe. W trakcie programowania natknęłam się na ciekawy problem dotyczący Entity Frameworka, którym chciałam się z Wami podzielić.
Bazy danych i XML 1664 dni, 6 godzin, 36 minut temu 146 źrodło rozwiń
Jest to drugie podejście Wizualizacja autobusów w Elasticsearch i Kibana. Tym razem wykorzystam napisany wcześniej program w Kafka Streams do obliczenia prędkości i orientacji autobusów, a następnie wrzucę Logstash-em z Apache Kafka do Elasticsearch.Spis treścihide1Środowisko2Data Flow3Wrzucanie rekordów do Apache Kafka4Logstash5Elasticsearch6Kibana7Mapa8Działanie9RepozytoriumPodziel się:Dodaj do ulubionych:PodobneŚrodowisko Docker-compose już trochę puchnie. Znajduje się w nim Elasticsearch, Kibana, Zo...
Bazy danych i XML 1670 dni, 6 godzin, 34 minuty temu 66 źrodło rozwiń
Przemysław Walkowski No i stało się. Skończyłem kurs. 12 tygodni, co tydzień nowe lekcje i dużo wiedzy. Poniżej zamieszczam moją recenzję. Kurs kupiłem za 800zł i od początku zgodnie z terminami robiłem to co było wymagane. Głownie zadania domowe. Kurs jest dostępny https://dbmaster.pl/. Kurs prowadził w całości Damian Widera. Zapraszam do recenzji.TLTR; Kurs jest bardzo ale to bardzo nie równy. Brak stałego poziomu prowadzi do tego, że czasem byłem bardzo za...
Bazy danych i XML 1678 dni, 5 godzin, 40 minut temu 180 źrodło rozwiń
Pisząc aplikację zwykle piszemy testy. Raczej nie muszę wyjaśniać po co 🙂 Czy tworząc różne procedury lub funkcje na bazie danych też sprawdzamy ich poprawność pisząc testy? Tu już niekoniecznie. A szkoda, bo pisanie testów w tSQLt nie różni się za bardzo od pisania zwykłych testów jednostkowych...
Bazy danych i XML 1678 dni, 5 godzin, 40 minut temu 63 źrodło rozwiń
Entity Framework Core 5 vs SQLBulkCopyPosted in ASP.NET Core 5 & EF Core 5. Entity Framework Core 5 is a great ORM to use and connect to the database with. It is easy to use and easy to understand. It offers just enough for the most common scenarios. So what about inserting big amounts of data in a one go? Would it be fast enough?Let’s have a look at the code As my example, I’ll take a very simple entity – a Profile and PrimeHotel repository available here at my GitHub. My DbContext is very simple ...
Bazy danych i XML 1682 dni, 5 godzin, 28 minut temu 82 źrodło rozwiń
Elasticsearch najczęściej wykorzystywany jest do agregowania logów i monitorowania elementów systemu. Umożliwia również alertowanie, ale jest to funkcjonalność dostępna od wersji Gold, czyli trzeba za nią zapłacić 😥. Są jednak darmowe rozwiązania. W tym przypadku przyjrzymy się rozwiązaniu Praeco (z łac. obwoływacz, herold) opartym o ElastAlert.Spis treścihide1Praeco2Środowisko3KonfiguracjaPraeco & ElastAlertLogstashReguła w Praeco4Akcja5Reakcja6PodsumowaniePodobnePraeco ElastAlert jest to rozwiązan...
Bazy danych i XML 1747 dni, 4 godziny, 45 minut temu 43 źrodło rozwiń
Pewnie się zdziwi Cie ta informacja. Elasticsearch służy do… szukania. Tak. To prawda. Okazuje się, że można go wykorzystać również do indeksowania zawartości plików typu doc, docx, pdf itp. W tym wpisie przyjrzymy się jak to zrobić, jak zmienić analizator oraz jak „zgubić” plik jeśli i tak trzymamy go np. na S3.Spis treścihide1Po co?2Środowisko3Przygotowanie Pipeline4Dodanie pliku5Wyszukiwanie6Ale ja nie potrzebuję analizować całego pliku7Wystarczy mi treść. Pliki trzymam na S38To co z tym OCR-em?9A co ...
Bazy danych i XML 1761 dni, 5 godzin, 15 minut temu 133 źrodło rozwiń
Delta Lake zdobywa ostatnio coraz większa popularność. Słychać o nim na konferencjach na całym świecie. W tym artykule przyjrzymy się jakie problemy rozwiązuje.Spis treścihide1Co to Delta Lake?2Jupyter + Delta Lake3Przygotowanie danych4Bez Delta Lake5Z Delta LakeHistoria i podróże w czasieZarządzanie schematemVacuumDelta Lake APIDeleteUpdateMergeStreaming Sink6Co jest pod maską?7RepoCo to Delta Lake? Delta Lake to nakładka na Apache Spark. Pełni rolę warstwy persystencji i gwarantuje ACID na HDFS, S3, A...
Bazy danych i XML 1775 dni, 4 godziny, 51 minut temu 52 źrodło rozwiń
Elasticsearch można lubić lub nie. Fakty są takie, że robi robotę. Razem z Kibana, Logstash i Beats pozwalają w prosty sposób zbierać logi, metryki i przeprowadzać analizy w czasie rzeczywistym. Gdy potrzebujemy więcej, możemy chwycić za inne narzędzia. W tym wpisie przyjrzymy się jak połączyć Apache Spark i Elasticsearch. Psst! Repo z kodem na dole wpisu!😎Czemu Spark? Ostatnio zwrócił moją uwagę HELK, czyli rozwiązanie do analizy cyber oparte na Elastic Stack. Patrząc na jego architekturę, widzimy wy...
Bazy danych i XML 1788 dni, 4 godziny, 47 minut temu 53 źrodło rozwiń
Microsoft SQL Server is available for Linux so we can run it from Docker container, but usually we need to initialize database at startup, which currently is a bit tricky...
Bazy danych i XML 1790 dni, 4 godziny, 43 minuty temu 118 źrodło rozwiń
Myślisz o analizie i wizualizacji danych geo? Czemu nie spróbować Elasticsearch? Tzw. ELK (Elasticsearch + Logstash + Kibana) to nie tylko baza NoSQL. Jest to cały system, który umożliwia przechowywanie, wyszukiwanie, analizę i wizualizację danych z dowolnego źródła w czasie rzeczywistym. W tym przypadku wykorzystamy otwarte dane lokalizacji komunikacji miejskiej w Warszawie. Wspomniałem o nich w tym artykule.Instalacja Elasticsearch + Kibana Tak jak opisywałem to w poprzednim wpisie, użyjemy docker + d...
Bazy danych i XML 1804 dni, 5 godzin, 43 minuty temu 105 źrodło rozwiń
Słyszałeś/aś o Apache Graphframes? Teoria grafów to nie tylko ich własności, ale i algorytmy. W tym wpisie tworzę model i wykonuję algorytm PageRank.
Bazy danych i XML 1836 dni, 4 godziny, 47 minut temu 59 źrodło rozwiń
W poprzednim poście utworzyliśmy strumień danych lokalizacji pojazdów komunikacji miejskiej na jednym z topiców w Apache Kafka. Teraz dorwiemy się do tego strumienia z poziomu Apache Spark, zapiszemy trochę danych na HDFS i zobaczymy czy da się coś z nimi zrobić. Dla przypomnienia, wpis jest częścią mini projektu związanego z danymi lokalizacji pojazdów komunikacji miejskiej w Warszawie. Plan na dzień dzisiejszy poniżej, a zastanawiamy się nad jego środkiem => Apache SparkOdczyt z Kafki Najszybszą meto...
Bazy danych i XML 1842 dni, 5 godzin temu 45 źrodło rozwiń
Reading time ~25 minutes I need a document database. Why? There are areas in my problem generating (How to calculate 17 billion similarities) pet project cookit that are just asking for a document modelling approach. Most people will say that this is a straightforward problem to solve:Slap on MongoDB, and you are ready to go. It is NOT a good idea.Get email notifications about new posts: This article started as a way to structurize the comparison process but grew a bit more ( just like my previous ...
Bazy danych i XML 1843 dni, 4 godziny, 42 minuty temu 104 źrodło rozwiń
Dziś przyjrzymy się narzędziu, jakim jest Apache Airflow. Spróbujemy użyć dwóch operatorów i zasilić kafkę danymi z API. Przy okazji rozpoczynam taki „mini projekcik”. Nie wiem jak Tobie, ale najlepiej poznaję różne technologie poprzez praktykę. W tym wpisie wspomniałem o źródle, którym są otwarte dane Warszawy https://api.um.warszawa.pl/. Mój plan to wysyłanie takich danych na Kafkę i przetworzenie ich strumieniowo (np. w Sparku). Takie dane potem wylądują na HDFS, ELK (sprawdzimy czy da się sensownie ...
Bazy danych i XML 1850 dni, 4 godziny, 42 minuty temu 93 źrodło rozwiń
Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.Dane W ostanim wpisie wspomniałem kilkanaście źródeł danych. Na jednym z nich znalazłem Enron Email Dataset. Jest to zbiór maili przedsiębiorstwa energetycznego Enron. Co takiego charakteryzuje ten zbiór? Zawiera dużo małych plików.Jak dużo? Ściągnąłem, rozpakowałem i wy...
Bazy danych i XML 1857 dni, 4 godziny, 49 minut temu 37 źrodło rozwiń