W Apache Spark/PySpark posługujemy się abstrakcjami, a faktyczne przetwarzanie dokonywane jest dopiero gdy chcemy zmaterializować wynik operacji. Do dyspozycji mamy szereg bibliotek, którymi możemy łączyć się z różnymi bazami i systemów plików. W tym artykule dowiesz się jak połączyć dane z MySQL i MongoDB, a następnie zapisać je w Apache Cassandra.Spis treścihide1Środowisko2Dodanie danych do MongoDB3Dodanie danych do MySQL4Schemat danych w Cassandrze5ETL do Apache Cassandra w PySpark6Ciekawostka7Repozyt...
Bazy danych i XML 1565 dni, 8 godzin, 8 minut temu 22 źrodło rozwiń
Apache Cassandra to specyficzna baza danych. Skaluje się (uwaga) liniowo. Ma to swoją cenę: specyficzne modelowanie tabel, konfigurowalna spójność i ograniczona analityka. Apple wykonuje miliony operacji na sekundę na ponad 160 tys. instancjach Cassandry. Gromadzi przy tym ponad 100 PB danych. Ograniczoną analitykę można „wyleczyć” wykorzystując Apache Spark i connector od DataStax i o tym jest ten wpis.Spis treścihide1Środowisko2Dane3Utworzenie tabel w Apache Cassandra4Zasilenie Cassandry SparkiemWczyta...
Bazy danych i XML 1607 dni, 7 godzin, 55 minut temu 50 źrodło rozwiń
Mieliście kiedyś taką sytuację przy Apache Cassandra, że aplikacja robi UPDATE na bazie danych ale nigdzie nie ma śladu po tym UPDATE? Jak już jej trochę poużywałeś, to prawdopodobnie znasz temat. Jak dopiero z nią zaczynasz… W projekcie używamy Cassandry która, póki co, na każdym ze środowisk składa się z jednego node-a. Każdy z serwisów ma swój keyspace. Wszystko pięknie działało. Nie było problemów. Do czasu. Była potrzeba przepisania jednego z serwisów i tymczasowo dwa serwisy (a czasami jeden ser...
Bazy danych i XML 1888 dni, 9 godzin, 17 minut temu 72 źrodło rozwiń
Let's assume you are considering using Cassandra for logs storage or in general, for time series storage. You are well prepared - asked google extensively. Yet, there is a trap waiting to kill your cluster in few weeks after lunch.
Programowanie rozproszone 2855 dni, 18 godzin, 47 minut temu 25 źrodło rozwiń
The solution to a previous post - a strange problem related to Cassandra Datastax C# Driver which was happening once in the production environment.
Sztuka programowania 3021 dni, 3 godziny, 28 minut temu 34 źrodło rozwiń
A post about my journey with fixing nasty Cassandra Datastax C# driver problem. Can you guess the problem source?
The bad things in Cassandra.
Architektura 3127 dni, 2 godziny, 23 minuty temu 60 źrodło rozwiń
How many timers are in the .NET Framework? What assumptions do they have? Which timer would you use for implementing Speculative query execution?
Sztuka programowania 3194 dni, 18 godzin, 47 minut temu 72 źrodło rozwiń
Warning: this post won't be about "boring" or "typical" algorithms from Computer Science which we all have learned on studies (like quick sort, merge sort, xxx sort, A*, FFT). Instead, this will be about other little-known, especially USEFUL algorithms, which people working as professional developers should know or heard of. Little-known. ID generation problems are usually overlooked. Database ID's I mean. Ask someone to name ID "types". Well, GUID, newsequentialid...
Sztuka programowania 3226 dni, 3 godziny, 34 minuty temu 116 źrodło rozwiń
Cassandra is a popular NoSql database technology which allows an easy configuration of many instances (nodes) providing high scalability and performance.