dotnetomaniak.pl - Artykuły z tagiem Big Data

ksqlDB to rozwiązanie z rodziny Apache Kafka i Confluent. Pozwala na wykorzystanie języka SQL do definiowania zadań przetwarzania strumieniowego. Wpis ten zaczyna serię o ksqlDB. Spróbujemy zrobić coś fajnego na podstawie danych z Packetbeat’a (monitoring ruchu sieciowego) i zobaczymy jak to dalej się rozwinie.Spis treścihide1Co to jest ksqlDB?ksqlDB w Cybersecurity?2Problem3ŚrodowiskoApache Kafka + Zookeeper + ksqlDB4Packetbeat5ksqlDBGdzie strumyk płynie z wolnaPrzykładowy rekordStream ‘packetbeat’Strea...

ksqlDB - magia SQL w czasie rzeczywistym - część 1 - Wiadro Danych

Czym właściwie jest Kafka i jakie są jej zastosowania? Zgodnie z definicją jest to platforma przeznaczona głównie do przetwarzania danych strumieniowo. Ciekawostką jest, że projekt zapoczątkowano w LinkedIn, a w późniejszym etapie stał się open-source’owy.

Źródło: pieceofdata.pl
Dziel się z innymi:
Apache Kafka – Niezbędne podstawy teoretyczne

Programowanie rozproszone 1150 dni, 1 godzinę, 3 minuty temu LukaszIdz 69 źrodło rozwiń

Pierwszy wpis na blogu i zarazem mój debiut. Co prawda ten artykuł z .NET powiązany nie jest - ale nie wykluczam w przyszłości i takich z pogranicza .NET – Data ;) Każdy feedback będzie mile widziany.

Źródło: pieceofdata.pl
Dziel się z innymi:
Czy potrzebujesz Big Data? – Piece of Data

Programowanie rozproszone 1319 dni, 1 godzinę, 46 minut temu LukaszIdz 27 źrodło rozwiń

Tym razem rozmawiamy z Pawłem Potasińskim o analityce. Przewijają się różne zagadnienia - od klasycznych hurtowni po uczenie maszynowe, kompetencje zespołów data science, co powinni wiedzieć programiści na temat analityki i czego ludzi od danych mogą się nauczyć od programistów.

Źródło: patoarchitekci.io
Dziel się z innymi:
O analityce z Pawłem Potasińskim - Patoarchitekci

Chcemy, aby nasze aplikacje w Apache Spark wykorzystywały wszystkie przydzielone zasoby. Niestety nie jest to takie proste. Rozproszenie obliczeń niesie za sobą koszty zarządzania zadaniami, a same zadania mają wobec siebie zależności. Z jednej strony ogranicza nas CPU (szybkość obliczeń), z drugiej strony dyski i sieć. MapReduce poświęciłem dedykowany materiał wideo. W artykule dowiesz się jak w 2 prostych krokach poprawić utylizację zasobów w Apache Spark.Spis treścihide1Prosta aplikacja2Nie taka prost...

Apache Spark - 2 Kroki do Lepszej Utylizacji Zasobów - Wiadro Danych

No właśnie. Jak zacząć w świecie Big Data? Przecież tyle tych technologii. Widać to choćby na tym schemacie. http://mattturck.com/wp-content/uploads/2019/07/2019MattTurckBigDataLandscapeFinal_Fullsize.png.Newsletter Amerykańscy naukowcy i radzieccy uczeni są zgodni w jednym: nie ma lepszego sposobu na początek przygody z Big Data, jak subskrypcja Wiadro Danych 😎 Przechodząc dalej, akceptujesz politykę prywatnościJęzyk Oczywiście najważniejszym językiem w IT jest… język angielski. Ale skończmy h...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Big Data - Jak zacząć? - Wiadro Danych

Inne 1653 dni, 1 godzinę, 54 minuty temu mszymczyk 46 źrodło rozwiń

Delta Lake zdobywa ostatnio coraz większa popularność. Słychać o nim na konferencjach na całym świecie. W tym artykule przyjrzymy się jakie problemy rozwiązuje.Spis treścihide1Co to Delta Lake?2Jupyter + Delta Lake3Przygotowanie danych4Bez Delta Lake5Z Delta LakeHistoria i podróże w czasieZarządzanie schematemVacuumDelta Lake APIDeleteUpdateMergeStreaming Sink6Co jest pod maską?7RepoCo to Delta Lake? Delta Lake to nakładka na Apache Spark. Pełni rolę warstwy persystencji i gwarantuje ACID na HDFS, S3, A...

Delta Lake w Pigułce (czyli o podróżach w czasie) - Wiadro Danych

Bazy danych i XML 1745 dni, 1 godzinę, 1 minutę temu mszymczyk 52 źrodło rozwiń

Dzisiaj wstęp do usługi Data Lake Storage. Czyli ewolucja blob storage stworzona pod analizy narzędziami big data, ale nie tylko. Kilka słów o tym jak działa, pare demek i na koniec łączenie się z Databricks.

Źródło: youtu.be
Dziel się z innymi:
Azure Data Lake Storage (Gen 2) | Najlepsza usługa do składowania plików dla technologii big data

Cloud 1805 dni, 1 godzinę, 46 minut temu AdamMarczak 33 źrodło rozwiń

Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.Dane W ostanim wpisie wspomniałem kilkanaście źródeł danych. Na jednym z nich znalazłem Enron Email Dataset. Jest to zbiór maili przedsiębiorstwa energetycznego Enron. Co takiego charakteryzuje ten zbiór? Zawiera dużo małych plików.Jak dużo? Ściągnąłem, rozpakowałem i wy...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Problem małych plików w HDFS - Wiadro Danych

W poprzednim wpisie (Big Data to 3 słowa) wspomniałem z jakimi wyzwaniami mierzy się Big Data. Dotyczy to również architektury. Wykorzystywana wcześniej EDW (Enterprise Data Warehouse) nie pasuje do nowych standardów. Opracowano nową architekturę o bardzo obrazowej nazwie Data Lake (dosłownie Jezioro Danych). Wyobraź sobie te wszystkie górskie potoki (nazwa strumień danych nie wygląda na przypadkową), które spływają do jeziorka z którego wszyscy korzystają… ale najpierw przyjrzyjmy się co było nie tak w ...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Czy słonie pływają? Kilka słów o Data Lake - Wiadro Danych

Architektura 1876 dni, 2 godziny, 34 minuty temu mszymczyk 69 źrodło rozwiń

Co to jest w ogóle Big Data? Słyszymy o systemach Big Data, technologiach Big Data, rozwiązaniach Big Data… a nawet o systemach klasy Big Data. Jest to trochę takie słowo wytrych, buzzword które nabrało popularności i się „sprzedaje”. Poniżej opisałem to co kryje się pod tym terminem według mnie. Termin Big Data najczęściej kojarzony jest z technologią Hadoop, czyli podejściem do rozproszonego przetwarzania danych wykorzystującego technikę MapReduce. Czy Hadoop to Big Data? Nie, nie tylko. Jak widać np....

Tagi: Big Data, hadoop
Źródło: wiadrodanych.pl
Dziel się z innymi:
Big Data to 3 słowa - Wiadro Danych

Inne 1879 dni, 1 godzinę, 56 minut temu mszymczyk 68 źrodło rozwiń

Ciężko czyta się grafy w postaci tekstowej. Znacznie lepsze jest do tego pismo pierwotne jakim są obrazki. Jeśli miałeś kiedyś problem z wizualizacją grafu w bibliotece GraphFrames na Apache Zeppelin to zapraszam do zerknięcia w kod.

Źródło: www.mszymczyk.com
Dziel się z innymi:
Visualizing GraphFrames in Apache Zeppelin - mSzymczyk Blog

Bazy danych i XML 2016 dni, 2 godziny, 21 minut temu mszymczyk 33 źrodło rozwiń

Kim jest data scientist? Co to za twór? Jakie języki programowania warto znać, aby pracować w świeżej gałęzi IT - czyli data science?

Data scientist – nowy zawód na nowe czasy

Bazy danych i XML 2243 dni, 1 godzinę, 10 minut temu djfoxer 80 źrodło rozwiń

Dzisiejszy odcinek jest dość nietypowy, ponieważ goszczę aż dwie osoby. A są to moi dobrzy znajomi z czasów studenckich: Huber Chylik oraz Jacek Bylina. Obaj programiści oraz miłośnicy dość świeżego „trendu” jakim jest Big Data. I to właśnie ten temat został poruszony w dzisiejszym odcinku Chłopaki powiedzieli co określa się mianem Big Data, jakie narzędzia i środowiska ułatwiają przetwarzanie i analizę dużych zbiorów danych oraz przedstawili kilka autorskich przykładów wykorzystania tej technologi, któ...

Tagi: Big Data, podcast
Źródło: foreverframe.pl
Dziel się z innymi:
DevReview #3 O Big Data z Hubertem Chylikiem i Jackiem Byliną - Forever F[r]ame

Inne 3080 dni, 36 minut temu dpawlukiewicz 87 źrodło rozwiń

A first step into big data world.

Dziel się z innymi:
[EN] Using Hortonworks Hive in .NET

Bazy danych i XML 3563 dni, 20 godzin, 22 minuty temu dzapart 258 źrodło rozwiń