dotnetomaniak.pl - Artykuły z tagiem Big Data

ksqlDB to rozwiązanie z rodziny Apache Kafka i Confluent. Pozwala na wykorzystanie języka SQL do definiowania zadań przetwarzania strumieniowego. Wpis ten zaczyna serię o ksqlDB. Spróbujemy zrobić coś fajnego na podstawie danych z Packetbeat’a (monitoring ruchu sieciowego) i zobaczymy jak to dalej się rozwinie.Spis treścihide1Co to jest ksqlDB?ksqlDB w Cybersecurity?2Problem3ŚrodowiskoApache Kafka + Zookeeper + ksqlDB4Packetbeat5ksqlDBGdzie strumyk płynie z wolnaPrzykładowy rekordStream ‘packetbeat’Strea...

ksqlDB - magia SQL w czasie rzeczywistym - część 1 - Wiadro Danych

Bazy danych i XML 353 dni, 16 godzin, 2 minuty temu mszymczyk 48 źrodło rozwiń

Czym właściwie jest Kafka i jakie są jej zastosowania? Zgodnie z definicją jest to platforma przeznaczona głównie do przetwarzania danych strumieniowo. Ciekawostką jest, że projekt zapoczątkowano w LinkedIn, a w późniejszym etapie stał się open-source’owy.

Źródło: pieceofdata.pl
Dziel się z innymi:
Apache Kafka – Niezbędne podstawy teoretyczne

Programowanie rozproszone 430 dni, 16 godzin, 28 minut temu LukaszIdz 66 źrodło rozwiń

Pierwszy wpis na blogu i zarazem mój debiut. Co prawda ten artykuł z .NET powiązany nie jest - ale nie wykluczam w przyszłości i takich z pogranicza .NET – Data ;) Każdy feedback będzie mile widziany.

Źródło: pieceofdata.pl
Dziel się z innymi:
Czy potrzebujesz Big Data? – Piece of Data

Programowanie rozproszone 599 dni, 17 godzin, 11 minut temu LukaszIdz 25 źrodło rozwiń

Tym razem rozmawiamy z Pawłem Potasińskim o analityce. Przewijają się różne zagadnienia - od klasycznych hurtowni po uczenie maszynowe, kompetencje zespołów data science, co powinni wiedzieć programiści na temat analityki i czego ludzi od danych mogą się nauczyć od programistów.

Źródło: patoarchitekci.io
Dziel się z innymi:
O analityce z Pawłem Potasińskim - Patoarchitekci

Architektura 633 dni, 16 godzin, 7 minut temu Łukasz Kałużny 27 źrodło rozwiń

Chcemy, aby nasze aplikacje w Apache Spark wykorzystywały wszystkie przydzielone zasoby. Niestety nie jest to takie proste. Rozproszenie obliczeń niesie za sobą koszty zarządzania zadaniami, a same zadania mają wobec siebie zależności. Z jednej strony ogranicza nas CPU (szybkość obliczeń), z drugiej strony dyski i sieć. MapReduce poświęciłem dedykowany materiał wideo. W artykule dowiesz się jak w 2 prostych krokach poprawić utylizację zasobów w Apache Spark.Spis treścihide1Prosta aplikacja2Nie taka prost...

Apache Spark - 2 Kroki do Lepszej Utylizacji Zasobów - Wiadro Danych

Programowanie rozproszone 633 dni, 16 godzin, 7 minut temu mszymczyk 13 źrodło rozwiń

No właśnie. Jak zacząć w świecie Big Data? Przecież tyle tych technologii. Widać to choćby na tym schemacie. http://mattturck.com/wp-content/uploads/2019/07/2019MattTurckBigDataLandscapeFinal_Fullsize.png.Newsletter Amerykańscy naukowcy i radzieccy uczeni są zgodni w jednym: nie ma lepszego sposobu na początek przygody z Big Data, jak subskrypcja Wiadro Danych 😎 Przechodząc dalej, akceptujesz politykę prywatnościJęzyk Oczywiście najważniejszym językiem w IT jest… język angielski. Ale skończmy h...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Big Data - Jak zacząć? - Wiadro Danych

Inne 933 dni, 17 godzin, 19 minut temu mszymczyk 45 źrodło rozwiń

Delta Lake zdobywa ostatnio coraz większa popularność. Słychać o nim na konferencjach na całym świecie. W tym artykule przyjrzymy się jakie problemy rozwiązuje.Spis treścihide1Co to Delta Lake?2Jupyter + Delta Lake3Przygotowanie danych4Bez Delta Lake5Z Delta LakeHistoria i podróże w czasieZarządzanie schematemVacuumDelta Lake APIDeleteUpdateMergeStreaming Sink6Co jest pod maską?7RepoCo to Delta Lake? Delta Lake to nakładka na Apache Spark. Pełni rolę warstwy persystencji i gwarantuje ACID na HDFS, S3, A...

Delta Lake w Pigułce (czyli o podróżach w czasie) - Wiadro Danych

Bazy danych i XML 1025 dni, 16 godzin, 26 minut temu mszymczyk 51 źrodło rozwiń

Dzisiaj wstęp do usługi Data Lake Storage. Czyli ewolucja blob storage stworzona pod analizy narzędziami big data, ale nie tylko. Kilka słów o tym jak działa, pare demek i na koniec łączenie się z Databricks.

Źródło: youtu.be
Dziel się z innymi:
Azure Data Lake Storage (Gen 2) | Najlepsza usługa do składowania plików dla technologii big data

Cloud 1085 dni, 17 godzin, 10 minut temu AdamMarczak 30 źrodło rozwiń

Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.Dane W ostanim wpisie wspomniałem kilkanaście źródeł danych. Na jednym z nich znalazłem Enron Email Dataset. Jest to zbiór maili przedsiębiorstwa energetycznego Enron. Co takiego charakteryzuje ten zbiór? Zawiera dużo małych plików.Jak dużo? Ściągnąłem, rozpakowałem i wy...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Problem małych plików w HDFS - Wiadro Danych

Bazy danych i XML 1107 dni, 16 godzin, 23 minuty temu mszymczyk 36 źrodło rozwiń

W poprzednim wpisie (Big Data to 3 słowa) wspomniałem z jakimi wyzwaniami mierzy się Big Data. Dotyczy to również architektury. Wykorzystywana wcześniej EDW (Enterprise Data Warehouse) nie pasuje do nowych standardów. Opracowano nową architekturę o bardzo obrazowej nazwie Data Lake (dosłownie Jezioro Danych). Wyobraź sobie te wszystkie górskie potoki (nazwa strumień danych nie wygląda na przypadkową), które spływają do jeziorka z którego wszyscy korzystają… ale najpierw przyjrzyjmy się co było nie tak w ...

Źródło: wiadrodanych.pl
Dziel się z innymi:
Czy słonie pływają? Kilka słów o Data Lake - Wiadro Danych

Architektura 1156 dni, 17 godzin, 58 minut temu mszymczyk 67 źrodło rozwiń

Co to jest w ogóle Big Data? Słyszymy o systemach Big Data, technologiach Big Data, rozwiązaniach Big Data… a nawet o systemach klasy Big Data. Jest to trochę takie słowo wytrych, buzzword które nabrało popularności i się „sprzedaje”. Poniżej opisałem to co kryje się pod tym terminem według mnie. Termin Big Data najczęściej kojarzony jest z technologią Hadoop, czyli podejściem do rozproszonego przetwarzania danych wykorzystującego technikę MapReduce. Czy Hadoop to Big Data? Nie, nie tylko. Jak widać np....

Tagi: Big Data, hadoop
Źródło: wiadrodanych.pl
Dziel się z innymi:
Big Data to 3 słowa - Wiadro Danych

Inne 1159 dni, 17 godzin, 20 minut temu mszymczyk 68 źrodło rozwiń

Ciężko czyta się grafy w postaci tekstowej. Znacznie lepsze jest do tego pismo pierwotne jakim są obrazki. Jeśli miałeś kiedyś problem z wizualizacją grafu w bibliotece GraphFrames na Apache Zeppelin to zapraszam do zerknięcia w kod.

Źródło: www.mszymczyk.com
Dziel się z innymi:
Visualizing GraphFrames in Apache Zeppelin - mSzymczyk Blog

Bazy danych i XML 1296 dni, 17 godzin, 45 minut temu mszymczyk 32 źrodło rozwiń

Kim jest data scientist? Co to za twór? Jakie języki programowania warto znać, aby pracować w świeżej gałęzi IT - czyli data science?

Data scientist – nowy zawód na nowe czasy

Bazy danych i XML 1523 dni, 16 godzin, 34 minuty temu djfoxer 79 źrodło rozwiń

Dzisiejszy odcinek jest dość nietypowy, ponieważ goszczę aż dwie osoby. A są to moi dobrzy znajomi z czasów studenckich: Huber Chylik oraz Jacek Bylina. Obaj programiści oraz miłośnicy dość świeżego „trendu” jakim jest Big Data. I to właśnie ten temat został poruszony w dzisiejszym odcinku Chłopaki powiedzieli co określa się mianem Big Data, jakie narzędzia i środowiska ułatwiają przetwarzanie i analizę dużych zbiorów danych oraz przedstawili kilka autorskich przykładów wykorzystania tej technologi, któ...

Tagi: Big Data, podcast
Źródło: foreverframe.pl
Dziel się z innymi:
DevReview #3 O Big Data z Hubertem Chylikiem i Jackiem Byliną - Forever F[r]ame

Inne 2360 dni, 16 godzin, 1 minutę temu dpawlukiewicz 84 źrodło rozwiń

A first step into big data world.

Dziel się z innymi:
[EN] Using Hortonworks Hive in .NET

Bazy danych i XML 2844 dni, 11 godzin, 46 minut temu dzapart 258 źrodło rozwiń

Najaktywniejsi w tym miesiącu