Pierwszy wpis na blogu i zarazem mój debiut. Co prawda ten artykuł z .NET powiązany nie jest - ale nie wykluczam w przyszłości i takich z pogranicza .NET – Data ;) Każdy feedback będzie mile widziany.
Programowanie rozproszone niedziela, 28 marca 2021 13:19:41 GMT 0 spam? źrodło rozwiń
Tym razem rozmawiamy z Pawłem Potasińskim o analityce. Przewijają się różne zagadnienia - od klasycznych hurtowni po uczenie maszynowe, kompetencje zespołów data science, co powinni wiedzieć programiści na temat analityki i czego ludzi od danych mogą się nauczyć od programistów.
Architektura 33 dni, 14 godzin, 40 minut temu 26 źrodło rozwiń
Chcemy, aby nasze aplikacje w Apache Spark wykorzystywały wszystkie przydzielone zasoby. Niestety nie jest to takie proste. Rozproszenie obliczeń niesie za sobą koszty zarządzania zadaniami, a same zadania mają wobec siebie zależności. Z jednej strony ogranicza nas CPU (szybkość obliczeń), z drugiej strony dyski i sieć. MapReduce poświęciłem dedykowany materiał wideo. W artykule dowiesz się jak w 2 prostych krokach poprawić utylizację zasobów w Apache Spark.Spis treścihide1Prosta aplikacja2Nie taka prost...
Programowanie rozproszone 33 dni, 14 godzin, 40 minut temu 13 źrodło rozwiń
No właśnie. Jak zacząć w świecie Big Data? Przecież tyle tych technologii. Widać to choćby na tym schemacie. http://mattturck.com/wp-content/uploads/2019/07/2019MattTurckBigDataLandscapeFinal_Fullsize.png.Newsletter Amerykańscy naukowcy i radzieccy uczeni są zgodni w jednym: nie ma lepszego sposobu na początek przygody z Big Data, jak subskrypcja Wiadro Danych 😎 Przechodząc dalej, akceptujesz politykę prywatnościJęzyk Oczywiście najważniejszym językiem w IT jest… język angielski. Ale skończmy h...
Delta Lake zdobywa ostatnio coraz większa popularność. Słychać o nim na konferencjach na całym świecie. W tym artykule przyjrzymy się jakie problemy rozwiązuje.Spis treścihide1Co to Delta Lake?2Jupyter + Delta Lake3Przygotowanie danych4Bez Delta Lake5Z Delta LakeHistoria i podróże w czasieZarządzanie schematemVacuumDelta Lake APIDeleteUpdateMergeStreaming Sink6Co jest pod maską?7RepoCo to Delta Lake? Delta Lake to nakładka na Apache Spark. Pełni rolę warstwy persystencji i gwarantuje ACID na HDFS, S3, A...
Bazy danych i XML 425 dni, 14 godzin, 59 minut temu 51 źrodło rozwiń
Korzystanie z HDFS bardzo przypomina korzystanie ze zwykłego systemu plików z użyciem terminala. Grupy, uprawnienia, pliki, foldery itp. Bawiąc się kolejnymi technologiami Big Data można zapomnieć się i potraktować HDFS jak zwykły dysk.Dane W ostanim wpisie wspomniałem kilkanaście źródeł danych. Na jednym z nich znalazłem Enron Email Dataset. Jest to zbiór maili przedsiębiorstwa energetycznego Enron. Co takiego charakteryzuje ten zbiór? Zawiera dużo małych plików.Jak dużo? Ściągnąłem, rozpakowałem i wy...
Bazy danych i XML 507 dni, 14 godzin, 56 minut temu 36 źrodło rozwiń
W poprzednim wpisie (Big Data to 3 słowa) wspomniałem z jakimi wyzwaniami mierzy się Big Data. Dotyczy to również architektury. Wykorzystywana wcześniej EDW (Enterprise Data Warehouse) nie pasuje do nowych standardów. Opracowano nową architekturę o bardzo obrazowej nazwie Data Lake (dosłownie Jezioro Danych). Wyobraź sobie te wszystkie górskie potoki (nazwa strumień danych nie wygląda na przypadkową), które spływają do jeziorka z którego wszyscy korzystają… ale najpierw przyjrzyjmy się co było nie tak w ...
Architektura 556 dni, 16 godzin, 31 minut temu 67 źrodło rozwiń
Co to jest w ogóle Big Data? Słyszymy o systemach Big Data, technologiach Big Data, rozwiązaniach Big Data… a nawet o systemach klasy Big Data. Jest to trochę takie słowo wytrych, buzzword które nabrało popularności i się „sprzedaje”. Poniżej opisałem to co kryje się pod tym terminem według mnie. Termin Big Data najczęściej kojarzony jest z technologią Hadoop, czyli podejściem do rozproszonego przetwarzania danych wykorzystującego technikę MapReduce. Czy Hadoop to Big Data? Nie, nie tylko. Jak widać np....
Ciężko czyta się grafy w postaci tekstowej. Znacznie lepsze jest do tego pismo pierwotne jakim są obrazki. Jeśli miałeś kiedyś problem z wizualizacją grafu w bibliotece GraphFrames na Apache Zeppelin to zapraszam do zerknięcia w kod.
Bazy danych i XML 696 dni, 16 godzin, 18 minut temu 32 źrodło rozwiń
Kim jest data scientist? Co to za twór? Jakie języki programowania warto znać, aby pracować w świeżej gałęzi IT - czyli data science?
Bazy danych i XML 923 dni, 15 godzin, 7 minut temu 79 źrodło rozwiń
Dzisiejszy odcinek jest dość nietypowy, ponieważ goszczę aż dwie osoby. A są to moi dobrzy znajomi z czasów studenckich: Huber Chylik oraz Jacek Bylina. Obaj programiści oraz miłośnicy dość świeżego „trendu” jakim jest Big Data. I to właśnie ten temat został poruszony w dzisiejszym odcinku Chłopaki powiedzieli co określa się mianem Big Data, jakie narzędzia i środowiska ułatwiają przetwarzanie i analizę dużych zbiorów danych oraz przedstawili kilka autorskich przykładów wykorzystania tej technologi, któ...
A first step into big data world.
Bazy danych i XML 2244 dni, 10 godzin, 19 minut temu 258 źrodło rozwiń