Jednym z podstawowych narzędzi Data Scientist jest Numpy. Niestety nadmiar danych może znacznie utrudnić nam zabawę. Dlatego powstało Koalas. Biblioteka umożliwiająca korzystanie z Apache Spark w taki sposób, jakbyśmy robili to za pomocą Numpy.Spis treścihide1Cel2Środowisko3Pip i Spark Session4Przygotowanie Spark DataFrame5Przygotowanie Koalas DataFrame6Top 10 najczęściej ocenianych filmówPySparkKoalas/PandasSpark SQL7Top 10 filmów wg średnich ocen (ale tylko takich, które mają >100 ocen)PySparkKoalas/Pa...
No właśnie. Jak zacząć w świecie Big Data? Przecież tyle tych technologii. Widać to choćby na tym schemacie. http://mattturck.com/wp-content/uploads/2019/07/2019MattTurckBigDataLandscapeFinal_Fullsize.png.Newsletter Amerykańscy naukowcy i radzieccy uczeni są zgodni w jednym: nie ma lepszego sposobu na początek przygody z Big Data, jak subskrypcja Wiadro Danych 😎 Przechodząc dalej, akceptujesz politykę prywatnościJęzyk Oczywiście najważniejszym językiem w IT jest… język angielski. Ale skończmy h...
Myślisz o analizie i wizualizacji danych geo? Czemu nie spróbować Elasticsearch? Tzw. ELK (Elasticsearch + Logstash + Kibana) to nie tylko baza NoSQL. Jest to cały system, który umożliwia przechowywanie, wyszukiwanie, analizę i wizualizację danych z dowolnego źródła w czasie rzeczywistym. W tym przypadku wykorzystamy otwarte dane lokalizacji komunikacji miejskiej w Warszawie. Wspomniałem o nich w tym artykule.Instalacja Elasticsearch + Kibana Tak jak opisywałem to w poprzednim wpisie, użyjemy docker + d...
Bazy danych i XML 1761 dni, 14 godzin, 25 minut temu 105 źrodło rozwiń
Słyszałeś/aś o Apache Graphframes? Teoria grafów to nie tylko ich własności, ale i algorytmy. W tym wpisie tworzę model i wykonuję algorytm PageRank.
Bazy danych i XML 1793 dni, 13 godzin, 29 minut temu 59 źrodło rozwiń
Mistrzostwa świata w Tri na dystansie Ironman za nami. Współzawodnictwo na Hawajach to marzenie każdego ambitnego triathlonisty. Z tej okazji wziąłem na warsztat wyniki zawodów triathlonowych na dystansie Ironman w latach 2005-2016 (436131 rekordów) znalezione na http://academictorrents.com. Do analizy wykorzystałem pythona, a wszczególności numpy, pandas oraz matplotlib. Repo z plikiem jupyter i wykresamidane CSV-ki wyglądają mniej więcej tak:Importy import numpy as np import pandas as pd import mat...
Kim jest data scientist? Co to za twór? Jakie języki programowania warto znać, aby pracować w świeżej gałęzi IT - czyli data science?
Bazy danych i XML 2230 dni, 13 godzin, 42 minuty temu 80 źrodło rozwiń
One of the most important things during a penetration test is to gain access to administrator account. If the application (for example webserver) is well configured, it is most often run with limited user rights, only able to run a specific application. When we can get low privileges access to the server using some vulnerability, the next step is to get higher permissions to read important files, continue network exploration etc. To do this, we must use the privilege escalation technique.
Coding Dojo to spotkanie podczas którego programiści razem pracują nad wybranym zagadnieniem/zadaniem. Cel jest prosty - doskonalenie umiejętności programistycznych. Na śląsku powstała inicjatywa Coding Dojo Silesia aby wspólnie się uczyć i programować!
Sztuka programowania 2360 dni, 15 godzin, 7 minut temu 80 źrodło rozwiń
Kiedyś już wspominałam o Pandas czyli bibliotece do Pythona, która umożliwia analizę danych a przy tym robi to bardzo wydajnie oraz jest łatwa i przyjemna w użyciu. Przy tym jest obecnie najpopularniejszą biblioteką do pracy z danymi tabelarycznymi w Pythonie. W Pandas do przedstawiania danych tabelarycznych stosujemy tzw dataframe czyli dwuwymiarową strukturę, która dostarcza nam zestaw narzędzi do szybkiego przeglądania, analizowania i wizualizowania danych. W czym Pandas jest lepsze od NumPy?Jednym ...
Daj się poznać 2017 2727 dni, 1 godzinę, 31 minut temu 29 źrodło rozwiń
W zeszłym tygodniu pisałam o tym jak NumPy ułatwia nam życie. Dziś będzie jeszcze troszkę w tym temacie. Co jeszcze fajnego dostarcza nam NumPy? Na przykład wygodnego filtrowania danych. Załóżmy, że mamy jakąś tablicę:somenumbers = numpyarray([0,10,100,200,201]); somenumbers = numpyarray([0, 10, 100, 200, 201]); I chcemy z niej wyciągnąć tylko wartości, które dzielą się przez 100. W zwykłym Pythonie oczywiście musielibyśmy przejść pętlą przez całą tablicę i po kolei sprawdzać poszczególne wartośc...
Daj się poznać 2017 poniedziałek, 15 maja 2017 04:54:58 GMT 6 spam? źrodło rozwiń
Załóżmy, że mamy takie oto dane:YearNumber of itemsNumber of another items20011001000200210110012003102100220041031003 Wszystko to znajduje się w pliku csv o nazwie data.csv i chcemy je sobie wczytać do jakiejś zmiennej. W czystym Pythonie musimy zrobić coś takiego:withopen('data.csv','r')as csvfile: reader =csv.reader(csvfile) data =[]for row in reader: data.append(row) with open('data.csv', 'r') as csvfile: reader = csv.reader(csvfile) data = [] for row in reader: ...
Daj się poznać 2017 2740 dni, 13 godzin, 2 minuty temu 60 źrodło rozwiń
Webscraping – co to takiego? Jest to proces automatycznego pobierania stron internetowych i wyciągania z nich interesujących nas informacji. Ponieważ dzieje się to automatycznie zajmuje to oczywiście mniej czasu niż gdybyśmy to chcieli zrobić ręcznie.Od czego zacząć? Najważniejsze co musimy zrobić chcąc skorzystać z danych umieszczonych na jakiejś stronie to upewnienie się, że jej warunki użytkowania nam na to pozwalają. Jeśli już mamy taką stronę, której zawartość możęmy wykorzystać musimy się zasta...
Daj się poznać 2017 2760 dni, 16 godzin, 44 minuty temu 122 źrodło rozwiń
Ostatnio w czasie kursu o którym wspomniałam w poprzednim wpisie – Dataquest miałam okazję zapoznać się narzędziem jakim jest Jupyter. Jest to środowisko często używane w świecie data science. Mamy w nim do dyspozycji konsolę w której możemy wywoływać kolejne komendy, ale jest to dość rozbudowana konsola przypominając raczej rich text editor. W wersji online wygląda to mniej więcej tak: W polu z zieloną obwódką możemy wywoływać polecenia. Przykład totalnie prosty: Każde z tych pól to tzw komórka ...
Daj się poznać 2017 2776 dni, 2 godziny, 59 minut temu 35 źrodło rozwiń
Niby druga notka nie musi być w temacie konkursowym, ale jakoś tak mi dziś wyszło. Koniecznie chciałam napisać o pewnym nowym znalezisku jakie odkryłam w zeszłym tygodniu. Mianowicie po pierwsze artykuł „Building a data science portfolio: Storytelling with data”, który krok po krok opowiada jak zacząć przygodę z danymi i Pythonem. Genialny, tylko bardzo długi. Artykuł pochodzi z bardzo ciekawego bloga Dataquest. Jest to platforma do nauki pod hasłem „Become a Data Scientist – Learn by writing code, work...
Daj się poznać 2017 2782 dni, 14 godzin, 58 minut temu 55 źrodło rozwiń
Poprzednio pisałam o statystyce i Excelu, ale to co mnie interesuje najbardziej, to jednak programowanie. Dziś jednak będzie krótko, ponieważ temat, którego poznania się podjęłam jest naprawdę ogromny:) Dlaczego wybrałam Pythona nie R? Chyba już wspomniałam, iż zależało mi na tym, żeby to był język, który mogę wykorzystać też do czegoś innego. Zresztą w zeszłym roku, właśnie tuż przed rozpoczęciem poprzedniej edycji Daj się poznać miałam swoje pierwsze podejście do Pythona, ale w postaci Django. Ostatec...
Daj się poznać 2017 2782 dni, 14 godzin, 58 minut temu 40 źrodło rozwiń
Kiedy postanowiłam wystartować z tematem data science w konkursie nie bardzo wiedziałam od czego zacząć. Na pewno temat siedział mi w głowie od dawna, ale brakowało czasu, żeby się z tym na szerszą skalę zapoznać. Gdzieś na konferencjach zdarzyło mi się obejrzeć rożne ciekawe prezentacje z tym tematem związane, ale na tym sprawa się kończyła do tej pory. Wiedziałam też, że chciałabym zapoznać się też z Pythonem jeśli chodzi o programowanie kwestii z data science związanych. Zaczęłam więc najprościej jak...
Daj się poznać 2017 2795 dni, 13 godzin, 10 minut temu 68 źrodło rozwiń
Czy C# jest najlepszym językiem do nauki programowania? To zależy! :) Ale od czego? Już wielu początkującym znajomym to tłumaczyłem, a dzisiaj postanowiłem zrobić dla nich wpis.
Daj się poznać 2017 2798 dni, 35 minut temu 124 źrodło rozwiń
Tym razem omówiona ciekawa właściwość języka python. Na przykładzie zadania rekrutacyjnego
Sztuka programowania 3003 dni, 14 godzin, 12 minut temu 209 źrodło rozwiń
More experience I gain, more interested I am in how things work underneath the code level. In this post I want to provide short description of the Top 10 programming languages (by TIOBE Index), how they work and their super short history.
Sztuka programowania 3746 dni, 9 godzin, 52 minuty temu 441 źrodło rozwiń
Autor: C++. I mógłbym w tym momencie zakończyć wpis, wszyscy by się ze mną zgadzali, a mała grupka fanatyków tego reliktu przeszłości by płakała po kontach jak to znowu wszyscy dyskryminują ich narzędzie pracy. Gdyby nie dwa ale. Pierwsze ale: jestem wrednym skurczybykiem, który czasami stara się wyjrzeć poza własne podwórko i przeważnie nie lubi się zgadzać z tym co gada tłum (bo tłum to bezmyślne stado baranów)....