Date multe si BI-din nou
Saptamanile trecute am avut de facut o analiza a unor date. Ca sa va dati seama ce volum de date implica am sa va spun urmatoarele: erau 2 tabele care trebuiau legate intre ele printr-un element comun: nr de document.
Ce volum de informatii aveam
Unul din tabele avea 3.4 milioane de linii, iar celalalt tot cam asa. Din tabelele astea trebuia sa scot niste situatii, de fapt nu stiam ce am sa scot decat dupa ce vedeam datele. Cei care ati mai lucrat cu astfel de fisiere, probabil ca stiti cat de greu sunt de manipulat (fisierele erau CSV) si ca e o problema in a fi deschise si a vizualiza datele din ele.
CSV-urile se pot deschide cu mai multe aplicatii (Notepad, Wordpad, Excel etc), dar, datorita volumului mare de date di fisiere, oricare din aceste aplicatii se va bloca incercand sa deschida un astfel de fisier. Datele astea la nivel de CVS se pot manipula cu EMEditor, un editor care poate lucra cu volume mari de date (am mai avut la un moment dat un fisier cu 15 milioane de linii pe care nu am reusit sa-l deschid decat cu EmEditor).
Variante de prelucrare a datelor
BUN! Aveam citeva variante: sa import totul intr-o baza de date SQL si apoi sa fac un script care sa imi scoata datele asa cum le vroiam eu, dupa ce le vizualizam sau sa folosesc un BI. Am ales varianta BI din comoditate, prima varianta implicand un volum de munca mai mare pentru mine si ceva efort de programare.
Am cautat pe Google si am gasit un BI care este gratuit si care s-a descurcat exemplar cu volumul ala de date, chiar am ramas impresionat de rapiditatea cu care putut prelucra datele. BI-ul este foarte simplu si intuitiv, are o varianta complet gratuita cu ceva limitatri, limitari la care eu nu am ajuns cu volumul de date descris mai sus.
BI-ul se cheama Power BI desktop si este facut de Microsoft, iar dupa experienta asta il recomand cu placere tuturor. Am ramas placut impresionat si de multitudinea de posibilitati de import: XML, CSV, baze de date (diverse tipuri) si, asa cum si era necesar se poate conecta direct la baza de date si sa preia datele direct de acolo. Sincer, e un soft care mi-a placut si care mi-a si rezolvat problema intr-un mod extrem de comod si de rapid.
Asa ca succes la prelucrat date!
Daca t-a placut articolul sigur iti va placea sa citesti si acest articol: BI si raportare
Daca vorbim de BI, cred ca merita explorat cel putin si Qlik Sense, alaturi de Power BI !
Din cate stiu eu, cam tot ce face Power BI … cam face si Qlik Sense, (inclusiv costul nul pentru versiunea desktop ;-).
Iar scalabilitatea si maturitatea platformei Qlik, plus versatilitatea de a publica si in cloud, dar si on-premise, sunt plusuri ce sustin recomandarea.
Si nu in ultimul rand, Qlik Sense 3.0, recent aparut, are, printre alte noutati remarcabile, unelte ce asista utilizatorii mai putin avizati sa construiasca conexiuni coerente la seturi de date cu mai mult de 1 sau 2 tabelele.
Super, merita stiut si incercat! Eu o sa-l incerc sigur.
EmEditor e unul dintre ele.
Salut,
mai e o varianta. Exista pe net anumite programele (nu mai stiu cum se numeste cel pe care l-am folosit eu) care pot sa “sparga” CSV.urile mari in bucati de cate 900.000linii (excel nu deschide decat 1 mil de linii) . Astfel poti sa faci din CSV-ul initial 4 fisiere pe care sa le vizualizezi/analizezi .