Rishikimi i Semalt - Drejtimi i një Skenari Scraping

Rrjedha e ajrit është një bibliotekë e planifikuesve për Python e përdorur për të konfiguruar flukset e punës me shumë sisteme të ekzekutuara paralelisht në çdo numër të përdoruesve. Një tubacion i vetëm Airflow përbëhet nga operacionet SQL, bash dhe Python. Mjeti funksionon duke specifikuar varësitë midis detyrave, një element kritik që ndihmon në përcaktimin e detyrave që duhen realizuar paralelisht dhe cilat do të ekzekutohen pasi të jenë përfunduar funksionet e tjera.

Pse rrjedha e ajrit?

Mjeti i rrjedhës së ajrit është shkruar në Python, duke ju dhënë avantazhin të shtoni operatorët tuaj në funksionalitetin e caktuar tashmë të personalizuar. Ky mjet ju lejon të fshini të dhënat përmes shndërrimeve nga një faqe në internet në një fletë të dhënash të strukturuar mirë. Rrjedha e ajrit përdor Grafikët Aciklik të Drejtuar (DAG) për të përfaqësuar një fluks pune specifik. Në këtë rast, një rrjedhë pune i referohet një koleksioni detyrash që përbëhet nga varësi të drejtimit.

Si funksionon Rrjedha e ajrit Apache

Rrjedha e ajrit është një Sistem i Menaxhimit të Depove që punon për të përcaktuar detyrat si varësi të tyre përfundimtare pasi kodi ekzekuton funksionet në një orar dhe shpërndan ekzekutimin e detyrës në të gjitha proceset e punëtorit. Ky mjet ofron një ndërfaqe të përdoruesit që tregon gjendjen e detyrave si dhe ato të kaluara.

Rrjedha e ajrit tregon informacione diagnostikuese për përdoruesit lidhur me procesin e ekzekutimit të detyrës dhe lejon përdoruesin përfundimtar të menaxhojë ekzekutimin e detyrave me dorë. Vini re se një grafik aciklik i drejtuar përdoret vetëm për të vendosur kontekstin e ekzekutimit dhe për të organizuar detyra. Në rrjedhën e ajrit, detyrat janë elementet thelbësore që drejtojnë një skriptim scraping. Në scraping, detyrat përbëhen nga dy aromat që përfshijnë:

  • operator

Në disa raste, detyrat funksionojnë si operatorë ku kryejnë operacione siç përcaktohet nga përdoruesit fundorë. Operatorët janë krijuar për të ekzekutuar skriptin skrapues dhe funksione të tjera që mund të kryhen në gjuhën e programimit Python.

  • sensor

Detyrat janë zhvilluar gjithashtu për të punuar si sensorë. Në një rast të tillë, ekzekutimi i detyrave që varen nga njëri-tjetri mund të ndalet derisa të plotësohet një kriter ku një rrjedhë pune funksionon pa probleme.

Rrjedha e ajrit përdoret në fusha të ndryshme për të ekzekutuar një skriptim scraping. Më poshtë është një udhëzues se si të përdorni Rrjedhin e ajrit.

  • Hapni shfletuesin tuaj dhe kontrolloni ndërfaqen tuaj të përdoruesit
  • Kontrolloni rrjedhën e punës që dështoi dhe klikoni mbi të për të parë detyrat që shkuan keq
  • Klikoni në "Shikoni regjistrin" për të parë shkakun e dështimit. Në shumë raste, dështimi i vërtetimit të fjalëkalimit shkakton dështimin e rrjedhës së punës
  • Shkoni në seksionin e administratorit dhe klikoni në "Lidhjet". Ndryshoni lidhjen Postgres për të marrë fjalëkalimin e ri dhe klikoni "Ruaj".
  • Ri-vizitoni shfletuesin tuaj dhe klikoni në detyrën që dështoi. Klikoni në detyrë dhe trokitni lehtë mbi "Pastro" në mënyrë që detyra të kryhet me sukses herën tjetër.

Programuesit e tjerë të Python për të marrë në konsideratë

cron

Cron është një sistem unik i bazuar në Unix i përdorur për të ekzekutuar skriptet e skriptimit në mënyrë periodike në intervale, data dhe kohë fikse. Kjo bibliotekë përdoret më së shumti për të mirëmbajtur dhe vendosur mjedise softuerësh.

Luigi

Luigi është një modul i Python që do t'ju lejojë të trajtoni vizualizimin dhe zgjidhjen e varësisë. Luigi përdoret për krijimin e tubacioneve komplekse të mbledhjes së vendeve të punës.

Rrjedha e ajrit është një bibliotekë e planifikuesve për Python e përdorur për të trajtuar projektet e menaxhimit të varësisë. Në rrjedhën e ajrit, detyrat e drejtimit varen nga njëri-tjetri. Për të marrë rezultate të qëndrueshme, mund të vendosni skriptin tuaj të Rrjedha e ajrit të funksionojë automatikisht pas çdo ore ose dy.