Semalt - Jak seškrábat webové stránky?

Krásná polévka je knihovna Python, která se široce používá ke škrábání webových stránek vytvořením stromu analýzy z dokumentů XML a HTML. V oblasti analýzy a správy dat se široce používá technika webového škrabání, technika získávání dat z webových stránek a stránek. Ve většině případů je programovací jazyk Python předpokladem ve vědě o datech.

Python 3 obsahuje nástroje a moduly, které můžete použít v projektu správy dat. V současné době je tento modul kompatibilní s Pythonem 3 a Pythonem 2.7. Krásný modul Soup 4 je také schopen vytvořit strom analýzy pro neuzavřenou polévku se značkami. V tomto tutoriálu se naučíte, jak seškrabat stránku a zapsat seškrabaná data do souboru CSV.

Začínáme

Chcete-li začít, nastavte v počítači serverové nebo lokální kódovací prostředí Python. Také byste měli nainstalovat modul Krásná polévka a požadavky na stroj. Nezbytným předpokladem je také znalost práce s oběma moduly. Další výhodou je seznámení s HTML značením a strukturou.

Porozumění vašim datům

V této souvislosti budou použita skutečná data z Národní galerie umění, která vám pomohou pochopit, jak používat Krásná polévka 4. Národní galerie umění se skládá ze 120 000 kusů, které vyrobilo přibližně 13 000 umělců. Umění sídlí ve Washingtonu ve Spojených státech.

Extrakce webových dat pomocí aplikace Beautiful Soup není tak složitá. Pokud například zaostříte na písmeno Z, označte a poznamenejte si jméno v seznamu. V tomto případě je křestní jméno Zabaglia, Niccola. Kvůli konzistenci uveďte počet stránek a jméno posledního interpreta na dané stránce.

Jak importovat knihovnu požadavků a krásné polévky

Chcete-li importovat knihovny, aktivujte své programovací prostředí Python 3. Zkontrolujte, zda jste ve stejném adresáři s programovacím prostředím. Spusťte následující příkaz, abyste mohli začít. my_env / bin / aktivovat.

Vytvořte nový soubor a začněte importovat knihovny Beautiful Soup and Requests. Knihovna požadavků vám umožní používat HTTP v rámci vašich Pythonových programů ve čitelných formátech. Krásná polévka, na druhé straně, pracuje na rychle seškrábat stránky. Použijte bs4 k importu krásné polévky.

Jak sbírat a analyzovat webovou stránku

Pomocí požadavků shromažďujte adresu URL své první stránky. URL proměnné bude přiřazena adresa URL první stránky. Sestavte objekt BeautifulSoup z požadavků a analyzujte objekt z analyzátoru Pythonu.

V tomto tutoriálu je cílem shromažďovat odkazy a jména umělců. Můžete například shromažďovat data umělců a národnosti. Pro uživatele Windows klikněte pravým tlačítkem na jméno umělce. V tomto případě použijte Zabaglia, Niccola. Uživatelé Mac OS klepněte na „CTRL“ a klikněte na název. Kliknutím na nabídku „Inspect Element“ (Zkontrolovat prvek), která se objeví na obrazovce, získáte přístup k nástrojům pro vývojáře webu. Vytiskněte si jména umělce, aby se krásná polévka rychle rozpadla na strom.

Odstranění spodních odkazů

Chcete-li odstranit spodní odkazy na své webové stránce, zkontrolujte DOM kliknutím pravým tlačítkem myši na prvek. Zjistíte, že odkazy jsou pod tabulkou HTML. Pomocí krásné polévky použijte metodu rozkladu k odstranění značek ze stromu analýzy.

Jak vytáhnout obsah ze značky

Nemusíte tisknout celou značku odkazu, pomocí krásné polévky odeberte materiál ze značky. Můžete také zachytit adresy URL přidružené k umělcům pomocí krásné polévky 4.

Zachycení seškrábaných dat do souboru CSV

Soubor CSV vám umožní ukládat strukturovaná data v prostém textu, což je formát, který se většinou používá pro datové listy. Doporučujeme znalosti o práci se soubory prostého textu v Pythonu.

Extrakce webových dat se používá k seškrabávání stránek a získávání informací. Buďte ohleduplní k webovým stránkám, z nichž získáváte informace. Některé dynamické weby omezují extrakci webových dat na svých stránkách. Vyškrábat stránku pomocí Beautiful Soup a Python 3 je tak jednoduché.