PHP Tutorial | Webseiten crawlen OHNE Simple HTML DOM Parser?



Im diesem PHP Tutorial zeige ich dir wie du mit den Klassen PHPDOMXpath und PHPDOMDocument die Webseite parsed um die MP3 für den letzten Podcast herunterzuladen.

Weiteres Video:
Überraschungslink:
*** Links zum Video ***
Code zum Video:
Green Secure GmbH Podcast:
Xpath Dokumentation:
DOMXpath Klasse:

Weitere Themenvorschläge und/oder Kooperationen in die Kommentare.

#PHP #Websitecralwer #DOMXPath

*** Keywords ***
Vitalij Mik, PHP, PHP Tutorials, PHP Tipps,PHP Deutsch,PHP Lernen, Webentwicklung, Softewareentwicklung, Webdeveloper, PHP Developer, Xpath, phpsimplehtmldomparser, Simple HTML Dom Parser, Webseite crawlen, Web scraping, PHP7, file_get_contents, fopen, mp3 downloaden mit PHP, Daten einer webseite herunterladen

Nguồn: https://svdpch.org/

Xem thêm bài viết khác: https://svdpch.org/cong-nghe/

7 thoughts on “PHP Tutorial | Webseiten crawlen OHNE Simple HTML DOM Parser?”

  1. 3:47 Grad bei solchen Podcast-Sachen böte sich serverseitig auch ein RSS-Feed an. Manchmal gibt's auch einen, der aber auf der regulären Webseite nicht richtig beworben/verlinkt wird, von daher kann sich lohnen, auch mal etwas genauer nachzusehen, ob im HTML-Head etwas zu finden ist, oder per Content-Type oder well-known, oder .rss-Dateierweiterung, oder per Suche in Feed-Aggregatoren oder Podcast-Plattformen.

    5:38 Selbst das ist leider nicht immer der HTTP-Body, so fällt gerne auch mal die XML-Deklaration weg usw. Wenn man die Datei abspeichert/herunterlädt und ein paar kleine Änderungen vornimmt (vermutlich Dateierweiterung auf .xml ändern, XML-Deklaration hinzufügen wenn noch nicht vorhanden, DTD-Markup-Deklaration, XML-Namespace und im Header der http-equiv content-type sind Kandidaten), kann man im Browser auch das reine XML-Rendering triggern, wo man dann den bekannten Baum bekommt und sozusagen mit Bordmitteln die Zweige auf- und zuklappen kann, um die Verschachtelung der Elemente ablesen und einen XPath ableiten zu können. Zu viel Aufwand bei einfacher Quelle, aber eine Möglichkeit, wo nötig.

    10:45 OK, das macht Sinn, die Quelle direkt ins Ziel zu streamen, und dem file_put_contents() den "Cursor" zum pullen zu überlassen, aber je nach Menge/Größe, wie gehst du mit PHP-Scriptausführungs-Timeouts um? Ist das lokal die php.exe ohne Server, oder einfach ein hohes Timeout, oder ich habe in solchen Situationen dann auch mal mit AJAX Ping-Pong gespielt mit einer Schedule-Liste von einzelnen kleineren Aufgaben auf der Server-Seite, oder gibt's da etwas noch besseres?

    Generell mache ich mehr SAX/StAX, damit nicht wie bei DOM alles in den Speicher geladen werden muss, wenn die Quelle größer ist, aber DOM geht für einfache und kleine Sachen sicher besser von der Hand, zumal die Quelle ja genügend stabil sein müsste, da es kein XPath gibt und man doch lieber einfach nur einen XPath-Ausdruck aktualisiert, als manuellen Code für SAX/StAX. Aber wenn jemand solche APIs wie DOM, SimpleXML, SAX, StAX usw. braucht für XML, JSON, CSV oder sonstwas, das lässt sich relativ leicht in diverse Programmiersprachen portieren.

    Reply
  2. Wow super Kanal ! Du hast mehr Aufrufe als Abonnenten. Ich schätze deine Watchtime ist auch gut. Aber du bräuchtest mehr Kommentare . Mach doch Call to Actions.

    Dein 👨‍🎓👍

    Reply
  3. Moin, cooles Video. Weiter so. Habe dich abonniert, wäre cool wenn du dafür den Kanal "Scarletti" abonnieren würdest. Danke

    Reply

Leave a Comment