HTML-zu-Markdown-Scraping-Workflow

HTML-zu-Markdown-Scraping-Workflow

HTML-zu-Markdown-Scraping-Workflow

Manuell gestarteter Workflow, der HTML-Inhalte von einer URL abruft und in sauberes Markdown umwandelt.

  • de
  • n8n, Docker, Linux Ubuntu
  • n8n

Dieser Workflow stellt eine einfache Hilfspipeline zur Umwandlung von HTML-Webinhalten in strukturiertes Markdown bereit. Er wird manuell ausgelöst und eignet sich vor allem für Tests, einmalige Scraping-Aufgaben oder gezielte Content-Transformationen.

Nach dem Start sendet der Workflow eine HTTP-GET-Anfrage an eine definierte URL und ruft den vollständigen HTML-Inhalt der Seite ab. Die Antwort wird anschließend an einen Markdown-Konverter weitergeleitet, der das HTML in ein gut lesbares Markdown-Format überführt und dabei die grundlegende Dokumentstruktur erhält.

Das erzeugte Markdown kann für Dokumentation, Notizen, Wissensdatenbanken oder als Vorbereitung für weitere Workflows – beispielsweise RAG-Ingestionspipelines – genutzt werden. Der Workflow ist bewusst schlank gehalten und verzichtet auf Persistenz, Anreicherung oder zusätzliche Verarbeitungsschritte.

Er eignet sich besonders für Situationen, in denen Webinhalte schnell, reproduzierbar und in textbasierter Form benötigt werden.