Mastodawn

Es melden sich immer mehr Blogs bei https://read.greatblogs.org/ an. Auch Foodblogs. Jetzt sind @kuechenlatein und ich da nicht mehr ganz so allein. 😅

#foodblog #blog #GreatBlogs

Read Great Blogs - Tolle Artikel aus der Blogosphäre finden

Durchstöbere alle gelisteten Blogs und finde tolle Artikel

Dev Tyr 3d ago

GreatBlogs - ein Webcrawler entsteht

https://norberteder.com/greatblogs-ein-webcrawler-entsteht/

#greatblogs #webcrawler #golang

GreatBlogs - Ein Webcrawler entsteht - Norbert Eder

Im letzten Beitrag zu GreatBlogs ging es um die Resourcen-Optimierung der bereits bestehenden Software. Nachdem ein erster Nutzen des Projektes vorhanden ist, geht es ans Eingemachte. Um das eigentliche Suchthema. Dazu braucht es mehrere Dinge, eines davon ist ein Webcrawler, der nach Inhalten sucht. Grundlegende Idee Die Idee des Webcrawler ist, von einem Startpunkt ausgehend, … „GreatBlogs – Ein Webcrawler entsteht“ weiterlesen

Norbert Eder

Norbert Eder 3d ago

GreatBlogs – Ein Webcrawler entsteht

Grundlegende Idee

Die Idee des Webcrawler ist, von einem Startpunkt ausgehend, neue Seiten bzw. Aktualisierungen zu finden. Diese wandern in einen Index und werden in weiterer Folge von einem anderen Prozess thematisch kategorisiert und mit einer Relevanz versehen.

Erste Iterationen und Learnings

Theoretisch ist ein Webcrawler eine einfache Sache. Aber wie immer in der Softwareentwicklung trifft Theorie auf Praxis und es gibt Themen, die unerwartet sind, aber auch solche, die bewusst auf später verschoben werden.

Ich wählte einen iterativen Ansatz mit dem Ziel, einen einfachen Crawler funktional zu haben und diesen in weiterer Folge kontinuierlich zu optimieren und um neue Features anzureichern.

Webcrawler v0.1.0

Wie auch das bisherige Backend, ist der Webcrawler mit Go geschrieben. Er gibt sich als gbbot zu erkennen. Ausgehend von einer Startdomain wird diese durchsucht und sowohl die einzelnen Seiten dieser Domain, als auch weitere Domains persistiert.

Im nächsten Schritt werden die neu gefundenen Domains durchsucht – nach demselben Verfahren.

Mit net/http und net/url bring Go alles mit, was man braucht.

Webcrawler v0.2.0

Bereits nach dem dritten Durchlauf gab es eine Unmenge an Domains, die natürlich mit dem Thema Blogs nichts mehr zu tun hat. Im Grunde finden sich alle Social Media-Plattformen und großen Tech-Buden in der Liste. Es muss also doch eine manuelle Freischaltung her.

Es werden zwar weiterhin alle gefundenen Domains gespeichert, allerdings müssen die zu crawlenden Domains manuell aktiviert werden. Das ist zwar aktuell Handarbeit, aber ohne eindeutige Erkennung, dass es sich hierbei um ein Blog handelt, gibt es keine andere Möglichkeit.

Der bisherige Nachteil: Das Parsen und Verfolgen ist nicht ganz billig.

Webcrawler v0.3.0

Um den gesamten Parsing-Prozess zu verbessern, wird nun zu Beginn überprüft, ob es eine sitemap.xml gibt. Wenn ja, wird diese herangezogen. Sitemap-Index-Dateien werden genauso unterstützt, wie Standard-Sitemap-Dateien.

In diesem Fall werden nur diese Seiten evaluiert und lediglich neue gefundene Domains mitgeschrieben, aber keinen weiteren Links gefolgt.

Das ist in Summe wesentlich performanter bzw. speichereffizienter, als sich alle gecrawlten Seiten zu merken und beim Durchsuchen des Trees zu prüfen, ob der gefundene Link bereits überprüft wurde.

Für die Arbeit mit den Sitemap-Dateien setze ich auf gopher-parse-sitemap. Die Lib ist schon älter, aber die Abhängigkeiten sind überschaubar und am Sitemap-Standard hat sich nichts weiter geändert, also kein Problem.

Learnings

Defensives Programmieren und so, ihr kennt das.

Aber das, was der Crawler da so findet, ist teilweise schon sehr grenzwertig. Auf jeden Fall muss er mit zahlreichen “Edge-Cases” umgehen können:

Veraltete Links in Form von HTTP statt HTTPS
Client-Links
Malformed Links
Dead-Links
Nicht mehr existierende Domains

Und da gibt es noch weitere Fälle. Manchmal würde ich tatsächlich gerne einige Domaininhaber*innen anschreiben und ihnen einen Liste von unsinnigen Links mitteilen – aber das ist eine völlig andere Geschichte.

Weitere Verbesserungen

Natürlich gibt es noch viel zu tun, denn der Webcrawler ist bei weitem noch nicht optimal. Das sind die Themen, die als nächstes anstehen.

Berücksichtigung robots.txt
Einschränkung Sprache (vorerst Deutsch)
Berücksichtigung /slashes

Danach wird es in Richtung “Themen-Erkennung” der Beiträge gehen.

Bei Interesse also bitte gerne bei GreatBlogs vorbeischauen.

#golang #GreatBlogs #Webcrawler

GreatBlogs - Ressourcen-Optimierung, RSS und Co. - Norbert Eder

In GreatBlogs – Technik-Umschwung am Frontend habe ich schon Änderungen an der Technologie-Auswahl angekündigt. Ein Teil dessen wurde mittlerweile auch umgesetzt. Schauen wir uns die Änderungen im Detail an. Feed-Generierung Der Beitrags-Feed wurde im ersten Schritt mit Vue.js realisiert. Das ist nett, aber im Grunde ergibt das dann doch bei jedem Aufrung eine Query gegen … „GreatBlogs – Ressourcen-Optimierung, RSS und Co.“ weiterlesen

Norbert Eder

Dev Tyr 4d ago

Während ich an #GreatBlogs arbeite, rippe ich gerade meine alten CDs - und erhöhe von MP3 auf FLAC.

#musik #mp3 #flac

MadameAurelia May 31

Kennt ihr schon?
#GreatBlogs #AllesAndere #kurzgesagt
https://wenigreichtauch.de/blogs-finden-und-verbinden/

Blogs finden und verbinden – wenig reicht auch

Norbert hat da ein tolles Projekt angeschoben. Vielleicht ist es auch für euch interessant. GreatBlogs Search Engine Schaut es euch mal an. Aurelia

C0d1 Online May 28

GreatBlogs Update5 – Prototyp für Suche

Eine Websuche besteht aus mehreren Bestandteilen. Einer davon ist ein WebCrawler, der nach neuen Beiträgen und Aktualisierungen sucht. Hierfür habe ich bereits einen Prototypen vorliegen und möchte einige Erkenntnisse und weitere Schritte dokumentieren. […]

https://c0d1.eu/greatblogs-update5-prototyp-fuer-suche/

Norbert Eder May 22

GreatBlogs – Ressourcen-Optimierung, RSS und Co.

Feed-Generierung

Der Beitrags-Feed wurde im ersten Schritt mit Vue.js realisiert. Das ist nett, aber im Grunde ergibt das dann doch bei jedem Aufrung eine Query gegen die Datenbank. Nun ist es nicht so relevant, auf Sekundenbasis neue Beiträge tatsächlich auch zu listen. Die Entscheidung, den Feed-Reader zu generieren und statisch auszuliefern, war daher sehr einfach.

Go bietet eine Templating-Engine an, die für diese Zwecke perfekt ist. Also habe ich Templates und Styles entworfen und per Go hole ich die relevanten Daten, jage sie durch die Templating-Engine und fertig ist das Ergebnis.

Da ohnehin alle 30 Minuten per Cronjob die registrierten Feeds aktualisiert wird, wird im Zuge dessen auch die Feed-Seite im Anschluss neu generiert.

Blogger Auflistung

In dieselbe Kerbe schlägt die neue Blogger-Auflistung. Diese zeigt alle registrierten Blogs an. Da sich diese noch seltener ändert, reicht eine Aktualisierung einmal am Tag. Auch dies wird über einen Cronjob durchgeführt.

RSS-Feeds

Wie im Screenshot oben zu sehen ist, werden mittlerweile auch RSS-Feeds angeboten. Hierfür gibt es eine praktische Go-Bibliothek: Gorilla Feeds.

Mit dieser Bibliothek können Atam bzw. RSS 2.0 Feeds sehr einfach erzeugt werden. Die Einbindung von Feeds ist damit ein Kinderspiel.

Hilfsmittel

Es gibt ja neben der technischen Aspekte weitere Themen zu bedienen: Usability, Accessability, Performance und natürlich auch IT-Themen. Das Einrichten und Konfigurieren von Cronjobs oder des Webservers zum Beispiel. Hier ein paar Links zu hilfreichen Webseiten:

Crontab Guru (Unterstützung für Crontab-Konfigurationen)
PageSpeed Insights (Website Performance, Usability, Optimierung)
nginx Dokumentation

#golang #GreatBlogs #RSS #templating

GreatBlogs - Technik-Umschwung am Frontend - Norbert Eder

Es tut sich was bei GreatBlogs. Ich hatte ja im Beitrag GreatBlogs – Projekt und Technik geschrieben, dass ich großteils einen neuen Dev-Stack einsetze. Wie das dann so ist, kann sich sehr schnell etwas daran ändern und das wird es auch. Den Grund und noch weitere Themen gibt es in diesem Beitrag. Statische Seiten brauchen … „GreatBlogs – Technik-Umschwung am Frontend“ weiterlesen

Norbert Eder

C0d1 Online May 22

GreatBlogs Update4 – RSS Feeds, Blogauflistung

Die vergangenen Abende waren wieder gut gefüllt. Einige Arbeiten an GreatBlogs wollten durchgeführt werden. Was ist denn nun alles neu? […]

https://c0d1.eu/greatblogs-update4-rss-feeds-blogauflistung/

GreatBlogs Update4 - RSS Feeds, Blogauflistung

Die vergangenen Abende waren wieder gut gefüllt. Einige Arbeiten an GreatBlogs wollten durchgeführt werden. Was ist denn nun alles neu? Update Einstiegsseite Nichts Großes, aber die allgemeine Einstiegsseite hat eine Anpassung erhalten: RSS/Atom-Feeds Read Great Blogs bietet nun

C0d1 Online

C0d1 Online May 20

Beschäftigt sich die Blogosphäre zu sehr mit sich selbst?

Erik von Blogissimo stellte sich die Frage Beschäftigt sich die Blogosphäre zu viel mit sich selbst. Eine gute und wichtige Frage. Er beantwortet sie mit Ja. Da ich auch direkt angesprochen wurde, möchte ich nun auch - nach ein paar Tagen des Reflektierens - meinen Senf dazu geben. […]

https://c0d1.eu/beschaeftigt-sich-die-blogosphaere-zu-sehr-mit-sich-selbst/

Beschäftigt sich die Blogosphäre zu sehr mit sich selbst?

C0d1 Online

C0d1 Online May 16

GreatBlogs Update3 – Neue Feedanzeige im Test

Es tut sich etwas. Der in Update1 eingeführte Feed wurde durch einen neuen ersetzt. […]

https://c0d1.eu/greatblogs-update3-neue-feedanzeige-im-test/

GreatBlogs Update3 - Neue Feedanzeige im Test

Es tut sich etwas. Der in Update1 eingeführte Feed wurde durch einen neuen ersetzt. Unter read.greatblogs.org findest du den neuen Feed aller beteiligten Blogs. Vorerst werden nur Beiträge der vergangenen 24 Stunden angezeigt. Das wird sich aber sehr bald ändern und es werden mehr angezeigt.

C0d1 Online