Gibt es noch ähnliche, vielleicht internationaler ausgerichtete Projekte dieser Art.
#uberblogr #greatblogs #blogging #bloggingcommunity
Webrings und Blogindexe – Internet wie aus einer besseren Zeit
https://blog.sengotta.net/webrings-und-blogindexe-internet-wie-aus-einer-besseren-zeit/
Als ich letztens meinen Blog umgestyled und die Activity Pub Integration richtig eingerichtet hatte bin ich mehr durch Zufall auf zwei sehr bemerkenswerte Projekte gestoßen. Das eine Projekt ist UberBlogr, ein sogenannter Webring, das andere Greatblogs was so etwas wie einen kuratierten Blog Index darstellt.
Beide Projekte sind mir sehr sympathisch weil Sie meiner Meinung nach eine Version des Internets repräsentieren die besser war als das was wir heute haben. Denn seien wir ganz ehrlich: heutzutage ist das Internet nur noch selten ein Ort an dem man gerne verweilt. Dominiert wird das heutige Web von den riesigen Plattformen gewinnorientierter Unternehmen die oftmals als Echokammer des Hasses und der Diskriminierung dienen. Wertvollen Content findet man dort meiner Meinung nach nur noch selten. Auch die Creator die dort unterwegs sind tun das vorrangig für die Klicks, die paar Minuten Ruhm, oder ganz simpel für das Geld. Nicht vergessen zu liken und zu abonnieren sage ich da nur.
Vor 10-15 Jahren war das noch ein wenig anders. Viele Leute unterhielten einen Blog, viele suchten Communities in Foren. Gibt es das heute alles nicht mehr? Doch das alles gibt es auch heute noch, auch wenn Foren es heutzutage echt schwer haben, nicht zuletzt aufgrund von rechtlichen Bestimmungen. Was ich in den letzten Tagen gemerkt habe ist das diese Form des nichtkommerziellen Web’s, des Indiewebs wenn man so will, einfach nur schwer zu finden ist.
Denn in Suchmaschinen taucht dieser Content selten auf den ersten Seiten auf, wonach will man auch suchen? Es geht ja eher um Insperation. Oft entdecke ich neue interessante Blogs einfach durch Zufall. Zum Beispiel beim Surfen durch das Fediverse, oder durch Projekte wie UberBlogr und Greatblogs.
Wie bereits erwähnt ist UberBlogr ein Webring Dienst. Ein Begriff mit dem ich bis letzte Woche nicht viel Anfangen konnte da dieses Konzept schon seinen Niedergang erlebte als ich gerade mal im Internet ankam. Es wurde von den Suchmaschinen verdrängt. Im Endeffekt kann man es sich wie eine Kreisförmige Verlinkung der Webring Sites untereinander vorstellen. Mittels Hyperlink kann man sich durch die Webring vor und zurück bewegen. Ihr findet diese Links auch auf meinem Blog wenn Ihr in den Footer schaut. Die Blogs senden neue Inhalte per Ping an den Dienst der die neuesten Beiträge dann via RSS Feed oder Mastodon Bot ausspielt. Abonniert man diesen Feed sieht man gleich wenn im Webring was neues passiert.
Greatblogs ist eher wie ein Index in welchem man seinen Blog anmelden kann und welcher dann nach Prüfung hoffentlich freigeschaltet wird. Auch diese Website listet dann neuen Beiträge auf. Hier werden die Blogs auch gleiche thematisch eingeteilt und man kann auch einzelne Kategorien als RSS Feed abonnieren.
Ich habe in den letzten Tagen über diese beiden Projekte viele neue interessante Blogs gefunden und ich bin echt froh das es diese Art des Internets überhaupt noch gibt. Privatpersonen die über das schreiben was Sie interessiert,was Sie beschäftigt. Seiten die ohne tonnenweise Werbung auskommen, die einen nicht tracken als gäbe es kein Morgen mehr, weil es auch nicht nötig ist. Weil der Author halt die 5€ im Monat für das Webhosting oder den VPS in die Hand nimmt und keine Gewinnabsichten hat.
Ich hoffe das es in der Zukunft noch mehr von diesem Content gibt und das die Projekte wachsen. Ich weiß auf jeden Fall das ich auch versuchen werde das Konzept des bloggens (und die technischen Hintergründe) meinen Kindern weiterzugeben, auf das Sie nicht nur konsumierende Zombies werden.
#blog #blogging #fediverse #greatblogs #indieweb #uberblogr #web10
GreatBlogs Update6 – Neue Kategorien, Fixes und ein kurzer Status
Es wird mal wieder Zeit für aktuelle Infos über mein Projekt GreatBlogs. Heute gab es ein kleines Update und natürlich passiert auch etwas im Hintergrund.
[…]
https://c0d1.eu/greatblogs-update6-neue-kategorien-fixes-und-ein-kurzer-status/
GreatBlogs – Ein Webcrawler entsteht
Im letzten Beitrag zu GreatBlogs ging es um die Resourcen-Optimierung der bereits bestehenden Software. Nachdem ein erster Nutzen des Projektes vorhanden ist, geht es ans Eingemachte. Um das eigentliche Suchthema. Dazu braucht es mehrere Dinge, eines davon ist ein Webcrawler, der nach Inhalten sucht.
Grundlegende Idee
Die Idee des Webcrawler ist, von einem Startpunkt ausgehend, neue Seiten bzw. Aktualisierungen zu finden. Diese wandern in einen Index und werden in weiterer Folge von einem anderen Prozess thematisch kategorisiert und mit einer Relevanz versehen.
Erste Iterationen und Learnings
Theoretisch ist ein Webcrawler eine einfache Sache. Aber wie immer in der Softwareentwicklung trifft Theorie auf Praxis und es gibt Themen, die unerwartet sind, aber auch solche, die bewusst auf später verschoben werden.
Ich wählte einen iterativen Ansatz mit dem Ziel, einen einfachen Crawler funktional zu haben und diesen in weiterer Folge kontinuierlich zu optimieren und um neue Features anzureichern.
Webcrawler v0.1.0
Wie auch das bisherige Backend, ist der Webcrawler mit Go geschrieben. Er gibt sich als gbbot zu erkennen. Ausgehend von einer Startdomain wird diese durchsucht und sowohl die einzelnen Seiten dieser Domain, als auch weitere Domains persistiert.
Im nächsten Schritt werden die neu gefundenen Domains durchsucht – nach demselben Verfahren.
Mit net/http und net/url bring Go alles mit, was man braucht.
Webcrawler v0.2.0
Bereits nach dem dritten Durchlauf gab es eine Unmenge an Domains, die natürlich mit dem Thema Blogs nichts mehr zu tun hat. Im Grunde finden sich alle Social Media-Plattformen und großen Tech-Buden in der Liste. Es muss also doch eine manuelle Freischaltung her.
Es werden zwar weiterhin alle gefundenen Domains gespeichert, allerdings müssen die zu crawlenden Domains manuell aktiviert werden. Das ist zwar aktuell Handarbeit, aber ohne eindeutige Erkennung, dass es sich hierbei um ein Blog handelt, gibt es keine andere Möglichkeit.
Der bisherige Nachteil: Das Parsen und Verfolgen ist nicht ganz billig.
Webcrawler v0.3.0
Um den gesamten Parsing-Prozess zu verbessern, wird nun zu Beginn überprüft, ob es eine sitemap.xml gibt. Wenn ja, wird diese herangezogen. Sitemap-Index-Dateien werden genauso unterstützt, wie Standard-Sitemap-Dateien.
In diesem Fall werden nur diese Seiten evaluiert und lediglich neue gefundene Domains mitgeschrieben, aber keinen weiteren Links gefolgt.
Das ist in Summe wesentlich performanter bzw. speichereffizienter, als sich alle gecrawlten Seiten zu merken und beim Durchsuchen des Trees zu prüfen, ob der gefundene Link bereits überprüft wurde.
Für die Arbeit mit den Sitemap-Dateien setze ich auf gopher-parse-sitemap. Die Lib ist schon älter, aber die Abhängigkeiten sind überschaubar und am Sitemap-Standard hat sich nichts weiter geändert, also kein Problem.
Learnings
Defensives Programmieren und so, ihr kennt das.
Aber das, was der Crawler da so findet, ist teilweise schon sehr grenzwertig. Auf jeden Fall muss er mit zahlreichen “Edge-Cases” umgehen können:
Und da gibt es noch weitere Fälle. Manchmal würde ich tatsächlich gerne einige Domaininhaber*innen anschreiben und ihnen einen Liste von unsinnigen Links mitteilen – aber das ist eine völlig andere Geschichte.
Weitere Verbesserungen
Natürlich gibt es noch viel zu tun, denn der Webcrawler ist bei weitem noch nicht optimal. Das sind die Themen, die als nächstes anstehen.
Danach wird es in Richtung “Themen-Erkennung” der Beiträge gehen.
Bei Interesse also bitte gerne bei GreatBlogs vorbeischauen.
In GreatBlogs – Technik-Umschwung am Frontend habe ich schon Änderungen an der Technologie-Auswahl angekündigt. Ein Teil dessen wurde mittlerweile auch umgesetzt. Schauen wir uns die Änderungen im Detail an. Feed-Generierung Der Beitrags-Feed wurde im ersten Schritt mit Vue.js realisiert. Das ist nett, aber im Grunde ergibt das dann doch bei jedem Aufrung eine Query gegen … „GreatBlogs – Ressourcen-Optimierung, RSS und Co.“ weiterlesen
GreatBlogs Update5 – Prototyp für Suche
Eine Websuche besteht aus mehreren Bestandteilen. Einer davon ist ein WebCrawler, der nach neuen Beiträgen und Aktualisierungen sucht. Hierfür habe ich bereits einen Prototypen vorliegen und möchte einige Erkenntnisse und weitere Schritte dokumentieren. […]GreatBlogs – Ressourcen-Optimierung, RSS und Co.
In GreatBlogs – Technik-Umschwung am Frontend habe ich schon Änderungen an der Technologie-Auswahl angekündigt. Ein Teil dessen wurde mittlerweile auch umgesetzt. Schauen wir uns die Änderungen im Detail an.
Feed-Generierung
Der Beitrags-Feed wurde im ersten Schritt mit Vue.js realisiert. Das ist nett, aber im Grunde ergibt das dann doch bei jedem Aufrung eine Query gegen die Datenbank. Nun ist es nicht so relevant, auf Sekundenbasis neue Beiträge tatsächlich auch zu listen. Die Entscheidung, den Feed-Reader zu generieren und statisch auszuliefern, war daher sehr einfach.
Go bietet eine Templating-Engine an, die für diese Zwecke perfekt ist. Also habe ich Templates und Styles entworfen und per Go hole ich die relevanten Daten, jage sie durch die Templating-Engine und fertig ist das Ergebnis.
Da ohnehin alle 30 Minuten per Cronjob die registrierten Feeds aktualisiert wird, wird im Zuge dessen auch die Feed-Seite im Anschluss neu generiert.
Blogger Auflistung
In dieselbe Kerbe schlägt die neue Blogger-Auflistung. Diese zeigt alle registrierten Blogs an. Da sich diese noch seltener ändert, reicht eine Aktualisierung einmal am Tag. Auch dies wird über einen Cronjob durchgeführt.
RSS-Feeds
Wie im Screenshot oben zu sehen ist, werden mittlerweile auch RSS-Feeds angeboten. Hierfür gibt es eine praktische Go-Bibliothek: Gorilla Feeds.
Mit dieser Bibliothek können Atam bzw. RSS 2.0 Feeds sehr einfach erzeugt werden. Die Einbindung von Feeds ist damit ein Kinderspiel.
Hilfsmittel
Es gibt ja neben der technischen Aspekte weitere Themen zu bedienen: Usability, Accessability, Performance und natürlich auch IT-Themen. Das Einrichten und Konfigurieren von Cronjobs oder des Webservers zum Beispiel. Hier ein paar Links zu hilfreichen Webseiten:
Es tut sich was bei GreatBlogs. Ich hatte ja im Beitrag GreatBlogs – Projekt und Technik geschrieben, dass ich großteils einen neuen Dev-Stack einsetze. Wie das dann so ist, kann sich sehr schnell etwas daran ändern und das wird es auch. Den Grund und noch weitere Themen gibt es in diesem Beitrag. Statische Seiten brauchen … „GreatBlogs – Technik-Umschwung am Frontend“ weiterlesen
GreatBlogs Update4 – RSS Feeds, Blogauflistung
Die vergangenen Abende waren wieder gut gefüllt. Einige Arbeiten an GreatBlogs wollten durchgeführt werden. Was ist denn nun alles neu? […]https://c0d1.eu/greatblogs-update4-rss-feeds-blogauflistung/
Die vergangenen Abende waren wieder gut gefüllt. Einige Arbeiten an GreatBlogs wollten durchgeführt werden. Was ist denn nun alles neu? Update Einstiegsseite Nichts Großes, aber die allgemeine Einstiegsseite hat eine Anpassung erhalten: RSS/Atom-Feeds Read Great Blogs bietet nun
Beschäftigt sich die Blogosphäre zu sehr mit sich selbst?
Erik von Blogissimo stellte sich die Frage Beschäftigt sich die Blogosphäre zu viel mit sich selbst. Eine gute und wichtige Frage. Er beantwortet sie mit Ja. Da ich auch direkt angesprochen wurde, möchte ich nun auch - nach ein paar Tagen des Reflektierens - meinen Senf dazu geben. […]https://c0d1.eu/beschaeftigt-sich-die-blogosphaere-zu-sehr-mit-sich-selbst/
Erik von Blogissimo stellte sich die Frage Beschäftigt sich die Blogosphäre zu viel mit sich selbst. Eine gute und wichtige Frage. Er beantwortet sie mit Ja. Da ich auch direkt angesprochen wurde, möchte ich nun auch - nach ein paar Tagen des Reflektierens - meinen Senf dazu geben. Eriks Basi
GreatBlogs Update3 – Neue Feedanzeige im Test
Es tut sich etwas. Der in Update1 eingeführte Feed wurde durch einen neuen ersetzt. […]https://c0d1.eu/greatblogs-update3-neue-feedanzeige-im-test/
Es tut sich etwas. Der in Update1 eingeführte Feed wurde durch einen neuen ersetzt. Unter read.greatblogs.org findest du den neuen Feed aller beteiligten Blogs. Vorerst werden nur Beiträge der vergangenen 24 Stunden angezeigt. Das wird sich aber sehr bald ändern und es werden mehr angezeigt.
GreatBlogs Update2 – Registrierung kaputt – Registrierung wieder OK
So, da hab ich mir gestern also ein feines Eigentor geschossen. Beim gestrigen Feed-Update hatte ich leider ganz zum Schluss eine weitere kleine Änderung gemacht, welche die Registrierung beeinträchtigt hat. […]https://c0d1.eu/greatblogs-update2-registrierung-kaputt-registrierung-wieder-ok/
So, da hab ich mir gestern also ein feines Eigentor geschossen. Beim gestrigen Feed-Update hatte ich leider ganz zum Schluss eine weitere kleine Änderung gemacht, welche die Registrierung beeinträchtigt hat. Leider haben natürlich alle eine OK-Meldung erhalten, obwohl nichts in der Datenbank