Kéž by byl svět tak jednoduchý, že by se před publikací na #juniorguru dalo zkontrolovat, zda nabídka náhodou není už prošlá, tím, že bych udělal jeden HTTP požadavek a mrknul, jestli to není 404, nebo snad ještě lépe 410.

Ach jo. To zas bude zbytečné infrastruktury navíc… přitom taková blbost. Stačilo by, aby lidstvo používalo internet tak, jak si ho vymyslelo.

Když jsem psal ten předchozí příspěvek, tak jsem na tom začal pracovat. Od té doby jsem na tom dělal, téměř nonstop během pracovních hodin.

Teď jsem skončil s tím, že to teda asi nějak konečně funguje a dokážu před publikací na #juniorguru naráz zkontrolovat platnost třeba 120 inzerátů. Trvá to nešťastné 3-4min a musel jsem na to vybudovat dedikovaný on demand scraper na #apify, který proplouvá nekonečným množstvím #antiscraping ochran.

Kolik dní mi to řešení zabralo, to si spočítejte sami.

@honzajavorek
> Stačilo by, aby lidstvo používalo internet tak, jak si ho vymyslelo.

Co tím myslíš? Aby na to bylo třeba volné api, které bys mohl dotazovat?

@SuperBobo Ne. Aby normálně fungovalo HTTP. Pošlu obyčejný HTTP požadavek, GET či HEAD. Dostanu 200, tak je inzerát ještě platný. Když 404 nebo 410, tak už vypršel. Toto je ovšem naprostá utopie.

Weby si kolem sebe nasadí hradbu Cloudflarů a kdo ví čeho, takže HTTP požadavek, který není z proxy a netváří se jako browser mojí mámy, na server nikdy ani nedorazí. Že bych jich poslal víc za sebou, to vůbec. A že by někdo obsloužil HEAD nebo používal adekvátně HTTP status, to dřív uvidím jednorožce.

@honzajavorek @SuperBobo Ty weby o vas provoz zkratka nestoji. Tohle je nekonecna hra na kocku a mys. Z pohledu zakona jste asi za hranou, protoze vetsina tech webu ma autorska prava na svuj obsah a maji casto nejake podminky jeho uziti, ktere nejspis nesplnujete. Mozna kdybyste se s nimi domluvil a pouzival jejich obsah dle jejich pravidel, tak by Vam dali API klic se kterym by nebylo problem obsah ziskavat.
@goodmirek @SuperBobo Za mejch mladejch let fungoval internet jinak. Podle toho, jak ho vymysleli autoři internetu, ne právníci. Pokud někdo nechce řešit, že si udělal web, dal na ně informace, ale chodili mu tam na ně koukat lidi a stroje, pak bohužel nepochopil, k čemu web je a proč za posledních 20-30 let posunul lidstvo o takový kus vpřed. Web je skvěle vymyšlené API, to je základem jeho fungování.

@goodmirek @SuperBobo Z hlediska zákona jsem
OK, protože soudy se shodují, že pokud dàm něco volně na web, tak je to volně ke čtení, podmínky nepodmínky.

Nikomu nekradu dílo - chci se jen podívat, zda je inzerát stále aktuální.

Od některých mám dokonce svolení scrapovat, protože neumí vytvořit API 😀 Někteří mi API slíbili, ale skutek utek. Takže asi tak.

Dneska je taková doba, že lidi nastaví Cloudflare tak, že nevědomky zablokujou RSS čtečky na svých vlastních RSS feedech 🤷‍♂️

@honzajavorek @SuperBobo CloudFlare tak nastavi proto, ze to jinak neumi a nastavit jej lepe by stalo penize, coz se jim asi dle jejich mineni nevyplati.

To je ale odlisny problem od toho, proc vubec CloudFlare maji. Mali scraperi by je moc netrapili, ale kdyby CloudFlare nemeli, tak jim botnety budou posilat tisice pozadavku za minutu, coz pusobi zhorseni sluzby pro cilove uzivatele a take to prodrazuje infrastrukturu.

@goodmirek @SuperBobo No ale to je dítě s vaničkou. Ne každý newsletter je přece spam. Ne každý bot je botnet.

@honzajavorek @SuperBobo Na ucel webu ma mnoho provozovatelu webovych stranek jiny nazor. Jednoho meho zakaznika stoji scrapovani nemale penize navic za infrastrukturu a CloudFlare s tim dokaze castecne pomoci.

Osobne radeji spolupracuji s tim, kdo o to stoji a sdili me hodnoty, nez se vnucovat nekam kde me nechteji. Kdyz scrapujete a zadarmo propagujete inzeraty tech, kdo o to nestoji (ac na tom mozna vydelaji), tak tim podporujete jejich pristup a hodnoty, ktere se vam vlastne nelibi.

@goodmirek @SuperBobo Pokud mají monopol, nemám na vybranou. Nedělám to nakonec pro sebe.

Chci, aby si junior mohl pohodlně najít práci. Scrapování a filtrování inzerátů mě stojí ohromné množství energie a dokonce i peníze. Mám z toho nula korun příjem a traffic posílám normálně dál na původní weby.

Nemůžu si vybrat, kde najdu relevantní inzeráty pro juniory. Chci jim zvýšit šanci, že jich najdou co nejvíc. Tak holt musím trpět, jako Robin Hood 😀

@goodmirek Já jsem vlastně vyhledávač, jako Google. Akorát Googlu všichni podlézají, zatímco moje existence je jim ukradená a blokují mě, jsem jen smítko na saku. Protože jsou jim ukradení junioři. A protože jsou junioři ukradení všem, tím spíš půjdu a všechno to pro ně oscrapuju, aby věděli, že mně ukradení nejsou.