New blog via SAA from my colleague and me about our process for archiving #warc files from Archive-It #digipres #webarchives https://saaers.wordpress.com/2026/04/22/an-approach-to-backing-up-internet-archive-web-crawls/
​​An Approach to Backing up Internet Archive Web Crawls

By Susan Borda and Scott Witmer  Adapted from the DPC Digital Preservation Workflow Webinar series, March 2026 The University of Michigan Library web archiving initiative began as a pilot prog…

bloggERS!

Готовимся к отключению. Эффективные форматы для упаковки и раздачи HTML-страниц

В 2026 году растёт риск перебоев и ограничений в работе интернета в РФ. В таких условиях имеет смысл заранее продумать, как сохранить привычное окружение при нестабильном доступе к сети. Помимо личных файлов, кино и музыки, хочется сохранить архив сайтов и веб-страниц для чтения в будущем — на месяцы или даже годы вперёд. Но в каком формате это лучше делать?

https://habr.com/ru/companies/ruvds/articles/1020916/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1020916

#Gwtar #долговременное_хранение #ПК_для_апокалипсиса #архивирование #сжатие_вебстраниц #WARC #MHTML #MAFF #SingleFile #ruvds_статьи

Готовимся к отключению. Эффективные форматы для упаковки и раздачи HTML-страниц

В 2026 году растёт риск перебоев и ограничений в работе интернета в РФ. В таких условиях имеет смысл заранее продумать, как сохранить привычное окружение при нестабильном доступе к сети. Помимо личных...

Хабр

Готовимся к отключению. Эффективные форматы для упаковки и раздачи HTML-страниц

В 2026 году растёт риск перебоев и ограничений в работе интернета в РФ. В таких условиях имеет смысл заранее продумать, как сохранить привычное окружение при нестабильном доступе к сети. Помимо личных файлов, кино и музыки, хочется сохранить архив сайтов и веб-страниц для чтения в будущем — на месяцы или даже годы вперёд. Но в каком формате это лучше делать?

https://habr.com/ru/companies/ruvds/articles/1020916/

#Gwtar #долговременное_хранение #ПК_для_апокалипсиса #архивирование #сжатие_вебстраниц #WARC #MHTML #MAFF #SingleFile #ruvds_статьи

Готовимся к отключению. Эффективные форматы для упаковки и раздачи HTML-страниц

В 2026 году растёт риск перебоев и ограничений в работе интернета в РФ. В таких условиях имеет смысл заранее продумать, как сохранить привычное окружение при нестабильном доступе к сети. Помимо личных...

Хабр
I just added my Archive-it #warc to Michigan DPN process to GitHub for easier access and whatnot. I’ll be talking about this on Monday for the @dpc_chat workflows webinar series! #webarchiving #digipres #digitalpreservation https://github.com/mlibrary/digiPres/blob/main/webarchiving/warcs2mdpn/readme.md
Hi I’ll be covering this #workflow for backing up WARCs from Archive-it to a state run LOCKSS program at the upcoming @dpc_chat workflows webinar. I also have info about running these websites offline. https://docs.google.com/document/d/14FZzbfICaddW1wJP8N1CQE6YZOHXjtT_ouAy1-YvsM0/edit?usp=sharing #digipres #webarchiving #warc #digitalpreservation Have a look!
Process for backing up WARCs from Archive-it to MDPN

Process for backing up WARCs from Archive-it to MiDPN Backup from Archive-It, partially based on this article: How to find and download your WARC files with WASAPI – Archive-It Help Center Basic Process: Get crawl ID(s) for particular seed Get WARC.gz file and page count Use "curl" to get list...

Google Docs
Ham radio operator faces child sex abuse charges

Former President of the Western Amateur Radio Club (WARC), Michael Simon Wilson, VK3FAAO, has been charged with possessing child abuse material and sex offences, including bestiality, according to the Melbourne Magistrates' Court.

VicNews
#libarchive 3.7.9 has been released (#MultiFormatArchive / #CompressionLibrary / #FileArchiver / #DataCompression / #7Zip / #7z / #RAR / #ZIP / #GZip / #TAR / #XAR / #WARC / #BZIP2 / #XZ) https://www.libarchive.org/
libarchive - C library and command-line tools for reading and writing tar, cpio, zip, ISO, and other archive formats @ GitHub

I've mirrored a relatively simple website (redsails.org; it's mostly text, some images) for posterity via #wget. However, I also wanted to grab snapshots of any outlinks (of which there are many, as citations/references). By default, I couldn't figure out a configuration where wget would do that out of the box, without endlessly, recursively spidering the whole internet. I ended up making a kind-of poor man's #ArchiveBox instead:

for i in $(cat others.txt) ; do dirname=$(echo "$i" | sha256sum | cut -d' ' -f 1) ; mkdir -p $dirname ; wget --span-hosts --page-requisites --convert-links --backup-converted --adjust-extension --tries=5 --warc-file="$dirname/$dirname" --execute robots=off --wait 1 --waitretry 5 --timeout 60 -o "$dirname/wget-$dirname.log" --directory-prefix="$dirname/" $i ; done

Basically, there's a list of bookmarks^W URLs in others.txt that I grabbed from the initial mirror of the website with some #grep foo. I want to do as good of a mirror/snapshot of each specific URL as I can, without spidering/mirroring endlessly all over. So, I hash the URL, and kick off a specific wget job for it that will span hosts, but only for the purposes of making the specific URL as usable locally/offline as possible. I know from experience that this isn't perfect. But... it'll be good enough for my purposes. I'm also stashing a WARC file. Probably a bit overkill, but I figure it might be nice to have.

#RedSails #archive #archival #archiving #warc

Prawdopodobnie DeepSeek zna Wasze sekrety oraz klucze API ;)

Przeszukiwanie zasobów w poszukiwaniu kluczy API nie jest nowatorską praktyką i bywa bardzo często wykorzystywane przez atakujących na etapie rekonesansu. Powstały liczne narzędzia, które potrafią przeszukiwać np. repozytoria kodu (np. na GitHubie). Sytuacje, w których produkcyjne poświadczenia trafiają do publicznych baz danych nie są wyjątkiem, dlatego nic dziwnego, że badacze...

#WBiegu #Ai #Deepseek #Llm #UczenieMaszynowe #WARC

https://sekurak.pl/prawdopodobnie-deepseek-zna-wasze-sekrety-oraz-klucze-api/

Prawdopodobnie DeepSeek zna Wasze sekrety oraz klucze API ;)

Przeszukiwanie zasobów w poszukiwaniu kluczy API nie jest nowatorską praktyką i bywa bardzo często wykorzystywane przez atakujących na etapie rekonesansu. Powstały liczne narzędzia, które potrafią przeszukiwać np. repozytoria kodu (np. na GitHubie). Sytuacje, w których produkcyjne poświadczenia trafiają do publicznych baz danych nie są wyjątkiem, dlatego nic dziwnego, że badacze...

Sekurak
Why do I keep hearing french SSB stations on the 30m band, where only CW and digimodes are allowed ? Is this the "je m'en fous" (I don't care) mentality ? And they are using F callsigns 🤔 😬 #hamr #shortwave #WARC #IARU #30m