git.jordan.im/crawl/cmd/crawl

[af2ee5ba4af86cb7f313b0bd6e6171d26b36307a] #tip

git.jordan.im/crawl/cmd/crawl

https://git.jordan.im/crawl/tree/README.md
Приятная простая утилита для скачивая всего сайта. Проще не встречал:
crawl URL -- а дальше просто подождать когда появится готовый .warc.gz.
Его конечно же надо будет переделать в .warc.zst
(cace83e27a1acafe57f32cc5eee4bb1078f20e74). tofuproxy без проблем всё
это открывает.

[оставить комментарий]