#1 - 2022-12-15 16:45
magsom (Digital Lumpen Proletariat)
最近一年我开始保存自己玩过的游戏的官方网站,例如即将停运的网络游戏的官网,因为不久它就会消失。令人伤心遗憾的是更多网站会在不知不觉中消失,没有人能预测网站内容消失的速度。小型企业和独立社团的网站寿命通常会更短。大型企业任天堂还保留着 SFC、GBA 时代游戏产品的官网,微软则是会删除旧产品的网页。
互联网档案馆的时光机也不是万能的,无法保存手机版网站,无法保存地理限制的网站,部分页面缺失,也不能方便地下载网站到本地。
将网站保存到自己的电脑上就可以克服这个问题,除此之外还有其它好处:极快的加载速度。

保存网站的方法:
1、使用 Save All Resources 扩展或 wget 递归下载原始 HTML 和子资源文件,直接本地浏览 HTML 文件。这样方便编辑,但新式 JavaScript 功能可能执行异常,JavaScript 和 Flash 内容的子资源可能无法下载。一些 HTML 文件对超链接和子资源的路径可能是绝对路径,需要编辑才能正常浏览,对于 Flash 则需要反编译。
2、使用 Webrecorder ArchiveWeb.page 扩展录制网络流量到 WARC 格式,不方便编辑,一些资源下载不完整的记录就比较麻烦,但 JavaScript 和 Flash 回放兼容性高。此外还可以将 WARC 上传到互联网档案馆上分享开来。

子资源的完整保存是困难的费时间的课题,例如有时需要调整窗口大小或使用移动设备模拟器来获取手机版网站,需要点遍网站上的所有链接和按钮才能获取完整,嵌入的 Youtube 视频,问卷式提交表单的网页,动态更新分页的新闻列表等等棘手的格式。
#2 - 2022-12-15 17:27
(@aqua@mstdn.moe)
可以参看 对抗 link rot 及其评论区
#3 - 2022-12-15 17:43
(19914)
.
#3-1 - 2022-12-15 17:43
逆淚
#################################################################################################################################################################################################################################################################################################同有感于此类焦虑, 这也是为什么我最近搓了个保存bgm讨论帖的, 希望为时未晚。可惜能力有限, 写得非常简陋, 仅仅是定期保存最近更新的100个帖子的html内容并做简单解析, 同时受限于bgm的条款, 原始抓取内容不会公开。

bgm的用户主页似乎定期有来自wayback machine的抓取。另外还有像博客等有相当价值的内容, 希望有心人多用wayback machine等保存下来吧。
#3-2 - 2023-1-18 03:49
DUE_SOUTH
逆淚 说: ####################################################################################################...
感觉BGM这样的如果真的到了要闭站的那步,应该也会把所有数据打包放出来吧
#4 - 2022-12-15 17:52
(V1046-R MAHORO)
一般情况下关心的是内容而不是网站的形式本身,所以我是装了个waybackmachine的扩展没事就点一下(甚至可以设置为自动保存所有网页)。虽然可能css会有些bug不过一般够用。archive.org不是100%可靠,不过我觉得应该能坚持到我松鼠症治愈。

另外图片、视频我都是单独下载,尤其是很多网站是可以扒到大图的,直接保存网页反而不好。

对于追求网站本身完美复制的我win下试过2款工具
HTTrack Website Copier
Cyotek WebCopy

都还可以,更推荐第一个
#4-1 - 2022-12-15 20:44
magsom
HTTrack 很久没更新了,同样 WebCopy 的简介里提到JavaScript 加载的子资源无法支持。实际上目前没有工具能准确复制和回放一些使用复杂动态加载逻辑的网站的,例如Cocos引擎的网页游戏,3D模型展览sketchfab.com等。
#4-2 - 2022-12-16 01:40
烈之斩
magsom 说: HTTrack 很久没更新了,同样 WebCopy 的简介里提到JavaScript 加载的子资源无法完全下载。实际上目前没有工具能完全复制一些使用复杂动态加载的网站的,例如Cocos引擎的网页游戏,...
当然只针对静态网站,动态内容你没有后端源代码和数据库怎么100%复制?
#5 - 2023-1-14 17:14
(真相永远只有一个)
mark
#6 - 2023-1-14 17:21
我也特别苦恼这个问题,之前京都动画的 动画日常 员工日记 模块就因为更新 以及 事故原因整个关闭过。
我通过 archive.org 以及各种爬虫重新抓了部分还能找到的文章,做了个日记原文及译文的数据整理网站(bgm40)

https://kyoani.cn/anibaka
#7 - 2023-1-16 16:22
卧槽很有用,感觉可以去保存一些老视觉系乐队的官网......
#8 - 2023-1-17 18:21
(是JK)
mark
#9 - 2023-1-18 04:09
(动手吧!夏佐,规矩可是你定的!)
mark
#10 - 2023-1-27 00:28
(心脏要逃走了。)
mark
#11 - 2023-1-27 10:17
(从来如此,便对么?)
mark
#12 - 2023-1-27 23:28
#13 - 2023-1-27 23:39
(ドラマチックな死は、僕らにはふさわしくありませんよ)
mark
#14 - 2023-1-27 23:42
mark