#1 - 2022-6-22 05:41
NekoNull
*2023/3/11:已完全去除对 Get cookies.txt 的依赖。可以继续使用了。

* 2023/3/8:重要安全警告
昨日中午,导出指引中推荐使用的 Get cookies.txt 已被发现是恶意扩展。十分抱歉对使用本项目的各位造成了影响。这并非我的本意。

为减少可能的安全风险和损失,请尽快执行以下操作:(感谢 @🦋喵小六❄️ 的指正)
清空 cookie 毫无帮助,实际上可能帮倒忙,不要这么做!
清空 cookie 毫无帮助,实际上可能帮倒忙,不要这么做!

1、首先,卸载扩展;
2、有些网站会显示已登录设备,并提供注销的选择,你可以在那个页面注销已登录设备;
- Google: 管理您的 Google 账号 - 安全性 - 管理所有设备
- Github: Settings - Assess - Sessions
- Microsoft: 我的 Microsoft 账户 - 安全 - 登录活动
3、最有效的防御手段是:浏览你的 cookie 列表,依次打开网站,主动点击注销按钮,网站会收到你的注销请求然后吊销该 cookie,保证开发者拥有无效数据;
4、最后的最后,如果还不放心,请修改密码,部分网站在修改密码后会吊销所有 cookie。

---
* 2022/12/1:更新了一版,More 现在支持导出回复的贴子、收藏的人物、时间胶囊和好友了。因为被 Sai 投诉备份工具频率过高造成整站缓慢,降低了请求速率,备份耗时可能增加。(因为是爆肝的代码,加之测试数据不完备,很有可能一定会有问题,还请多多包涵,欢迎 PR / issue)

有感于这位班友的不幸遭遇,趁着最近刚好有些空闲,给原先只支持收视进度和个人收藏导出的 Bangumi Takeout 增加了讨论、日志、目录的导出功能。

具体而言,新增加的导出项包括:
* 讨论(topic):我发表的话题
* 日志(blog):公开日志、仅好友可见日志
* 目录(index):我创建的目录、我收藏的目录
(NEW:回复的贴子、收藏的人物、时间胶囊和好友)

考虑到不同用户的导出需求不同,这一功能增加了一个名为「深度导出」的设置项。未开启时,导出内容仅包含元数据,如ID、创建日期、URL、名称等。开启后,导出时也会将对应项目的实际数据一并导出,讨论和日志以 HTML 网页形式,目录则是 HTML 网页和 JSON 数据兼有。也欢迎其他开发者使用导出的元数据编写其他的导出脚本!(例如用 ArchiveBox 备份更多格式)

技术上,这一功能本质上只是用程序模拟人访问 Bangumi 中已有的功能链接。因为当前 API 接口还不完善,这算是无奈之举了。也正因此,与 Bangumi Takeout 使用 API Token 不同,Bangumi Takeout More 需要使用 Cookies,使用起来会稍微有些不便。但考虑到备份的频次不是很高,大概还算能接受。安全性上,本次新增功能对 Bangumi 发起的所有请求都是读请求,没有任何写请求,也可以通过用完脚本后登出再登入的方式强制让 Cookie 无效。

目前因为这一功能还在早期开发阶段,我自己对于日志和目录功能的使用甚少,所以可能会有很多 Bug,因此暂时独立出来,待功能稳定,大部分 Bug 修复后再正式加入 Bangumi Takeout 项目。

以下是相关链接:
(推荐)直接在 Colab 上运行:
Colab 链接: https://colab.research.google.co ... ut_more_colab.ipynb
代码:https://github.com/jerrylususu/b ... er/dump_personal.py

欢迎使用和 Pull Request!希望能帮到各位,让数据能更好掌控在自己手中。

已知问题:
- 因为没有用 API Token,部分含有非公开条目的目录可能 JSON 文件会显示「Not Found」

下一步计划:
- 自己发表的条目讨论区内的讨论?
- 收藏的人物/团体?
#2 - 2022-6-22 06:05
好!mark
#3 - 2022-6-22 09:20
(懒到极致便是不在乎,对一切人、事、物的漠然 ...)
M
#4 - 2022-6-22 09:49
(往事如烟 随风飘远)
强烈支持!!(bgm16)
#5 - 2022-6-22 09:50
(616.sb)
来了!BUG 日志
#5-1 - 2022-6-22 11:19
ぁまぃあゃ
我也遇到同样的BUG……
#5-2 - 2022-6-22 13:50
NekoNull
看了下似乎是主项目中的一个遗留 bug,已经修复了,欢迎再次尝试。
#5-3 - 2022-6-22 17:17
🦋喵小六❄️
NekoNull 说: 看了下似乎是主项目中的一个遗留 bug,已经修复了,欢迎再次尝试。
没问题了!
#6 - 2022-6-22 10:03
(你如果看见了我,这就说明我在上班摸鱼。 ... ...)
mark
#7 - 2022-6-22 10:55
(我长大了要发明7G)
mark
#8 - 2022-6-22 11:37
(まずはその幻想をぶち殺す)
mark(特别感谢!
#9 - 2022-6-22 12:52
(SHAFT系動畫小組 →https://bgm.tv/group/shaft)
#10 - 2022-6-22 15:34
(学算法竞赛的普通高中生一名 Codeforces&洛谷同名)
字词!
#11 - 2022-6-23 00:38
(每天祈禱小行星降臨)
支持!!
#12 - 2022-6-25 18:04
(プリズムの煌きよ!)
mark
#13 - 2022-6-25 19:18
(すべての夢が終わるまで)
(bgm35)
#14 - 2022-8-30 01:31
(每天度过称之为日常的生活,说不定是一个个奇迹的连续)
经过自己一番白忙活,已备份,感谢!(bgm24)(bgm24)(bgm24) 好物推荐
#15 - 2022-8-30 04:16
mk,感谢!
#16 - 2022-8-30 04:24
(让我们远离冰冷的房间,亲自推动历史的进程。 ...)
mark
#17 - 2023-1-9 23:02
#18 - 2023-1-9 23:07
(都是异端!)
我操!武——库——撒——!!!!
赶紧给我兄控目录备份了,那是我的生命(bgm116)(bgm116)(bgm118)(bgm118)(bgm117)
好像json会因为18禁条目导不出来,html的话ok
#19 - 2023-1-9 23:08
mark
#20 - 2023-3-7 12:16
(只是一个看动画片儿的...)
安全警示,
使用过 Get cookies.txt Chrome 扩展的赶紧检查下自己账户, 我搜了下文件下载记录, 最早是因为这边的推荐首次安装了这个扩展

PSA: The "Get cookies.txt" extension is now actively malware.
https://www.reddit.com/r/youtube ... on_is_now_actively/

#security
#20-1 - 2023-3-8 10:02
NekoNull
感谢说明,已经在主贴添加。后续会更新。
#21 - 2023-3-7 12:17
Get Cookies.txt 插件炸了,求补。
#21-1 - 2023-3-11 23:13
NekoNull
已修复
#22 - 2023-3-11 23:12
更新:Bangumi Takeout More 已经移除了对 Get cookies.txt 插件的依赖。经过验证,使用 F12 开发者工具运行 `document.cookie` 得到的 cookie 已经足够用于导出数据。README 文档和 Colab 笔记本都已加上安全警示。

本次安全事故并非有意为之,今后在引入第三方依赖时会更加谨慎。抱歉为各位带来不便了!
#23 - 2023-3-11 23:16
补充说明,为什么当时使用了 Get cookies.txt 插件:
- 之前自己在 Firefox 上使用过这个插件
- 写其他爬虫的时候使用过导出 cookies.txt -> 直接加载到 MozillaCookieJar -> 在 requests 中使用的流程
- 用插件导出 Cookie 可能会部分非开发者用户更好理解和操作
#24 - 2023-3-11 23:17
(Im/possible.)
支持~!
#25 - 2023-3-13 14:52
(616.sb)
清空 cookie 毫无帮助,实际上可能帮倒忙,Don't Do It !

应该做的:
1、首先,卸载扩展;
2、有些网站会显示已登录设备,并提供注销的选择,你可以在那个页面注销已登录设备;
3、最有效的防御手段是:浏览你的 cookie 列表,依次打开网站,主动点击注销按钮,网站会收到你的注销请求然后吊销该 cookie,保证开发者拥有无效数据;
4、最后的最后,如果还不放心,请修改密码,部分网站在修改密码后会吊销所有 cookie。
#25-1 - 2023-3-13 20:40
NekoNull
感谢指正!已更新到主贴,稍候更新到代码库和笔记本
#26 - 2023-5-17 22:41
(I have always been free)
mark
#27 - 2023-5-17 22:42
MARK
#28 - 2023-6-3 17:23
(QAQ)
现在可以正常用了吗
#28-1 - 2023-6-3 17:57
NekoNull
可以的,不过为了安全起见(避免cookie泄露问题,虽然目前已经不依赖外部工具提取了),建议先把账号密码改成一个临时密码,再使用本工具,使用完成后再把密码改回来。这样做应该可以让被工具使用的cookie失效,从而完全避免泄露问题。
#29 - 2023-6-5 11:15
mark
#30 - 2023-10-17 18:27
(小圣杯邀请码: whyjxz14#576501)
删除了回复
#31 - 2024-1-17 23:44
(轻拢慢捻抹复挑,初为妳尝后六咬,我是河豚我娇㜜!)
mark
#32 - 2024-4-17 14:22