这是本人的自习笔记/备忘录。
也是爬虫/暗网等领域的、入门级介绍/概念性指导...
多么渴望(互联网上的)自由,但实战中,还是被‘制裁’了一次。
不过,这也好。反而激励自己,另辟蹊径、与时俱进,最终化解!。
咱的Python程序,最开始,设计的初衷,仅浏览某些磁力链接/种子的网站,通过爬虫、力图获取蓝光影碟/片源信息。
需要对(HTML类)标签/节点的解析,得到:蓝光影碟片源大小、文件结构(ISO镜像文件,或BDMV文件夹格式)等细节。
虽然,本人采取了下述措施,让自编程序,模拟(人工)浏览的行为...但是,在某些特殊站点,自编程序所发出的、查询磁力链接、片源信息等请求,还是被拒。估计是、下面这些特殊的原因:如何才能,让自编程序的、自动爬虫的操作,实施【反制裁】的手段,成功突围,?!确实是一道难题,并不轻松!
总不能,让自编程序长期被困吧。
道高一尺,魔高一丈。
经过挑灯夜战、刻苦钻研。Yuran终于摸透规律,借用一些高新技术,实现惊人的突破!而且还是:'双拳出击'!
第一招:这是程序的测试结果,GIF动画演示!
自己动手,分析 种子文件,不错。但有一项信息,种子文件很少提供。那就是,海外的那些网站,是这样处理的。因此,若能想尽办法(反制裁), 突破封锁,获得海外网站所提供的信息,就能节省时间、提高效率。
网络技术,日新月异。不能总是,墨守成规。
先看一看,国外某处画出的、上网时的分析图,挺形象的。
国外,若按常规途径(红色流程)上网:用户在明处,而其他角色(就不翻译了,自己去查),躲在暗处。不寒而栗啊!
如果,用户隐形(也藏匿于暗处)呢(改用图中灰色的手段)?其实,有些技术,即使是个人(单打独斗),也能实现。
再看下图,海外的用户,(常规上网)浏览某处网页时,下述信息,
- 正在浏览的网页 (SITE.COM),
- 用户名以及密码 (USER/PW),
- 传输的数据 (DATA),
- 用户端网络设备所用的 IP address (LOCATION).
全都是透明的(在传输过程中,毫无秘密可言)。
咱的低版自编程序,未对 Location(IP地址信息)加以保护。这也是,被海外(蓝光种子资源/搜索网站)封杀的原因之一...
那就尝试变招、不按规矩出牌! 比如,先试试这个:有些改善,是吧?但是,还有一个敏感的问题,依然存在:于是,又有新一代的技术,就像隐形战机那样,横空出世。那就是:与暗网相关的、 先看清红线的流程,再做分析。注意:用户端的ip地址,在ISP/网站那边,看不到了。
当然,最好的方案,是取长补短、双剑合璧, 也就是:下面这样!真不错,安然隐身!
看看下面这种示例图, 用户的IP ,刚刚接触外围,就开始隐身!更何况,一些片源信息/搜索网站,也是自身难保!涉及影碟版权等问题,在海外,也是重点打击对象,时常被封。
因此,那些网站,被迫做出、自保的举措(恰巧也暴露出弱点,被我攻破...)弄清原理后,付诸实战(如法炮制):在程序脚本中,添加相应(软件)模块,变成隐形利器!这是截屏图证能够'施放烟幕' (随时更换IP,让那些海外片源/搜索网站,看不出,自编程序/网络爬虫的请求,是来自同一个地方)。
实验成功,这是截屏视频,乾坤大挪移 !
自编程序,还能在数秒之内,自动'变脸'!于是,IP地址,飘忽不定:瑞典(斯德哥尔摩)、美国(佛罗里达)、荷兰...
就这样,(两项网络技术)双管齐下,蒙蔽那些(想封杀自编程序的)海外网站,避免封杀。
通过暗网的手段,顺利爬虫,得到蓝光影碟的详尽信息! 还能够:进行双重检查。
- 借助磁力链接,顺藤摸瓜,搞到相关的种子文件。从而刨析种子文件,摘取 metadata的内容。
- 通过匿踪手段,直接到某些网站,爬虫采集数据。
将二者(数据)进行比较,都能得到:详细可靠的、蓝光影碟/下载片源的各项属性!
根据本人的设计规则,通过自编程序的不断完善,将逐步提供:
- 蓝光影碟的架构:ISO或BDMV文件夹;
- ISO 或 m2ts 文件的大小;
- ISO或 m2ts文件的数量;
- 所推算出的、磁力链接/种子 的发布日期。
- 互联网电影资料库(Internet Movie Database,简称IMDb)的片名(含中文译名)。
- 音视频轨的规格(需校验本地硬盘中的、已下载的片源文件。)
挺好的,通过自身的努力,因地制宜、量身制作,就能总结出:自己满意的数据库。看看下图,通过DIY钻研,目前来说,已经深入到:暗网的第几层?本篇仅介绍:DIY自习、尝试反制(蓝光影碟片源)海外网站的封杀而已,与其它方面无关!
|