本帖最后由 Yuran 于 2023-7-27 02:18 编辑
本贴是Yuran版数据库文件V2.0的说明书(也是本人自习笔记/备忘录)。 
本文中、所谓UHD 纯影碟, 指的是: ISO镜像文件、或BDMV文件夹格式的下载片源(并非 MKV、MP4、TS、AVI等格式)...
Yuran这里,大多数情况下,硬盘中收集、储存的、都是纯影碟。如果还不理解,可以参考前言部分...
前言: 多么神奇的魅力! 基于此,Yuran 所收集/存放的片源,都必须是纯影碟 (杜绝 MKV等)!
这也是下面、筛选(三百多万浩瀚数据量)信息库时的,软件编程的设计准则!
正文:
前些天发帖讲过,虽然rarbg网站关闭,但Yuran有幸弄到浩瀚的数据库(三百多万条信息)。并通过自编程序 V1.0,
择出 两百多条、 3D BD 影碟(纯影碟)的资源,
上网/爬虫,逐一核对。通过磁力链接的校验,终于弄清、每项的细节。
曾发帖分享:核准后的(3D BD)数据/信息《Yuran自编程序从百万级数据中择选3D蓝光影碟并上网爬虫复核》;
既有花名册,又带(核准有效的)磁力链接。再去下载、整理3D 蓝光影碟,唾手可得的感觉!
意犹未尽,Yuran又开始琢磨、当前的大热门: UHD BD 纯影碟 。
自编程序升级版、V2.0的预告,在那个帖子《3D BD蓝光影碟中奇怪的文件:ssif的奥秘(藏而不露的角色)》,曾透露...
现如今,V2.0 (Alpha) 版的内测,终有眉目(大幅改进、焕然一新。可谓捷报频传)。
1.0版(自编程序)仅给出:两百多条3D BD的匹配项(纯影碟,ISO镜像文件)。
那么,V2.0版,若专门针对UHD BD,能从(三百多万条)原始文件中,筛出多少:UHD BD (纯影碟)?
现如今,重中之重,优化自编程序的脚本(尤其是:过滤机制的算法),避免‘误伤’(无辜的、纯影碟/片源)。
最简单的初选,仅剔除:720P 及 1080P 的片源,保留所有:2160p 的匹配项。
这不,2.0版自编程序,给出(不可思议的)答案,接着,分析(自编程序所生成的)列表文件(未经核实,只能称之为:中间文件)。 找出相关关键字,列入黑名单(无论大写/小写)应被滤掉!于是, 再推敲, 在黑名单中,继续纳入可能导致误伤。所以,还是允许一些未明项早就知道,有个(高频率出现的)词组,最为可疑,影响UHD 纯影碟的数据量。为证明自编程序的效能,还是默许上述词组。
中间文件,所存入的、都是带关键字反复推敲、精心设计的算法,立竿见影,就出结果(遍历三百多万数据库,再进行甄别、筛选,仅数十秒,彻底拿下) 。但注意:这还不是,完美的结局(最后会讲,仍有‘误伤’的意外。 后已修复...)

再说最终文件(自编程序所生成的报表),V1.0版,按下图所示的样式,写入本地(最终)文件。上图中,(自编程序所筛出的)合格项、与淘汰项,都存在同一个文件中。略有不便。
因此,为校验 UHD 纯影碟片源(就是中间文件所记录的、高度近似的待选项),Yuran实施大刀阔斧的整改,
不再采用:单一列表的方式!!咱不怕麻烦,重新制定了:新的规则。因此,自编程序所生成的报表,将一分为二,
如此这般的、在统计成千上万的数据时,便于识别(这也是自编程序,每次续写时,反复校验的依据)。
于是再用 V2.0版,处理3D BD纯影碟(中间文件。没事 ,与UHD BD 类的文件,不冲突),得到两份(最终)报告:
分门别类、整齐划一,真的是:一目了然!
除此之外,V2.0 版程序的靓点,带'断点续传'般的功能。从三百多万原始文件中,所筛出的、(与UHD BD 纯影碟)高度相似的匹配项,真是上图所示的?非也。Yuran早就知道:还是看看、实验数据吧。
不出所料:经上网/爬虫甄别后,都漏出马脚!这是截屏视频(转成了GIF)尽管,中间文件中,仅提供磁力链接的单一信息。但是,本人设计的自编程序,
另辟蹊径,能上网/爬虫,逐项甄别、抓取实用数据(究竟是 ISO、还是BDMV原盘,或是 MKV、MP4、AVI等)...
(这可是,能走遍天下、遍历海外实用网站的、AI引擎),Yuran的原创作品!
总觉得,这些UHD 的匹配项,好像少了点什么。回顾(以往历次BT下载的)经验,果不其然,发现(误伤的)问题! 可见,上述样品,都是实打实的、UHD BD纯影碟(被V2.0 Alpha实验版误伤) 。既然是自编程序,亡羊补牢,来得及。
近三千行(Python脚本)、打包成EXE的自编程序(优化'敌我识别'机制的、V2.1版,能在实战中、避免'误伤'...)
这样,就能增加不少: UHD 片源(还都是 纯影碟)!即使有自编程序(爬虫利器),也不能速战速决。原因如下:除此之外, V3.0版,肯定会不管怎样,Yuran的自编程序,最好能够已发帖介绍,
|