APP下载 微博 微信

Hao4K影音


[软件相关] 11C-整改字幕流程c_形态各异的实验字幕样本

[复制链接]

发表于 2021年07月20日 03:47 17072 0 来源:影视制作> 软件相关 |只看大图 回帖奖励 |倒序浏览 |

Yuran 帖主

2021-7-20 03:47

11C,其中的11, 是连载篇的序号。后缀C,意指 三板斧的第三斧(与 ass外挂字幕的、DIY 实验有关)。
本人原创实验心得,非专业,非权威。谨供参考。全部归纳/整理到:论坛淘帖专栏中,链接在此



  前期流程,制定了:中规中矩的编码标准。 那么本篇,就用(第三方的、以及DIY编程)软件,来甄别!

将原文件 (ASNI/GBK)0000.ass ,分别用 Windows 10 的记事本,以及Ultraedit ,另存“形态各异”的文件:
因此,目前测试清单,就有这些:

  • 0000.ass :原文件(srt,经由Subtitle Edit调整音唇同步后,所保存的双语字幕,编码规格:GBK/936);
  • 0Wnu.ass:经由Windows 10 记事本所转码的、UTF-8的规格(不带BOM);
  • 0Wwu.ass:经由Windows 10 记事本所转码的、UTF-8的、带BOM的规格);
  • 0Unu.ass:经由Ultraedit所转码的、UTF-8的规格(不带BOM);
  • 0Uwu.ass:经由Ultraedit所转码的、UTF-8的、带BOM的规格);



网络下载的:隶属于ANSI的、不同语种、不同编码的字幕!

  • 936_复仇者联盟II.srt:纯简体中文字幕(GB2312/Microsoft Windows code page 936_Simplified Chinese);
  • 950_Disaster.srt:繁体中文字幕(Big5/Microsoft Windows code page 950_Traditional Chinese);
  • ANSI_Die.1000.ENG.srt:纯英文字幕;
  • ANSI_domino-cages.ENG.srt:纯英文字幕;
  • 932_Idiocracy.srt:日文字幕(JIS/Microsoft Windows code page 932_Japanese);
  • 949_Halloween.smi:韩文字幕(EUC-KR/Microsoft Windows Code Page 949_Korean);

333.jpg



用UltraEdit预览,多语种的、ANSI类的字幕,均完美显示(注意,每个文件窗口的Code page,并不相同)。

mcodepage2.jpg

比如: 韩文的 SMI 字幕(文本)文件,需要手动更改 Code page , 调整到 949 ,才能正常显示韩文字符。

mcodepage3.jpg

Yuran的PC(自用实验平台:简体中文、Windows 10 ),其Code Cpage 细节,能用 PowerShell查出!

mycodepage.jpg



对不同语种的甄别、若有相关的第三方(免费)软件,就直接调用。再融合自己的特点,DIY编程、整合。

有一种 CLI (命令行界面。command-line interface) 程序,Enca.EXE, 不错,能甄别ANSI 以及 UTF-8 等。

不足之处:

  • 不同的测试样本,其UTF-8 的编码,是否带 BOM,Enca 无法分辨。
  • 仅支持简体中文以及繁体中文,对日韩的 JIS/932 或 EUC-KR/949。Enca 显得无能为力。

e11.jpg

上图是测试结果(鼠标点击,可看到实际放大图):日韩文的甄别出错。另外,带与不带BOM的UTF-8,不能区分。



Linux的 File 程序,被GnuWin32整编后,移植到Windows 10 系统中,作为 CLI 使用,也不错。

g11.jpg

  • 优势: 能在 Unicode 字幕中,指认 (不带BOM的)UTF-8 、或带BOM的 UTF-8 ;(参见上图)。
  • 缺陷:中日韩的字幕甄别,全线失利(如下图所示,均按英文编码的思路,胡乱瞎猜)。

e114.jpg

即使,将两者整合调用,取长补短,仅能改善 UTF-8 。至于日韩的字幕,依然束手无策(注定是乱码)!

也许,有人说:通常的日韩电影,仅配纯中文字幕就行了。
我这里,不一样。日韩的双语字幕,更好。还能提高(除英文之外的)外语水平呢!



CLI 的套数,目前来说,不完美。 那就试试: GUI (图形界面程序)吧。
毕竟,Yuran是要DIY编程、设计自家软件的。最好的办法,是借用、调用CLI程序。

第三方GUI的麻烦,都得用鼠标,去逐一操作。不利于批量处理(静音般的)调用。

如果,能找到的GUI(免费)程序,在自身的操作后,还能输出报告/清单(文本文件)。
那我的DIY程序,就能:通过读取、参考该报告的数据,选择应对手段,完成批量操作。

还真找到一个:EncodingChecker.EXE

捕99获.jpg

GUI程序,有Export 的功能,能将甄别报告,转存到:文本文件中。

捕88获.jpg

  • 最显著的靓点:中(简繁)日韩的字幕,都能精准地区分!
  • 遗憾之处:无法区分(不带 BOM 的)UTF-8 、 带 BOM的UTF-8 。均视为 UTF-8 (不带BOM)。
  • 可拓展的功能:Unicode转码(将 ANSI 的字幕,做转换:格式可选 ,UTF-8、或带BOM的UTF-8 )...



甄别字幕的、软件的部分模组,以后,若有时间。我将尝试 DIY编程, 区分 UTF-8 的BOM ,区分多语种...
可参考的概念(英文的、链接):https://betterexplained.com/articles/unicode/

现如今,先直接调用: File.EXE 以及 EncodingChecker.EXE ,

  • 由 File.EXE ,甄别 UTF-8 或 带 BOM的UTF-8 ;
  • 由 EncodingChecker.EXE , 区分中(简繁)日韩语种,以及英文ANSI的特征。

再由本人编程的软件,完成下述工作:

  • 将ASNI 的字幕,一律转成 UTF-8 ;
  • 针对中(简繁)日韩的不同语种,分别做出Code page的切换,规避乱码的风险。

第三方的程序,还有不少(比如 Python 的 cchardet、 chardet 等等),就不做评测了。



下一篇,将介绍: 用本人自编的软件,调用本篇工具的实验报告,实现自动甄别、自动转码的、
批量处理的功能(第三方的免费程序,将逐一分享)!

延伸阅读
应对家庭影院UHD片源的三板斧-连载前言
https://www.hao4k.cn/thread-59303-1-1.html

2C-ass字幕脚本内:4K HDR外挂字幕调色
https://www.hao4k.cn/thread-59325-1-1.html

3C-ass字幕脚本中:HDR外挂双语字幕调色
https://www.hao4k.cn/thread-59342-1-1.html

4C-ass字幕脚本中:SDR外挂字幕边缘配色
https://www.hao4k.cn/thread-59357-1-1.html

5C-ass字幕脚本里:HDR外挂字幕边缘配色
https://www.hao4k.cn/thread-59387-1-1.html

6C-用杰科G5300播放机做字幕相关的实验
https://www.hao4k.cn/thread-59405-1-1.html

7C-ass字幕脚本中的、与色域有关的新定义
https://www.hao4k.cn/thread-59408-1-1.html

8C-分享Yuran自定义的、ass字幕的实验模板
https://www.hao4k.cn/thread-59444-1-1.html

9C-整改字幕流程a_为音唇同步,调整时间轴
https://www.hao4k.cn/thread-59484-1-1.html

10C-整改字幕流程b_字幕规格的演变历程
https://www.hao4k.cn/thread-59566-1-1.html

11C-整改字幕流程c_形态各异的实验字幕样本
https://www.hao4k.cn/thread-59600-1-1.html

12C-整改字幕流程d_可借用的第三方小程序
https://www.hao4k.cn/thread-59661-1-1.html

13C-整改字幕流程e_UTF-8字幕BOM特征码
https://www.hao4k.cn/thread-59716-1-1.html

14C-整改字幕流程f_自定UTF-8字幕试行规范
https://www.hao4k.cn/thread-59717-1-1.html

15C-整改字幕流程g_批量甄别外语ANSI字幕
https://www.hao4k.cn/thread-59718-1-1.html

16C-整改字幕流程h_转换后UTF-8字幕无乱码
https://www.hao4k.cn/thread-59720-1-1.html

17C-整改字幕流程i_提高UTF字幕的甄别效率
https://www.hao4k.cn/thread-59784-1-1.html

18C-整改字幕流程j_ANSI(外语)字幕批量转换
https://www.hao4k.cn/thread-59798-1-1.html

19C-整改字幕流程k_UTF-8字幕移除BOM
https://www.hao4k.cn/thread-59819-1-1.html

20C-整改字幕流程l_将外来ass转成规范的ass
https://www.hao4k.cn/thread-59881-1-1.html

21C-整改字幕流程m_ass文件,不只是字幕
https://www.hao4k.cn/thread-59882-1-1.html

22C-想实现字幕自动下载/归档,须与时俱进
https://www.hao4k.cn/thread-60028-1-1.html

评分

参与人数 1活跃 +2 H币 +15 收起 理由 (评分规则)
hao4k + 2 + 15 很给力!

查看全部评分

本帖被以下淘专辑推荐:

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

返回列表 本版积分规则



绑定微信 + 关注公众号,第一时间获得消息通知!
:
版主
:
介绍未填写

主题

帖子

积分3662

Hao4K影音app客户端下载