微博 微信

Hao4K影音

[技术教程] 13C-整改字幕流程e_UTF-8字幕BOM特征码

2021-7-21 01:37:53 2541 0 |只看大图 回帖奖励 |倒序浏览 |阅读模式

Yuran 帖主

2021-7-21 01:37:53

13C,其中的13, 是连载篇的序号。后缀C,意指 三板斧的第三斧(与 ass外挂字幕的、DIY 实验有关)。+ \2 c" a  n; M7 u9 ^" B, Y
本人原创实验心得,非专业,非权威。谨供参考。全部归纳/整理到:论坛淘帖专栏中,链接在此
7 \  b+ e; v% c# P* f: D' \  v: V$ w7 C/ [/ Q4 }) Q

1 d, Q7 ]4 }; Z, ^
$ g$ _! s3 T1 @& x+ ^前篇讲到,我想DIY编程,用自家的(软件)模组,取代借用的工具(第三方的 File.EXE)。
8 v0 w, s+ M8 [( ]/ f, Q( G( v( [首先,要知道真相: UTF-8 的文件, 不带BOM的,与带BOM的,有何区别,有什么隐患?!
$ C% @1 ]; V# l/ S7 W& p0 ]- o4 f; d& y
BOM(byte-order mark),字节顺序标记。对于UTF-8 的文件,两极分化,没有统一。
- V2 D7 D1 j7 N6 ?, D# w3 i
7 v" Q1 a/ Y; t  T' \2 F 5d79de0f350479ab2f5ae9519658d1d5.png % c7 t2 j6 S4 h) ]
* k* e! d& s( d. p; T
某些UTF-8的文件,不带BOM,其它应用程序(比如 Notepad)都能完美解读。3 s$ {$ ?0 Z& m0 h0 N* {
但是,导入到:微软的产品(比如 Excel),有这样的隐患(因缺失BOM,而造成误判,影响工作)。% `' {+ {* O1 y6 T; z

2 B: m$ Z/ a# d( ], ]0 \* k: ^: G9 O9 r: _9 c1 |! J

4 m- U" A8 {: uBOM,是三个字节的特征码, 安置在,UTF-8 文件的始端。1 V- E# \6 E; ~8 I( c
qqq.jpg 6 f% n: }% x" |0 C6 f1 {2 A
4 C5 W$ x# ^6 U1 c+ V
下面是,这回测试用的、4个UTF-8样本的、按16进制读取的信息:
5 N& w- Y: m$ V% V9 s! \
7 o" X1 b2 h5 A$ W" H5 `- H! a7 d5 V' P 捕gh获.jpg ( G# e8 P1 a6 p3 H$ }" R$ ~) H
0 C6 c$ X  B3 O0 P- Q2 V; y& V
很明显: 带BOM的两个UTF-8 字幕,在始端,都带 ef bb bf 特征码。
7 V4 d- L5 \3 t* d2 H( w" o; }DIY编程时,就要考虑:如何将这些UTF-8 的字幕,按16进制的规格,读取出来:
: u: ^: O1 G! a: p. [
: s" ?: u! ^0 ~  k# B( H
- T" c4 i* a% w& e) F
# P% l! H$ ^. q4 L将某个UTF-8 字幕,先手动转换(16进制转码),另存文件。再用 Ultredit ,读取代码信息:& P& ~: n2 C0 k2 X
# E* m4 T3 z2 \- f/ D9 |8 R2 D) T
222.jpg
& G; x' E1 s( F# V$ c2 {, E
6 b/ n2 W- M5 S0 r& `% E下面是,Yuran自编设计的模组,按16进制规则自动转码(再依次)读取的、该字幕的代码信息:) w# g( o& p! Y6 Z, v
3 Y) X5 z& ]/ ~
111.jpg 9 |6 c* @1 B- d* `5 @+ t7 W/ \
' E% @0 v- }$ {5 V. E
两组(16进制的)数据,完全一致!
) l0 y. p% z* j( V3 h# E. q实际上,实战编程时,仅读取第一行的、头三个字节的代码, 是不是:ef bb bf ,就行了!
" Y; ~- s8 ^% ~# E* ]( P$ ~% I# c# L+ R! y+ t! ?8 C6 c+ b
捕88获.jpg 7 e! u; i  U5 L6 {1 B# U
/ X  O$ E8 z3 d
齐活,窗户纸一捅就破...; J) N' ~1 |3 y' K' p% z

" X( Z0 u. x* X! {0 V: [5 \
- ^# y' P* O" O& T3 k  m. Z* j3 [
0 c: l) q( d/ Z1 w; @9 a是不是,很想知道: 现如今,Yuran所制定的、家庭影院看片用的、(外挂)字幕编码规范,
! H6 |+ M% ~3 A' j究竟是采用:带BOM的 UTF-8 ,还是不带BOM 的UTF-8 呢?(且听下回分解)!

免费评分

参与人数 1活跃 +1 H币 +8 收起 理由
流年似春水 + 1 + 8 谢谢分享!

查看全部评分

本帖被以下淘专辑推荐:

回复

使用道具 举报

   发表回复

您需要登录后才可以回帖 登录 | 立即注册

返回列表 本版积分规则

:
白银玩家
:
未填写

主题

帖子

积分2003

  • 在线客服

  • 返回顶部