日字整理
- 掌握日字整理的方法。
日字整理指的是,将从各种渠道获取的日文台本整理成符合制作标准的日文文本的过程。
阅前须知
- 关于时区:由于本篇章主要讨论的是日本电视台或点播台,因此所有时间均以日本标准时间(JST,UTC+9)表述。
- 关于 30 小时制:日本电视台的节目单中,深夜 24 点之后的时间通常会使用「30 小时制」表示以便于熬夜的观众收看节目而不会搞错日期。例如,周三的凌晨 0:30 分将写作周二的「24:30」,而周一的凌晨 4 点会被写作上周日的「28:00」,以此类推。「30 小时制」计时法表示的时间范围为 6:00 到 29:59,即每天清晨 6 点整为新一天的开始。在本篇章中,所有时间均采用 30 小时制表述。
- 日本电视的放送方法
- 地上波(简称地デジ):即无线信号,依赖一些高耸的建筑物发射信号,如东京塔、晴空树或专用的信号塔等,可以使用地上波天线收信;
- 卫星放送(BS/CS):依赖位于地球静止轨道(GEO)上东经 110 度的百合花卫星发射信号,收信需要使用设置对角度的「卫星锅」;
- CATV:有线闭路电视,近年来很多日本的房屋都安装了 CATV 的线缆。
日字来源
日字来源的种类非常多,稳定性皆不相同,无法保证某个来源能够长期稳定地供应日字。
大宝典会尽可能更新最新的日字来源。
本节最后更新日期:2026年7月2日
无论使用什么来源的台本,其内容都是需要人工检查的。
我们 有非常大的把握认为,这些台本都是由电视台(或点播台)自行制作和播出的(有的台本甚至是由电视台专业的听写员实时输入的),而非来自片方。
所以台本也会有错,只是错误极少罢了。
电视台台本
电视台台本是目前最主要、最重要的日字来源。
日本的一部分电视台会在播出节目时同步播送无障碍字幕,便于听障人士理解节目内容。
这样的无障碍字幕通常其内容以节目中的台词或所说的话为主,可以借用来作为日字的来源。
下面根据有日文字幕放送的概率,从高到底介绍部分主要的电视台日字来源。
AT-X 电视台(AT-X)
AT-X 全名为「アニメシアター X」(动画剧场 X),属于 CS 卫星台,是面向日本全国范围内(据说天气好的时候,南京上海部分地方也能勉强收到东经 110 度 CS 卫星的信号)的动画片专门频道。
该台几乎 24/7 播出动画片,包括新番和老番,且每部番剧在下一集之前都会有若干次重播。
节目单地址:https://www.at-x.com/program/
节目单中标注有「▲」符号的节目即是有字幕的档。
AT-X 是目前最主要的日字来源之一,当前每季度在 AT-X 有档期的新番最多只有不超过 2 部没有日字。
与此同时,部分缺日字的老番也有可能在 AT-X 获取到日字。
大多数电视台只能获取未来两周的节目单,但 AT-X 通常会在每个月的 20 日左右更新下个月一整月的节目单,但是字幕符号可能不会立即更新。
缺点是 AT-X 作为付费台,不是每个动画片都会选择在 AT-X 首播,因此有时候无法在首播日当天获取到日字。
当然,近年来 AT-X 首播的动画片越来越多,很多时候可以从 AT-X 获取到首播日字。
TBS 电视台(TBS)
TBS 是日本的主要电视台之一,其播出区域以关东地区的地上波为主,但现在也有卫星频道 BS-TBS 和 CS-TBS 等。
TBS 不但播出很多动画节目,也会参与动画和特摄作品的节目制作,如自 1960 年代开播的《奥特曼》系列等。
节目单地址:https://www.tbs.co.jp/tv/
节目单中标注有「字」字样的节目即是有字幕的档。
TBS 也是日字的主要来源之一,很多 TBS 自己制作的动画片和特摄作品都会在 TBS 首播并同步播送无障碍字幕。
曾几何时,TBS 几乎所有节目都有字幕,概率远高于上述的 AT-X 电视台。
需要注意的是,TBS 动画片档的其中一个「アニメイズム」(动画旋律,目前该档位于周五深夜)的字幕自 2023 年 4 月的一次广告时间调整后被取消了,在判断是否有日字时需要特别注意。
受此影响,2021 年 7 月的《女友成堆》第一季在「アニメイズム」档播出时有日文字幕,但第二季于 2023 年 10 月在同档播出时就没有字幕了。
东京电视台(テレビ東京)
说到东京电视台,首先应该会想到的是家喻户晓的《精灵宝可梦》系列。该动画自 1997 年 4 月起便在东京电视台播出,至今仍在播出中。
节目单地址:https://www.tv-tokyo.co.jp/timetable/broad_tvtokyo/thisweek/
节目单中标注有「字」字样的节目即是有字幕的档。
字幕方面,东京电视台每天深夜 25:30 之前(不含 25:30~ 档)的档期播出的动画片几乎都有字幕,而 25:30 档及之后播出的动画片(甚至真人节目)则通常没有字幕。
朝日系电视台(テレビ朝日)
朝日系电视台(朝日电视台、朝日放送)目前拥有一个包含 24 个电视台的网络,从北海道(北海道电视放送)到冲绳(琉球电视放送),覆盖日本全国。
该台最经典的动画片是每周六下午 16:30 分档播出的《蜡笔小新》和紧随其后 17 点档播出的《哆啦 A 梦》。这两部动画片可以说是雷打不动地占据着该台周六下午的黄金档,且都有字幕放送,是当之无愧的「台柱」。
节目单地址:https://www.tv-asahi.co.jp/bangumi/index.html
节目单中标注有「字」字 样的节目即是有字幕的档。
抛开子供向(如光之美少女系列(俗称 Q 娃)等)和经典大长篇(《蜡笔小新》《哆啦 A 梦》等)动画不谈,朝日系电视台的新番动画片主要集中在周六晚上「イマニメーション(IMAnimation)」「ヌマニメーション(NUMAnimation)」和「ANiMAZiNG!!!」这三个动画档播出。
日字可用性方面,这三个档中唯一没有字幕的档是「ANiMAZiNG!!!」,而其他两个档都有字幕,在判断是否有日字时需要特别注意。
富士电视台(フジテレビ)
富士电视台也是一个以关东地区为主要播出区域的电视台。
该台的经典动画片中,最知名的是《数码宝贝》和《海贼王》两部动画片。
节目单地址:https://www.fujitv.co.jp/timetable/weekly/
有字幕节目的节目单地址:https://www.fujitv.co.jp/jimaku/weekly/index.html
关于富士电视台,我们通常关注的是在「ノイタミナ(noitaminA))」档播出的动画片,该档播出的动画片通常是有日文字幕的。
日本放送协会(NHK)
NHK 应该是日本最知名的电视台了,其节目覆盖日本全国,且拥有地上波(E、G 频道)、卫星 (BS、BS4K、BS8K 频道)等多种播出渠道,但各频道节目单安排是不同的。
NHK 的动画片主要集中在 NHK 教育频道(E 频道)和综合频道(G 频道)播出,这两个频道均为地上波放送。
节目单地址:https://www.nhk.jp/timetable/
日字可用性方面,NHK E 和 G 两个频道播出的所有节目基本上都是有日文字幕的,动画片也不例外。
然而,相比于其他电视台,NHK 的动画片数量相对较少,且大多数动画片都是面向儿童的教育类动画片。
读卖电视台 / 日本电视台(読売テレビ / 日本テレビ)
读卖电视台(简称 YTV)是日本的主要电视台之一,属于日本电视网(日本テレビ系列),但主要面向关西近畿广域圈地区(大阪、京都等)播出。
虽然读卖电视台无法在关东地区直接收看,但是部分节目(可从读卖电视台的节目单上得知)可以通过日本电视台同步收看。
读卖电视台制作的动画片中,最知名的当属《名侦探柯南》,该动画自 1996 年起在该台播出至今,目前的播出档为每周六晚上 18:00 的黄金档。
读卖电视台节目单地址:https://www.ytv.co.jp/program-weekly/
日本电视台节目单地址:https://www.ntv.co.jp/program/
日字方面,这两个电视台播出的动画片有一定概率有日文字幕,需要到开播前一周从节目单上确认。
东京都会电视台(TOKYO MX)
相比于上述各电视台,TOKYO MX 主要面向东京都和离岛地区,使用地上波(无线信号)播出节目而非使用卫星。
由于 TOKYO MX 依托东京塔和晴空树覆盖地上波信号,东京都周围的东京湾沿岸、神奈川县东北部、千叶县西北部、埼玉县中部以南和茨城县南部等地区也能接收到该台的信号。
节目单地址:https://s.mxtv.jp/timetable/
相比于上述各台,TOKYO MX 播出的动画片则拥有日文字幕的概率较低,且一定程度上与具体播出的动画片有关。
例如,TOKYO MX 播出的《BanG Dream!》系列动画片几乎都有日文字幕,而其他动画片则不一定有。
在线视频站
网飞(Netflix)
网飞(Netflix)是一个全球知名的在线流媒体平台,提供各种类型的影视内容的在线观看服务,包括电影、电视剧和动画等。
网飞上架的剧集一般都会提供包括日文在内的多种语言字 幕,但近年来也发现有个别的例外情况。
但是目前的观察认为,凡是涉及由网飞独播或者先行播出的剧集,大概率仍然会在上架同时提供日文字幕。
官方网站:https://www.netflix.com/jp/
网飞是全会员制网站,必须购买会员才能观看和提取其提供的内容(包括字幕)。
ABEMA
ABEMA 旧称 AbemaTV,是日本的一个在线视频平台,提供各种类型的影视内容的在线观看服务,包括电影、电视剧和动画等。
目前,ABEMA 是目前各个在线视频网站中上架新番动画片最多的,且经常会有 ABEMA 先行或独占的动画片。
日字方面,目前 ABEMA 每季度都会有个别几部新番动画片提供日文字幕。
但是相比于网飞,ABEMA 的日字经常会出现迟到的情况,短则上架后一小时左右,长则上架一星期后才会上线当集的日文字幕。
ABEMA 的日字目前还不是很稳定,需要更多的观察。
官方网站:https://abema.tv/
ABEMA 既有付费会员方案,也可以使用免费会员观看。
不同的动画片对会员方案的要求不同,大部分动画片的部分集数都是可以免费或一定期限内免费观看的。
无论是免费还是付费的剧集,ABEMA 只要上架了对应集的日文字幕,不需要付费会员也可以通过工具直接抓取到。
AbemaTV 曾经上架日字的糗事
AbemaTV 在很久以前动 画区是完全没有日文字幕的,首次发现 AbemaTV 上架日字是在 2025 年 4 月新番刚播出不久。
然而很快大家发现,AbemaTV 上架的日字非常奇怪,其日字的内容经常与实际的台词不同,而且差异非常大,甚至会出现完全没有在节目中出现的台词(俗称幻听)。
我们推测 AbemaTV 当时的日字可能是使用低廉的 AI 工具转写的,且没有经过人工检查便直接上架。
在日字推出后的一星期内,AbemaTV 遭到了推特(现 X)等社交平台上很多日本网友的吐槽和投诉,最终 AbemaTV 撤下了这些日字,一切回归从前。
沉寂一年之后,在 2026 年 4 月新番播出后,大家又惊奇地发现 ABEMA 再次开始上架日字了。
本来以为 ABEMA 只是修了下 AI 又出来欺骗大家,然而经过一段时间的观察,发现 ABEMA 上架的日字准确率已经不输给传统的电视台台本了。
然而,目前 ABEMA 上架的日字并不稳定,而且覆盖的动画片数量也不多,仍然需要更多的观察。
其他可能有日字的在线视频网站
- DMM TV
- DMM 旗下的在线视频网站,官网:https://tv.dmm.com/vod/;
- DMM TV 偶尔会有动画片有同步上架的日文字幕;
- Amazon Prime Video / Hulu
- 这两个网站所上架的日文字幕经常是相同的,但是每季度有日字的动画片数量非常有限;
- 近期我们发现,Amazon 的日字几乎每部动画片都是只有第一集有、 后续集数没有,欺骗性极强。
获取方法
电视台台本
不管是哪个电视台,不管是通过地上波、CS 还是 BS 频道获取的台本,都只能通过录像机录制后从录像文件中抽取。
特别地,如果录制的节目是 4K/8K 的节目,则需要使用专门的 4K/8K 录像机直接录制并刻录到 BD 上,然后通过抓取 BD 获得录像文件,再从录像文件中抽取。
本节只讨论普通的 1080i 节目。
普通的 1080i 节目在录制完成后通过会得到一个 TS 文件,该文件中包含了视频、音频、字幕、节目单、时间码等多种流。
我们使用 Caption2Ass 工具从 TS 文件中抽取字幕流,并将 ARIB 编码的字幕转换为 ASS 字幕文件。
这里有一个示例文件,便是从对应的录像中抽取得到的台本文件。
首先我们需要知道的是,录像文件中的字幕流采用的是 ARIB STD-B24 编码标准(后文简称「ARIB 编码」)。
该编码标准由字符集、ISO/IEC 2022 编码机制(定义多字符集切换)和控制码(定义颜色、大小等)等部分组成,但由于我们只关心文本部分,所以只讨论其字符集部分。
ARIB 编码包含了多个字符集合(后文统称「ARIB 字符集」):
- 日文汉字:JIS X 0208 字符集中的汉字(该字符集定义了假名和 ASCII 字符但未被使用);
- 平假名;
- 片假名;
- ASCII 字符;
- ARIB 外字:JIS X 0208 字符集中没有,由 ARIB 定义的特殊字符(如温泉符号「♨」)和若干生僻字(如「畵」);
- DRCS 动态字形:基于位图的可变点阵字符,可以在放送时动态定义,通常用来显示上述各字符子集中都没有的特殊图案符号(如「
」)和文字(如「﨑」「k㎡」等),以及配合节目效果绘制的图形;
ARIB 字符集和 Unicode 编码为并列关系,大部分 ARIB 字符集的字符都能在 Unicode 编码中找到对应的字符,Caption2Ass 会自动完成 ARIB 到 Unicode 的映射。
当 Caption2Ass 无法完成映射时,会将该外字的哈希值以形如「[外:CB17DF533B4EBD698A038DEFEDDECF8A]」(例子是点阵位图表示的「﨑」字)的形式直接存储到字幕文件中。
奶茶屋拥有自己的录像机,可以录制电视台的节目并从中提取字幕。
如果你没有条件搭建录像机,可以参考「获取片源」篇章的对应内容。
在线视频站
根据不同的在线视频网站,获取日字的方法也不尽相同。
考虑到版权问题,大宝典不直接提供爬取日字的方法。
最终获取到的台本通常是一个 SRT、ASS、VTT 等格式之一的字幕文件。
日字整理
无论是从什么渠道获取到的台本,通常都需要经过脚本整理(粗整)——人工调整(精整)两步骤才能成为符合制作标准的日文文本。
日字粗整
我们可以使用奶茶屋开发的「日字整理工具」处理上述任一渠道获取到的台本文件。
该工具使用方法非常简单:只需要将待整的台本拖入左侧的文本框,点击「格式化」,即可在右侧文本框中得到整理后的日文文本。
「日字整理工具」主要通过正则匹配替换台本的文本,所做的事情包括(可参考这个文件):
- 删去台本中不必要的时间轴、字幕样式、特效标签等信息,只保留日文文本;
- 删去台本中的听障人士用信息,如说话人名称、音效的文字描述等;
- 根据台本中所带表示句子连续的示意符号初步调整断句;
- 还原台本中未能成功映射的必要外字(如「畵」「﨑」),删去台本中不必要的外字(如「♪」「♡」等),不管其属于 ARIB 外字还是 DRCS;
- 调整台本中不符合奶茶屋日文字幕规范的字符;
- 西文字符(台本的西文字符不管有多少个连用都是全角,例如:「Perfect!」「R-125」);
- 半角假名(台本通常使用半角的片假名,例如:「グッズ」「インフォメーション」);
- 标点符号(台本连续使用的标点也是全部为全角,例如:「???」「!?」)
- 空格;
- 调整台本中一些因超出「常用汉字表」而全部或部分汉字用假名书写的汉语单词,将它们还原为对应的日文汉字;
- 如将「けん引」还原为「牽引」、「愛きょう」还原为「愛嬌」;
- 注意,工具不还原和制词语,如「あす」(明日)将保持原样;
- 如在使用中发现有未收录的被写成假名的汉语词汇,欢迎联系我们追加。
经过工具处理后,便得到了「粗整日字」。
要注意的是,「粗整日字」并未完全达到出片所需的日字标准,还需要人工进一步精整。
日字精整
日字精整的过程主要是人工对「粗整日字」进行进一步的检查和调整,使其符合字幕制作的日字标准。
日字精整主要需要调整的方面包括:
- 断句:根据句子的语义和实际台词的语音,调整句子的断句位置,使其更符合日文的表达习惯;
- 标点符号:检查和调整标点符号的使用,确保其符合日文的标点规范;
- 空格:为了便于精整时调整,脚本特意留下了过多的空格(因为删去全角空格比输入全角空格容易),精整时需要根据实际情况删除多余的空格;
- 日字中有错漏的台词;
- 当有多个人同时说话时,台本有时候会漏掉其中某个人的台词;
- 日字里常有「ねー」「なー」「よー」这样的拖长,或者写成了小的「ねぇ」等
- 这些拖长不应该直接删去,而是补写成实际的大写假名「ねえ」「なあ」「よお」,补写的规律为「ー」之前假名的元音部分对应的「あ」行假名;
- 工具会地图炮删去这些「ー」,应根据实际情况判断要不要补回;例如「おいしー」会被错误地处理成「おいし」,要注意还原为「おいしい」。
需要铭记:必须是精整过的日字,才允许进入下一步翻译和时轴制作的环节。
作业
- 下载这个从 Netflix 上抓取的台本,并使用「日字整理工具」得到「粗整日字」;
- 结合片源(《春夏秋冬代行者 春之舞》第 1 季第 04 集)精整上题得到的「粗整日字」,得到符合字幕制作标准的「精整日字」,并与参考答案对比(提示:可使用 diff 命令或 Beyond Compare 等工具)。