ドラマの中の英語

The name of the game is communication

字幕ファイルの I と l

当ブログは字幕ファイルに(拡張子ass, srt)に大いに依存してるんですが、たまにアイの大文字Iがエルの小文字lになっているパターンがあります。見た目では区別付かないし、検索する時ヒットしなくなるので本当にどうにかして欲しい感じですが、ようやくその原因が分かりました。subsceneのコメ欄に
OCR'd from DVD sub/idxと言う文字があってヒントになりました。このOCRがポイントで、optical character recognition, 光学式文字認識、つまり字幕入りの画像として一旦取り込んで、そこから文字を判別しているんですね。だからフォントによってはIとlが区別付かない。Ilです。でも、DVDって字幕用のデータが別に用意されていてそこから生データを読み取れば良い気がするんですが、暗号化などされていて難しいんでしょうか? スッキリした反面、これからOCRedされた字幕は注意が必要と感じました。