紛らわしいUnicode現象

0
2022.03.03

ホームネットワークに刺激的な現象があります。
私のNASはSynologyで、3台のワークステーションはAppleベースで、1台はWindows10です。
最近、Apple finderを使用してファイルをコピーする際に問題が発生し、下のディレクトリに遭遇したときに鳴りました。

アントニン・ドヴォルザーク--Symphonien_No._8 + No._9-»Aus_der_Neuen_Welt«-(Kubelik)/

コマンドラインからls-liを使用してそれを見ると、明らかに同じ名前であるがiノードが異なる2つのディレクトリが見つかりました。

 441472264 drwxr-xr-x 2 admin users 4096 Mar  2 15:38 Antonín_Dvorák--Symphonien_No._8+No._9-»Aus_der_Neuen_Welt«-(Kubelik)/
441472320 drwxr-xr-x 2 admin users 4096 Mar  2 15:38 Antonín_Dvorák--Symphonien_No._8+No._9-»Aus_der_Neuen_Welt«-(Kubelik)/

Windowsファイルエクスプローラーでは、名前の表示が少し異なります。
Linuxでは、まったく同じように表示されます。
私が試したユーティリティの中には、ディレクトリに問題がなかったものもありましたが、他のユーティリティには問題がありました。
lsで16進ダンプを見る| od -xcAntonín_Dvorákという名前には、 íáの2つの異なるUnicode表現があることがわかりました。

 0000000    6e41    6f74    696e    81cc    5f6e    7644    726f    cc61
          A   n   t   o   n   i 314 201   n   _   D   v   o   r   a 314
0000020    6b81    2d2d    7953    706d    6f68    696e    6e65    4e5f
        201   k   -   -   S   y   m   p   h   o   n   i   e   n   _   N

0000000    6e41    6f74    c36e    6ead    445f    6f76    c372    6ba1
          A   n   t   o   n 303 255   n   _   D   v   o   r 303 241   k

これがどのように起こったのかはわかりませんが、コピーしたりバックアップを作成したりすると混乱が生じたのではないかと思います。深く掘り下げると、クラシック音楽のコレクションにこのようなアイテムがかなりたくさん見つかったからです。
誰かが同様の問題を見たことがあり、おそらくこれにもっと光を当てることができますか?

回答
1
2022.03.03

誰かが同様の問題を見たことがありますか...

はい

2つの異なるファイル名が視覚的に同一に見える可能性があるという点で類似しています。

特定のケースの正確な原因を理解するのに役立つほど十分に類似していません。

そしておそらくこれにもっと光を当てることができますか?

あなたはおそらくそれを正しく特徴付けていると思います。

この種の問題を減らすことを目的としたUnicodeの「正規形」があります。

異なるシステム間でデータを転送するソフトウェアは、これを防ぐために正規化された形式に変換される場合があります。ファイル転送プロトコル(FTP)がテキストファイルのプラットフォーム固有の行末を変更するのと同じように、問題が発生する可能性があります。状況によっては、正規化を含むあらゆる形式の変更が実際に問題を悪化させる可能性があると思います。


関連している:

 SYNOPSIS
       convmv [options] FILE(S) ... DIRECTORY(S)

OPTIONS


...

       --nfc
           target files will be normalization form C for UTF-8 (Linux etc.)

       --nfd
           target files will be normalization form D for UTF-8 (OS X etc.).