[Перевод] Призраки в Юникоде

В 1978 году Министерство экономики, торговли и промышленности Японии установило кодировку, которую позже назовут JIS X 0208. Она до сих пор является основой всех японских кодировок. Но после выхода стандарта JIS люди заметили нечто странное: некоторые из добавленных символов не имели очевидных источников. Никто не мог сказать, что они означают и как их произносить. Никто не был уверен, откуда они появились. Эти символы теперь известны как призраки (幽霊文字).

0158eb3991c67b20a11a8af9950893bf.jpg
Будьте осторожны с тем, что вы пишете. via NDL
Долгое время символы-призраки оставались необъяснимым и практически забытым курьёзом, но в 1997 году началось расследование их происхождения. Хотя для всех символов в стандарте JIS должен быть указан источник, но даже в случае наличия такой записи она не очень конкретна: обычно просто указан документ, откуда получен символ.

Вы можете подумать, что название облегчит поиск происхождения символов. Но важно уточнить, что одним из наиболее распространённых «источников2 для призраков был «Обзор национальных административных районов» (国土行政区画総覧), полный список всех японских топонимов. Как и я поначалу предполагал, вы можете представить своего рода атлас, небольшую книгу с несколькими сотнями страниц. Но нет, последнее издание справочника — это семитомник, в каждом из которых примерно девятьсот страниц. Представьте себе поиск одного символа без ссылки на страницу.

Несмотря на трудности, расследование символов-призраков поиск происхождения символов оказался успешном — в основном. Исследователи опросили каталогизаторов, участвовавших в создании стандарта, и выяснили, что некоторые символы случайно изобретены как ошибки в процессе каталогизации. Например, 妛 — это ошибка, возникшая при попытке записать «山 над 女». Данная фраза встречается в названии определённого места и, таким образом, подходила для включения в стандарт JIS, но поскольку тогда ещё невозможно было напечатать целый составной символ, каталогизаторы напечатали 山 и 女 по отдельности, вырезали их и состыковали на листе бумаги. Но при копировании место стыка двух маленьких кусочков бумаги выглядело как чёрточка — и её по ошибке добавили к символу. Корректный символ (p-7fyfuwevhuwuq4eklbrelbfk0.png) добавили в JIS и Юникод гораздо позже — и он до сих пор не отображается на большинстве сайтов.

c44393879272faa21182c976297b9424.png
Основные символы-призраки: 妛挧暃椦槞蟐袮閠駲墸壥彁

В итоге только для одного символа не нашли ни точного источника, ни какого-либо исторического прецедента: это символ 彁. Наиболее вероятное объяснение, что он создан как неправильное прочтение символа 彊, но не удалось обнаружить ни одного конкретного инцидента.

После общего принятия стандарта JIS все эти символы попали в Юникод, у которого, а так был собственный отдельный набор символов-призраков со времён унификации CJK.

Подводя итог: в 1978 году в результате серии мелких ошибок несколько символов появились из ниоткуда. Ошибки оставались незамеченными достаточно долго, чтобы символы укоренились в стандарте, так что теперь эти призраки, по крайней мере, теоретически, проникли в каждый компьютер на планете, скрываясь в тёмных углах таблиц символов.

Вполне вероятно, что они останутся с человечеством навсегда. Ψ

Справочные материалы / ссылки:

© Habrahabr.ru