Вивчення специфічного китайського кодування для фонетичної подібності

Марина Данилевський, IBM

Виконання розумової гімнастики з метою проведення фонетичного розрізнення слів та фраз, таких як "я чую" на "я тут" або "я не можу так, але тонни" на "я не можу пришити гудзики", знайоме кожному, хто стикався з автоматично виправленими текстовими повідомленнями, мізерними публікаціями в соціальних мережах тощо. Хоча на перший погляд може здатися, що фонетичну подібність можна кількісно визначити лише для чутних слів, ця проблема часто присутня у суто текстових просторах.

Підходи ШІ для синтаксичного аналізу та розуміння тексту вимагають чистого введення, що, в свою чергу, передбачає необхідну кількість попередньої обробки вихідних даних. Неправильні омофони та синофони, незалежно від того, використовуються вони помилково чи жартують, повинні бути виправлені, як і будь-яка інша форма орфографічної чи граматичної помилки. У наведеному вище прикладі точне перетворення слів "чути" та "так" на їх фонетично подібні правильні відповіді вимагає чіткого відображення фонетичної подібності між парами слів.

Більшість алгоритмів фонетичної подібності мотивовано випадками використання англійської мови та розроблено для індоєвропейських мов. Однак багато мов, наприклад китайська, мають різну фонетичну структуру. Мовний звук китайського ієрогліфа представлений одним складом у піньїні, офіційній системі романізації китайської мови. Склад піньїні складається з: (необов'язкового) ініціалу (наприклад, "b", "zh" або "x"), кінцевого (наприклад, "a", "ou", "wai" або "yuan") і тон (яких п’ять). Прив'язка цих звуків мови до англійських фонем призводить до досить неточного подання, а використання індоєвропейських алгоритмів фонетичної подібності ще більше ускладнює проблему. Наприклад, два добре відомі алгоритми, Soundex і Double Metaphone, індексують приголосні при ігноруванні голосних (і не мають поняття тонів).

Оскільки склад піньїні представляє в середньому сім різних китайських ієрогліфів, переважання омофонів навіть більше, ніж в англійській. Тим часом використання піньїні для створення тексту надзвичайно поширене в мобільних програмах та додатках для чату, як при використанні мовлення в текст, так і при безпосередньому наборі тексту, оскільки практичніше вводити склад піньїні та вибирати призначений символ. В результаті, вхідні помилки на основі фонетики надзвичайно поширені, що підкреслює необхідність дуже точного алгоритму фонетичної подібності, на який можна покластися, щоб виправити помилки.