Як ми навчаємо штучний інтелект розуміти і відтворювати українську мову?

Як ми навчаємо штучний інтелект розуміти і відтворювати українську мову?
Для того, щоб машина вільно «спілкувалася» з Вами за допомогою голосових або текстових повідомлень, необхідно, щоб вона володіла можливостями обробки природної мови (NLP). Хоча процес обробки природної мови не є новою наукою, технологія швидко розвивається завдяки підвищенню інтересу до комунікацій між людьми, а також наявності великих даних, потужних обчислень та розширених алгоритмів.

Загальні підходи NLP ґрунтуються на  алгоритмах, які трансформують текст у слова та певним чином позначають їх, на основі позиції та функції слів у реченні. Інтелектуальні рішення компанії Inlimited для пошуку та аналізу Big Data, надають можливість виконувати понад 500 функцій на основі NLP, які дозволять легко та всебічно взаємодіяти з інформацією.

Наведемо декілька з них:
- Розпізнавання іменованих сутностей (NER) - пошук та класифікація елементів у тексті за заздалегідь визначеними категоріями, такими як: імена людей, назви компаній, місця розташування, номери телефонів. Більше того, інтелектуальна платформа дозволяє знаходити приховані зв'язки між іменованими сутностями.
- Можливість пошуку за коренем слова (stemming) – виділення кореня слова і подальший пошук за змістом. Наприклад, запит "біг" буде автоматично підтягувати інформацію про "бігове взуття", про "бігунів", про "місця для бігу". Така функція забезпечує більш глибокий пошук інформації за заданою темою.
- Розпізнавання мови. Розмовна мова істотно відрізняється від письмової - як в граматиці, так і в синтаксисі.  NLP «розуміє» мову через лінгвістику, це дозволяє виокремлювати основні поняття з аудіо та відео файлів та проводити контент-аналіз.
- Аналіз настроїв (sentiment analysis) - визначення ставлення автора до написаного та класифікація повідомлень як позитивних, негативних чи нейтральних.

Щодо процесу навчання штучного інтелекту, то, за для того, щоб комп’ютер розпізнавав та відтворював українську мову, необхідно докласти багато зусиль. Це пов’язано з тим, що українська мова має загальновживанi слова, дiалектнi, спецiальнi, застарiлi, авторськi неологiзми та суржик. Не дивлячись на таку складність, навчити штучний інтелект українській мові можна!

Наведемо Вам алгоритм дій, який використовує наша компанія:
1. Скласти список фонем. Фонеми повинні охоплювати усю можливу вимову. Для української мови існує 48 фонем.
2. Створити словник. За допомогою слів з тексту, необхідно відтворювати фонетичну вимову, поки слова не будуть визнані інтелектуальною платформою. Цей етап безпосередньо для того, щоб платформа могла вивчити можливі взаємозв'язки між буквою (послідовністю букв) та фонемами і створити генератор мовлення для української мови.
3. Cтворити спеціалізований словник. На цьому етапі збираються будь-які слова з онлайн-ЗМІ, блогів, сайтів, спеціальних ресурсів тощо. Цей етап допомагає створити мовну модель та список частоти використання слів.
4. Навчити систему «нормалізовувати текст».  На цьому етапі застосовується сценарна підтримка для тексту, придатного для розпізнавання. Наприклад, на українській мові "1 лип. 2018" повинно бути зіставлено зі словами " Перше липня дві тисячі вісімнадцятого року" або «Під-во «Україна»» зіставлятися з «Підприємство «Україна»».
5. Зібрати аудіодані. Для тренування потрібен звук разом із відповідною транскрипцією, яка має бути вільна від музики, шуму та звукових ефектів.
6. Оновити програмний компонент IDOL Speech, щоб визнати і в подальшому використовувати українську мову.

Що стосується застосування розробки компанії Inlimited – рішення, заснованого на технологіях останнього покоління, воно дозволить в автоматичному режимі одночасно проводити моніторинг та аналіз потоків мовлення як україномовних джерел, так і інформації на 32 мовах світу,  для  миттєвого виявлення новин, програм, кадрів, логотипів компаній, особистостей, рекламних блоків, що цікавлять замовника.  

Звертайтеся до нас, якщо Ви зацікавлені у рішенні, яке дозволяє в автоматичному режимі виконувати пошук, інтелектуальну обробку та аналіз аудіо-відео інформації. Будемо раді створити для Вас індивідуальне рішення.
10.07.2018
Ми це зробили: інтелектуальна система розпізнає українську мову Ми це зробили: інтелектуальна система розпізнає українську мову
30.11.2018
Наша компанія навчила штучний інтелект розуміти та відтворювати українську мову.
Детальніше
"CHANGING THE FUTURE with Micro Focus" "CHANGING THE FUTURE with Micro Focus"
06.11.2018
6 листопада 2018 року наша компанія провела  конференцію, присвячену  можливостя...
Детальніше
Ми отримали партнерський статус "GOLD" компанії Micro Focus Ми отримали партнерський статус "GOLD" компанії Micro Focus
19.10.2018
Ми отримали партнерський статус «GOLD» від одного з лідерів світового ринку програмного забезпечення...
Детальніше
Рішення Inlimited допомогає контролювати територію морського порту Рішення Inlimited допомогає контролювати територію морського порту
03.10.2018
Яким чином контролювати водну акваторію для своєчасного реагування на штатну або непередбачувану ситуацію?...
Детальніше
Як працює Inlimited Face Recognition? Як працює Inlimited Face Recognition?
26.09.2018
Чи може система розпізнавання облич давати 100% результат?
Детальніше
Які прогнози розвитку ринку відеоаналітики до 2022 року? Які прогнози розвитку ринку відеоаналітики до 2022 року?
11.09.2018
Очікується, що ринок відеоаналітики зросте в 4,25 рази і досягне 11,17 млрд. дол. США до 2022 року, ...
Детальніше
Компанія Inlimited отримала партнерський статус «Gold» від компанії Milestone Systems Компанія Inlimited отримала партнерський статус «Gold» від компанії Milestone Systems
14.08.2018
Cтатус «Gold» підтверджує високу кваліфікацію спеціалістів та експертизу компанії Inlimited у сфері ...
Детальніше
Як ми навчаємо штучний інтелект розуміти і відтворювати українську мову? Як ми навчаємо штучний інтелект розуміти і відтворювати українську мову?
10.07.2018
Компанія Inlimited навчає інтелектуальну платформу IDOL українській мові і ділиться тонкощами цього ...
Детальніше
Компанія Inlimited стала партнером німецького виробника IP-відеосистем  - компанії Mobotix Компанія Inlimited стала партнером німецького виробника IP-відеосистем - компанії Mobotix
29.06.2018
29 червня 2018 року наша компанія була нагороджена партнерським сертифікатом від компанії Mobotix - ...
Детальніше
Як може аналіз соціальних медіа поліпшити управління життєдіяльністю міста? Як може аналіз соціальних медіа поліпшити управління життєдіяльністю міста?
17.01.2018
Зростання Інтернет дозволяє інформації сьогодні поширюватися швидше, ніж будь-коли раніше в історії ...
Детальніше