• Здраво и добредојдовте на форумот на IT.mk.

    Доколку сеуште не сте дел од најголемата заедница на ИТ професионалци и ентузијасти во Македонија, можете бесплатно да се - процесот нема да ви одземе повеќе од 2-3 минути, а за полесна регистрација овозможивме и регистрирање со Facebook и Steam.

Кико - македонски Text To Speech енџин

  • Ја почнал/а темата
  • #1

masterwu

On your way to fame
11 февруари 2016
712
610
Струга
masterwu's setup  
Processor & Cooler
Intel i5 6600K, Cooler Master Hyper 212 EVO
Motherboard
Asus Z170 Pro Gaming
Storage
Samsung 840 Evo 250GB, 2TB WD Caviar Blue, 640GB WD Caviar Green
PSU
Cooler Master V550S
RAM
16GB (2x 8GB) G.Skill Ripjaws V DDR4 3200MHz
Video card
Asus Strix GTX 970
Case
Cooler Master CM690 III
Mouse
Logitech Proteus Core G502
Keyboard
Das Keyboard Model S (MX-Brown switches)
Monitor
Dell UltraSharp U2410
OS
Windows 10
Темава планирав да ја креирам уште во јули, кога синтетизираниот глас доби прв паблик рилис, ама обврски лево-десно, и никако да добијам време да напишам нешто.

Што е Кико?

Кико е текст то спич енџин главно наменет за употреба со читачи на екран коишто се користат од страна на слепи лица за да користат компјутер, телефон, смарт тв итн. Досега, направени се неколку македонски енџини, но само еден беше поддржан од новите оперативни системи, а тој се вика ESpeak ng. Сигурно сте го слушнале него на Гугл транслејт, и знаете колку роботски звучи. Тука мора да се напомене дека станува збор за енџин којшто се процесира локално на вашиот уред, и работи без конекција на интернет. Повеќето од вас сигурно го знаат експерименталниот Маика.мк, но за жал тој не може да се употребува како енџин за читачи на екран поради тоа што процесирањето се случува на сервер и е пребавно за користење со читач на екран каде што лагот игра огромна улога.

За да добиете малку посликовита претстава, разликата би била да се игра Кантер 1.6 во Лан со лаг од 5мс, и да се игра онлајн со 150мс :D

Една од главните причини што слепите лица кај нас многу слабо го владеат работењето со компјутери / смарт телефони е тоа што досега немавме адекватен глас. Espeak иако функционален, си бара време за човек да се навикне да го слуша. Гласот Кико сега го решава тој проблем и следен чекор би бил вложување во самата обука на слепите лица кај нас. Од преку 2500 членови во Сојузот на слепи, може да се каже дека само десетина луѓе имаат просечно познавање од користење читачи на екран. А уште помалку го владеат англискиот јазик, па иако на англиски има куп материјал за самостојно учење, сето тоа е џабе кога не го владееш јазикот.

Кој може да го користи Кико?

Иако е главно наменет за користење од страна на слепи луѓе со screen reader програми, може да се користи и од страна на лица со аутизам со помош на комуникатор апликации, или лица коишто имаат дислексија.

Од друга страна, може да се користи од апп девелопери, на пример, речник апликација каде што може да се додаде плеј копче кога се селектира збор од речник за да се чуе како звучи зборот. Би имало примени и во сообраќај, на пример ЈСП да се опаметат и да не го гасат најавувањето на станици во автобусите. Па да речеме кога има нова линија за автобусот, или еден автобус променува линија, наместо да се снимаат аудио клипови рачно, вака ќе се апдејтира само еден стринг и синтезава го прави останатото.

Бидејќи гласот има верзија којашто се користи со Microsoft Speech API 5, може да се користи и со програма како Balabolka за генерирање на мп3 фајлови од синтезата. Значи внесуваш текст на македонски јазик, и добиваш резултат во форма на мп3 фајл. Подолу има линкови до Балаболка и Speech API 5 верзијата од гласот доколку сакате да го тестирате гласот.

Бидејќи тука имаме и програмери, треба да нагласам дека целиот код е достапен на Гитхаб, па ако на некого му се експериментира може да го ѕирне. Засега документацијата е на многу ниско ниво, па ќе ви треба малку повеќе време да рошкате во репозиторијата за да разберете што се случува.

„Јас сум обичен веб/апп девелопер. Што можам јас да направам за да биде мојот софтвер пристапен за слепи?“

Немој да ги игнорираш материјалите за accessibility! Џабе имаш гласовна синтеза ако апликацијата не е пристапна за читач на екран (Viber for Desktop burn in hell!). Најпросто, доколку имаш копчиња со икони кадешто нема текст бидејќи визуелно изгледа 100 пати подобро, ѕирни ги аксесибилити филдовите каде што се опишува копчето и стави текст. Тоа ќе си стои во позадина и само читачот на екран ќе го прочита. Доколку иконката ти е Плеј копче (триаголник), напиши Плеј во аксесибилити филдот.

иОС по дифолт го пополнува тој филд со името на фајлот на иконата, па многу често кога рачно не се пишуваат имињата на копчињата треба да слушам ic_exit, ic_home итн. Ова не е најидеално, но сто пати е подобро од тоа да нема никакво име па да кажува Unlabeled Button.

Ако сакаш да научиш нешто повеќе, изгуглај How do I make web/android/ios apps accessible to screen readers.

Линкови:

1. Страница за Кико каде што може да го спуштите гласот: Kiko, LouderPages.org
2. Гитхаб репозиторија: GitHub - RHVoice/RHVoice: a free and open source speech synthesizer for Russian and other languages
3. Balabolka за тие што сакаат да генерираат клипчиња: Balabolka
4. Туторијал за инсталација на гласот за НВДА читач на екран (ако познавате некој слеп или слабовиден којшто би сакал да го проба, може тука да добиете quickstart): НВДА: Инсталирање на гласот Кико

За крај, ако има интерес од видео клип за тоа како се користи ИТ Форум со скрин ридер, кажете па ќе ви снимам едно кратко видео.
 
Последна промена:

Нови мислења

Последни Теми

Статистика

Теми
43,518
Мислења
858,347
Членови
29,929
Најнов член
Jov4e
На врв Дно