DOC

EVS 81999

By Shirley Daniels,2014-05-07 19:14
69 views 0
EVS 81999

    Standardi kavand / draft

    EVS 8:2007

    INFOTEHNOLOOGIA REEGLID

    EESTI KEELE JA KULTUURI KESKKONNAS

REQUIREMENTS ON INFORMATION TECHNOLOGY IN

    ESTONIAN LANGUAGE AND CULTURAL ENVIRONMENT

    1

     SISUKORD

    1. Sissejuhatus ......................................................................................................... xx 2. Määratlused ja lühendid ........................................................................................... 3. Ühebaidised märgistikud .......................................................................................

     3.1. Alustabel ........................................................................................................

     3.2. Eesti Windowsi kooditabel .............................................................................

     3.3. Eesti DOSi kooditabel .....................................................................................

     3.4. Eesti EBCDICi kooditabel .............................................................................. 4. Klaviatuur ................................................................................................................

    5. Eestis kasutatav ladina tähtede valik. ................................................................... 6. Eesti andmestik, kirjeldav tekst .............................................................................

    Lisa A. ESET1 märkide loend .........................................................................................

    Lisa B. Eesti andmestik ISO/IEC 14652 formaadis ........................................................

     LC_CTYPE Tähtede klassifikatsioon, suur- ja väiketähtede vastavus

     ja kooditeisendused

     LC_COLLATE Sortimisreeglid

     LC_TIME Kuupäeva ja kellaaja kirjutamine

     LC_NUMERIC Arvude kirjutamine

     LC_MONETARY Rahasummade kirjutamine

     LC_MESSAGES Jaatavad ja eitavad vastused

     LC_PAPER Paberi formaat

     LC_NAME Isikunimede kirjutamine

     LC_ADDRESS Postiaadresside kirjutamine

     LC_TELEPHONE Telefoninumbrite kirjutamine

     LC_MEASUREMENT Mõõtühikute süsteem

     LC_IDENTIFICATION Alajaotiste versiooninumbrid ja staatus,

     koostaja andmed

    Lisa C. Eesti andmestik POSIXi formaadis .................................................................... Lisa D. Unicode'i klaviatuur ............................................................................................ Lisa E. Muud Eesti lokaadi andmed ...............................................................................

    2

    1. Sissejuhatus

    EVS 8:2007 uustöötlus ei ole tingitud hädavajadusest kaasajastada mõni vananenud kultuurielemendi määrang või viia EVS vastavusse uute rahvusvaheliste

    standarditega, kuigi ka need aspektid pole vähetähtsad. Uustöötluse peamine eesmärk on

    Eesti ja eesti keele kultuuriandmestiku, lokaadi, võimalikult üldistatud esitamine, et tagada

    standardi pikaajaline kasutus. Erinevalt eelmisest standardist EVS 8:2000 on uustöötlus

    täielikult Unicode'i-keskne (vastab ISO standardile ISO/IEC 10646), mainides piiratumaid

    kooditabeleid vaid soovitusena, milliseid neist eelistada vananenud ja piiratud

    tarkvarakeskkonnas. Muutmata kujul kordab EVS 8:2007 osa ESET1 (Eestis kasutatav

    ladina tähtede valik), mis samuti eeldab ühebaidiste kooditabelite asemel märksa laiema

    tähevaliku kasutamist.

    Standard arvestab kehtivaid ISO rahvusvahelisi standardeid, standardimist Euroopa Liidus ning rakenduslikke lokaliseerimisvahendeid nagu POSIX ning IBM-i ja Microsofti

    rahvuskeelte tugivahendeid.

    Uue lisana on esitatud Unicode'i Common Locale Data Repository eesti lokaadi andmestik.

    On meeldiv tõdeda, et sarnaselt Eestiga on ka Põhjamaad koondanud keele ja kultuuri iseärasusi arvestavad nõuded ühtsesse kogumikku "Nordic Cultural Requirements

    on Information Technology". Sellest on edasi arenenud ISO/IEC standardid ISO/IEC 14652

    ja ISO/IEC 15897 keele- ja kultuurikonventsioonide kirjeldamise kohta ning neil põhinebki

    EVS 8 uus redaktsioon.

    Kuigi rea keele- ja kultuurielementide kirjeldamise formaalne reeglistik sisuliselt puudub (nt isikunimede struktuur, ametlikus dokumendis kasutatavad pöördumised,

    aadresside omapärad, ajavööndite ajaloolised muudatused jms), on nende konventsioonide

    Eestit puudutavad kirjeldused esitatud kokkuvõtliku tekstina, mille alusel rakendused võivad

    vajadusel koostada formaalseid reegleid.

    Standardi uus redaktsioon tühistab eelmise standardi EVS 8:2000. Uuele standardile viitamiseks on kasutusel tähistus EVS 8:2007.

    Käesoleva standardi koostamisel arvestati järgmisi normdokumente või nende projekte:

Unicode Common Locale Data Repository project ver 1.4.

Unicode Technical Standard #35 Locale Data Markup Language ver 1.4 revision 6.

Unicode Technical Standard #10 Unicode Collation Algorithm ver 5.0 revision 16.

ISO/IEC 15897:1999. Information technology -- Procedures for registration of cultural ele-

    ments.

ISO/IEC TR 14652:2004. Specification method for cultural conventions.

ISO/IEC 14651:2001. International string ordering and comparison.

ISO 8859-1:1998. Information processing. 8 bit single-byte coded character sets. Part 1:

    Latin alphabet No.1.

ISO 8859-15:1999. Information processing. 8 bit single-byte coded character sets. Part 15:

    Latin alphabet No.9.

     3

    ISO 6937-2:1983. Information processing. Coded character sets for text communication. Part 2. Latin alphabetic and non-alphabetic graphic characters.

ISO 2022:1994. Character code structure and extension techniques.

    ISO 10646:2003. Information technology. Universal Multiple-Octet Coded Character Set (UCS). Part 1: Architecture and Basic Multilingual Plane.

    ISO/IEC 9995-1:2006. Information technology. Keyboard layouts for text and office sys-tems. Part 1: General principles governing keyboard layouts.

    National Language Support Reference Manual. Volume 2. Third Edition. /IBM. National Language Technical Center./ IBM, May 1992.

    ENSV VST 582-89 (projekt). Eesti ja vene kooditabelid. 7- ja 8-bitised koodid.

ENSV VST 581-89 (projekt). Klaviatuurid (sõrmistikud).

     4

    2. Määratlused ja lühendid

ASCII (American National Standard Code for Information Interchange).

     Ameerika rahvuslik 7-bitiste märgikoodide standard, kasutamiseks infovahetusel, andmetöötluses ning sidesüsteemides. ASCII kooditabel sisaldab juhtmärke ja kirjamärke. Eesti aluskooditabeli vasak pool langeb kokku ASCII kooditabeliga.

    ISO (International Organization for Standardization).

     Rahvusvaheline Standardiorganisatsioon.

    IEC (International Electrotechnical Commission)

     Rahvusvaheline Elektrotehnikakomisjon.

    MES (Multilingual European Subset).

     Euroopa keelte märgistik. MES-1 hõlmab ainult ladina kirja kuid on mõnevõrra suurem kui ESET1. MES-2 hõlmab lisaks ladina kirjale ka kreeka ja kirillitsa märke. MES-3A on avatud märgistik, mis täieneb koos lisandustega standardile ISO/IEC 10646. MES-3A hõlmab kogu ladina, kreeka, kirillitsa, armeenia ja gruusia kirja.

    ISO/IEC 10646, Unicode

     Rahvusvaheline märgistike standard, mis lubab kodeerida, edastada, töödelda ja salvestada kõigi maailma keelte kirjamärke. Hetkel on kodeeritud 39 000 märki. ISO/IEC 10646 ja Unicode arenevad sünkroonselt ning neid on käesoleva standardi piires kasutatud sünonüümidena.

    UCS (Universal Multiple-Octet Coded Character Set)

     ISO/IEC 10646 kodeeritud märgistik.

    Juhtfunktsioon, juhtmärk.

     Märk, mis toimib tegevuse (reavahetuse, sõnumi lõpu jne) käsuna ning millel ei ole iseseisvat graafilist kuju. Käesolevas standardis ei sätestata juhtmärke. Nende kasutamine peab toimuma täpses vastavuses rahvusvaheliste standarditega, mille järgi on juhtmärkide jaoks reserveeritud veerud 0, 1 (e vahemik C0) ja 8, 9 (e vahemik C1). Kirjamärk, graafiline märk.

     Erinevalt juhtmärgist omab kirjamärk visuaalset kuju, teda võib kirjutada käsitsi, trükkida, või kuvada ekraanile.

    Märk (character).

     Märgistiku element, mida kasutatakse andmete esitamiseks või korraldamiseks ning andmevoo juhtimiseks.

    Märgistik, märgivalik (character set, character repertoire).

     Terviklik märkide kogum. Ühte märgistikku võib kodeerida mitmel moel. Kodeeritud märgistik (coded character set).

     Märke ja neid esindavaid koode üheselt määratlev reeglistik.

    Kooditabel.

     Kodeeritud märgistiku esitus tabeli kujul. Ühebaidiste märgistike kooditabelis on 256 positsiooni: 16 rida ja 16 veergu. Read ja veerud nummerdatakse kuueteistkümnend-arvudega: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F. Märgi kuueteistkümnendkoodis xy number x näitab veeru numbrit ja y rea numbrit.

    Kirjasüsteem e kiri (script).

     Kirjamärkide hulk, mis on kasutusel ühe või mitme keele kirjutamiseks. Eesti kasutab ladina kirja, mis on levinud ka suures osas Euroopast. Lisaks on Euroopas kastusel ka kreeka ja heebrea kiri ning kirillitsa.

    Täht (letter).

     Kirjamärk, mis esineb loomuliku keele tähestikus.

    Diakriitiline märk e diakriitik (diacritical mark).

     Lisamärk tähe koostises, näiteks täpid.

    Ligatuur (ligature).

     5

     Liitmärk, kahe märgi ühend, näiteks "OE".

    Bait, oktett (byte, octet).

     Järjestatud jada 8 bitist (kahendnumbrist), mida vaadeldakse tervikühikuna. Kaheksa-kohalise kahendarvu asemel kasutatakse enamasti vastavat kümnend- või kuueteist-kümnendarvu. Näiteks bitijada "11011100" võib kirjutada kümnendarvuna "220" või kuue-teistkümnendarvuna "DC".

    EBCDIC (Extended Binary Coded Decimal Interchange Code).

     IBM suurarvutites kasutatavate kooditabelite pere. Eesti EBCDIC kooditabel baseerub IBM CP 278 tabelil.

    Latin-1 (Latin alphabet #1).

     Lääne-Euroopas, Põhja-, Kesk- ja Lõuna-Ameerikas kasutatav 191 märgist koosnev märgistik. Latin-1 on vormistatud standardina ISO 8859-1.

    Latin-9 (Latin alphabet #9).

     191 märgist koosnev kooditabel, mis baseerub Latin-1l. Seitse uut märki, mis jäid välja kooditabelist Latin-1, on lisatud koodivahemikku A0-BF. Latin-9 on vormistatud standardina ISO 8859-15 ning see on ka Eesti aluskooditabel.

    Keele kiht klaviatuuril (language layer).

     Klaviatuuril võib olla mitu keele kihti (näiteks eesti ja vene keele kiht). Igal keele kihil on kuni kolm registrit (alumine register, ülemine register, lisaregister). QWERTY klaviatuur.

     Klaviatuur, mille teine rida (D-rida) vasakult paremale sisaldab tähti Q, W, E, R, T, Y, U, I, O, P. See klaviatuur domineerib ladina tähestikuga kultuurides (välja arvatud prantsuse kultuur). Käesolevas standardis esitatud eesti klaviatuur on QWERTY klaviatuuri üks variante. Prantsuse kultuurikeskkonnas on levinud AZERTY klaviatuur, saksa kultuuri-keskkonnas kasutati QWERTZ klaviatuuri.

    Klaviatuuri register, alammärgistik (keyboard level).

     Klaviatuuri mistahes klahvivajutusega võib ühe keelekihi piires genereerida kuni kolm eri märki, vastavalt sellele, kas sõrmise vajutus on vahetu, koos teise taseme valiku klahviga (tähisega Shift või püstnool) või kolmanda taseme valiku klahviga (tähisega AltGr või topeltpüstnool).

    Sammuta märk (nonescaping key, nonspacing key, dead key).

     Sõrmis klaviatuuril, millele vajutamisel ei muutu kursori positsioon. Sammuta märki saab kasutada diakriitikuga märkide genereerimiseks.

    Suurtähelukk (capslock, capitals lock).

     Klaviatuuri sõrmise funktsioon, mis lùlitab klaviatuuridraiveri suurtähereţiimi, kuid ei

    mõju numbrite ja muude märkidega sõrmistele. Suurtähelukk on registersõrmis: temale vajutades lülitatakse vastav funktsioon sisse või välja.

    POSIX (Portable Operating Systems Interface).

     Standardne mobiilne operatsioonisüsteem ja tema keskkond. POSIXit võib vaadelda kui standardiseeritud UNIXit. Käesolev standard defineerib Eesti lokaadi (locale) POSIXi ja

    ISO/IEC 14652 formaadis.

    Lokaat (Locale).

     Nende kasutajakeskkonna osade määratlus, mis sõltuvad keelest ja kultuurikokku-lepetest. Lokaat jaguneb üheks või mitmeks kategooriaks. Kategooriatel on kindlaks-määratud nimetused ning iga kategooria määrab süsteemi osade käitumise teatud kindlaid aspekte. Standard ISO/IEC 14652 lisab POSIXis defineeritud kategooriatele mitu uut kate-gooriat nagu nt postiaadresside esitusviis või kasutatava paberi formaat. FDCC-hulk (FDCC-set, set of Formal Definitions of Cultural Conventions).

     Nende kasutajakeskkonna osade määratlus, mis sõltuvad keelest ja kultuurikokku-lepetest. FDCC hõlmab ja laiendab C ja POSIXi lokaadimõistet.

     6

    3. Ühebaidised märgistikud

    Käesolevas peatükis kirjeldatakse standardkooditabeleid. Laiemalt kasutatavate

    kooditabelite järel esitatakse selle kooditabeli vastavustabel (mapping) standardiga ISO/IEC

    10646-1. Kommentaaridena on lisatud ka vastava märgi ingliskeelne nimetus Unicode 2.0

    järgi ja nimetus eesti keeles. Vastavalt ISO standardite traditsioonidele on selgitav tekst

    kirjutatud suurtähtedega. Märgi eestikeelse nimetuse paremaks eristuseks on see esitatud

    väiketähtedega.

     7

8

3.1 Alustabel

    Standardi alustabel määratleb 191 kirjamärki ja nende kodeeritud esituse ühe

    kaheksabitise baidiga. Tabel vastab standardile ISO 8859-15 (nn Latin alphabet nr 9), mis on eesti keelele kohaldatav ilma muutusteta.

    ISO 8859-15 ja ISO 10646 vastavustabel

    Veergudes: positsioon kooditabelis, Unicode'i kood, nimi inglise / eesti keeles.

     20 # SPACE / tühik 21 # EXCLAMATION MARK / hüüumärk 22 # QUOTATION MARK / jutumärk 23 # NUMBER SIGN / numbriosund 24 # DOLLAR SIGN / dollarimärk 25 # PERCENT SIGN / protsendimärk 26 # AMPERSAND / ja-märk (ampersand) 27 # APOSTROPHE / ülakoma (apostroof) 28 # LEFT PARENTHESIS / vasaksulg 29 # RIGHT PARENTHESIS / paremsulg 2A # ASTERISK / tärn 2B # PLUS SIGN / pluss 2C # COMMA / koma 2D # HYPHEN-MINUS / sidekriips-miinus (keskkriips) 2E # FULL STOP / punkt 2F # SOLIDUS / kaldkriips 30 # DIGIT ZERO / number null 31 # DIGIT ONE / number üks 32 # DIGIT TWO / number kaks 33 # DIGIT THREE / number kolm 34 # DIGIT FOUR / number neli 35 # DIGIT FIVE / number viis 36 # DIGIT SIX / number kuus 37 # DIGIT SEVEN / number seitse 38 # DIGIT EIGHT / number kaheksa 39 # DIGIT NINE / number üheksa 3A # COLON / koolon 3B # SEMICOLON / semikoolon 3C # LESS-THAN SIGN / väiksem-kui-märk 3D # EQUALS SIGN / võrdusmärk 3E # GREATER-THAN SIGN / suurem-kui-märk 3F # QUESTION MARK / küsimärk 40 # COMMERCIAL AT / kommertsmärk 41 # LATIN CAPITAL LETTER A / ladina suur A 42 # LATIN CAPITAL LETTER B / ladina suur B 43 # LATIN CAPITAL LETTER C / ladina suur C 44 # LATIN CAPITAL LETTER D / ladina suur D 45 # LATIN CAPITAL LETTER E / ladina suur E 46 # LATIN CAPITAL LETTER F / ladina suur F 47 # LATIN CAPITAL LETTER G / ladina suur G 48 # LATIN CAPITAL LETTER H / ladina suur H 49 # LATIN CAPITAL LETTER I / ladina suur I 4A # LATIN CAPITAL LETTER J / ladina suur J 4B # LATIN CAPITAL LETTER K / ladina suur K 4C # LATIN CAPITAL LETTER L / ladina suur L 4D # LATIN CAPITAL LETTER M / ladina suur M 4E # LATIN CAPITAL LETTER N / ladina suur N 4F # LATIN CAPITAL LETTER O / ladina suur O 50 # LATIN CAPITAL LETTER P / ladina suur P 51 # LATIN CAPITAL LETTER Q / ladina suur Q 52 # LATIN CAPITAL LETTER R / ladina suur R 53 # LATIN CAPITAL LETTER S / ladina suur S 54 # LATIN CAPITAL LETTER T / ladina suur T 55 # LATIN CAPITAL LETTER U / ladina suur U 56 # LATIN CAPITAL LETTER V / ladina suur V 57 # LATIN CAPITAL LETTER W / ladina suur W 58 # LATIN CAPITAL LETTER X / ladina suur X 59 # LATIN CAPITAL LETTER Y / ladina suur Y 5A # LATIN CAPITAL LETTER Z / ladina suur Z 5B # LEFT SQUARE BRACKET / vasak nurksulg 5C # REVERSE SOLIDUS / kurakaldkriips 5D # RIGHT SQUARE BRACKET / parem nurksulg 5E # CIRCUMFLEX ACCENT / katus (tsirkumfleks) 5F # LOW LINE / allkriips 60 # GRAVE ACCENT / graavis

    9

61 # LATIN SMALL LETTER A / ladina väike A 62 # LATIN SMALL LETTER B / ladina väike B 63 # LATIN SMALL LETTER C / ladina väike C 64 # LATIN SMALL LETTER D / ladina väike D 65 # LATIN SMALL LETTER E / ladina väike E 66 # LATIN SMALL LETTER F / ladina väike F 67 # LATIN SMALL LETTER G / ladina väike G 68 # LATIN SMALL LETTER H / ladina väike H 69 # LATIN SMALL LETTER I / ladina väike I 6A # LATIN SMALL LETTER J / ladina väike J 6B # LATIN SMALL LETTER K / ladina väike K 6C # LATIN SMALL LETTER L / ladina väike L 6D # LATIN SMALL LETTER M / ladina väike M 6E # LATIN SMALL LETTER N / ladina väike N 6F # LATIN SMALL LETTER O / ladina väike O 70 # LATIN SMALL LETTER P / ladina väike P 71 # LATIN SMALL LETTER Q / ladina väike Q 72 # LATIN SMALL LETTER R / ladina väike R 73 # LATIN SMALL LETTER S / ladina väike S 74 # LATIN SMALL LETTER T / ladina väike T 75 # LATIN SMALL LETTER U / ladina väike U 76 # LATIN SMALL LETTER V / ladina väike V 77 # LATIN SMALL LETTER W / ladina väike W 78 # LATIN SMALL LETTER X / ladina väike X 79 # LATIN SMALL LETTER Y / ladina väike Y 7A # LATIN SMALL LETTER Z / ladina väike Z 7B # LEFT CURLY BRACKET / vasak looksulg 7C # VERTICAL LINE / püstkriips 7D # RIGHT CURLY BRACKET / parem looksulg 7E # TILDE / tilde A0 # NO-BREAK SPACE / sisetühik A1 # INVERTED EXCLAMATION MARK / pöördhüüumärk A2 # CENT SIGN / sendimärk A3 # POUND SIGN / naelamärk A4 # EURO SIGN / euromärk A5 # YEN SIGN / jeenimärk A6 # LATIN CAPITAL LETTER S WITH CARON / ladina suur S haagiga A7 # SECTION SIGN / paragrahvi märk A8 # LATIN SMALL LETTER S WITH CARON / ladina väike S haagiga A9 # COPYRIGHT SIGN / autoriõiguse märk AA # FEMININE ORDINAL INDICATOR / naisliin AB # LEFT-POINTING DOUBLE ANGLE QUOTATION MARK / vasak nurkjutumärk AC # NOT SIGN / ei-märk AD # SOFT HYPHEN / ujuv sidekriips AE # REGISTERED SIGN / registreerimismärk AF # MACRON / ülakriips (makron) B0 # DEGREE SIGN / kraadimärk B1 # PLUS-MINUS SIGN / pluss-miinus B2 # SUPERSCRIPT TWO / kaks ülaindeksina B3 # SUPERSCRIPT THREE / kolm ülaindeksina B4 # LATIN CAPITAL LETTER Z WITH CARON / ladina suur Z haagiga B5 # MICRO SIGN / mikronimärk B6 # PILCROW SIGN / USA paragrahvimärk B7 # MIDDLE DOT / punkt keskel B8 # LATIN SMALL LETTER Z WITH CARON / ladina väike Z haagiga B9 # SUPERSCRIPT ONE / üks ülaindeksina BA # MASCULINE ORDINAL INDICATOR / meesliin BB # RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK / parem nurkjutumärk BC # LATIN CAPITAL LIGATURE OE / ladina suur ligatuur OE BD # LATIN SMALL LIGATURE OE / ladina väike ligatuur OE BE # LATIN CAPITAL LETTER Y WITH DIAERESIS / ladina suur Y täppidega BF # INVERTED QUESTION MARK / pöördküsimärk C0 # LATIN CAPITAL LETTER A WITH GRAVE / ladina suur A graavisega C1 # LATIN CAPITAL LETTER A WITH ACUTE / ladina suur A akuudiga C2 # LATIN CAPITAL LETTER A WITH CIRCUMFLEX / ladina suur A katusega C3 # LATIN CAPITAL LETTER A WITH TILDE / ladina suur A tildega C4 # LATIN CAPITAL LETTER A WITH DIAERESIS / ladina suur A täppidega C5 # LATIN CAPITAL LETTER A WITH RING ABOVE / ladina suur A ülasõõriga C6 # LATIN CAPITAL LETTER AE / ladina suur AE C7 # LATIN CAPITAL LETTER C WITH CEDILLA / ladina suur C sediiga C8 # LATIN CAPITAL LETTER E WITH GRAVE / ladina suur E graavisega C9 # LATIN CAPITAL LETTER E WITH ACUTE / ladina suur E akuudiga CA # LATIN CAPITAL LETTER E WITH CIRCUMFLEX / ladina suur E katusega CB # LATIN CAPITAL LETTER E WITH DIAERESIS / ladina suur E täppidega CC # LATIN CAPITAL LETTER I WITH GRAVE / ladina suur I graavisega CD # LATIN CAPITAL LETTER I WITH ACUTE / ladina suur I akuudiga CE # LATIN CAPITAL LETTER I WITH CIRCUMFLEX / ladina suur I katusega CF # LATIN CAPITAL LETTER I WITH DIAERESIS / ladina suur I täppidega D0 # LATIN CAPITAL LETTER ETH / ladina suur ETH

10

Report this document

For any questions or suggestions please email
cust-service@docsford.com