Se connecter
Se connecter
Inscription
Mot de passe perdu
Connexion:
[Actualités]
Nvidia prévient d'une pénurie de GPU ce trimestre, avec une reprise début 2025
[Actualités]
Les Technos #469 : Un jour sans fin
[Actualités]
Test Farming Simulator 25 (PS5) - Des innovations intéressantes mais des perfor...
[Actualités]
Qualcomm souhaite réduire davantage les prix des PC Windows basés sur ARM
[Actualités]
Finalement, Google préparerait une nouvelle tablette mais la Pixel Tablet 2 ser...
[Actualités]
Windows 10 version 22H2 : erreur de mise à jour et de désinstallation
[Actualités]
OpenAI prépare désormais son propre navigateur
[Actualités]
WhatsApp bat Telegram : les transcriptions des messages vocaux arrivent pour tou...
[Actualités]
Unreal et Unreal Tournament désormais gratuits sur Internet Archive
[Actualités]
Windows 10 : Microsoft affiche des publicités en plein écran pour les PC équi...
[Articles]
Dungeons 4 - Nintendo Switch Edition
[Articles]
The Bridge Curse 2 : The Extrication
[Articles]
Farmagia
[Articles]
I*CHU: Chibi Edition
[Articles]
Farming Simulator 25
[Articles]
Goblin Slayer -Another Adventurer- Nightmare Feast
[Articles]
Deel lance des programmes en marque blanche et pour les revendeurs pour plus de ...
[Articles]
ESET Research : WolfsBane, nouvelle porte dérobée de cyber-espionnage Linux cr...
[Articles]
Devoteam présente son nouveau plan stratégique « AMPLIFY » avec un fort acce...
[Articles]
LEGO Horizon Adventures
Actualités
Lettre d'information
Proposer une actualité
Archives
Actualités
Articles
Programmation
Press Release
Matériel
Logiciels
Livres
Interviews
Derniers commentaires
Jeux Vidéos
XBox One
XBox 360
Wii U
PSP
PS4
PS3
PC
DS
GameCube
3DS
Forum
Derniers messages
Informatique
Fun
Divers
Logithèque
Blogs
Divers
A Propos
Annonceurs
Contact
Recherche
RSS
Editer un article
Titre
Mots Clés
Texte
[size=18] [b]Nom[/b] [/size] Unicode - Le jeu de caractères universel. [size=18] [b]Description[/b] [/size] Le standard international [b]ISO 10646[/b] définit le [b]Universal Character Set (UCS) .[/b] [b]UCS[/b] contient tous les caractères de tous les autres jeux de caractères standards. Il garantit également une compatibilité circulaire, ce qui signifie que les tables de conversions permettent de ne perdre aucune information quand une chaîne de caractères est convertie dans un autre codage, puis reconvertie en sens inverse. [b]UCS[/b] contient les caractères nécessaires pour représenter presque tous les langages connus. Il inclut non seulement les alphabets Latin, Grec, Cyrillique, Hébreu, Arabe, Arménien, et Géorgien, mais également Chinois Japonais, Hiragana, Katakana, Coréen, Hangul, Devanagari, Bengali, Gurmukhi, Gujarati, Oriya, Tamil, Telugu, Kannada, Malayam, Thai, Lao, Khmer, Bopomofo, Tibétain, Runique, Ethiopien, Canadien Syllabique, Cherokee, Mongol, Ogham, Myanmar, Sinhala, Thaana, Yi, et d'autres. Pour les écritures pas encore intégrées, des recherches sont en cours pour optimiser l'encodage et elles seront ajoutées. Ceci peut inclure non seulement des hiéroglyphes et des langues indo-européennes, mais aussi des écritures artistiques comme Tengwar, Cirth, ou Klingon. UCS contient un grand nombre de symboles graphiques, typographiques, mathématiques, ou scientifiques comme ceux fournis par TeX, Postscript, MS-DOS, MacIntosh, Videotext, OCR, et de nombreux traitements de texte et système d'édition. Le standard UCS (ISO 10646) décrit un jeu de caractères sur 31 bits, constitué de 128 [i]groupes[/i] sur 24 bits, chacun d'eux divisés en 256 [i]plans[/i] sur 16 bits, composés de 256 [i]rangées[/i] de 8 bits, avec 256 positions en [i]colonne[/i] contenant chacune un caractère. La première partie du standard [b]( ISO 10646-1 ) [/b] définit les 65534 premiers codes (0x0000 à 0xFFFD) qui forme le [b]Basic Multilingual Plane (BMP) ,[/b] c'est à dire le plan 0 du groupe 0. La partie 2 du standard [b]( ISO 10646-2 )[/b] ajoute des caractères au groupe 0, dans plusieurs [i]plans supplémentaires[/i] dans l'espace 0x10000 à 0x10ffff. On ne prévoit pas d'ajouter de caractères au-delà de 0x10ffff, ainsi sur l'ensemble de l'espace disponible, une faible fraction du groupe 0 est effectivement utilisable dans un futur à court terme. Le BMP contient tous les caractères des jeux habituels. Les plans supplémentaires ajoutés par ISO 10646-2 ne contiennent que des caractères exotiques pour des notations scientifiques spéciales, l'industrie de l'impression, des protocoles de haut-niveau, et les besoins de quelques enthousiastes. La représentation des caractères UCS sur des mots de 2 octets est appelée [b]UCS-2[/b] (ne contient que les caractères du BMP), alors que [b]UCS-4[/b] est la représentation sur un mot de 4 octets. De plus, il existe deux formes [b]UTF-8[/b] pour les compatibilités avec les logiciels traitant l'ASCII et [b]UTF-16 [/b] pour les traitement des caractères au-delà de 0x10ffff par des logiciels UCS-2. Les caractères UCS 0x0000 à 0x007F sont identiques à ceux du classique jeu [b]US-ASCII ,[/b] et ceux de l'intervalle 0x0000 à 0x00FF sont identiques à ceux du jeu de caractères [b]ISO 8859-1 Latin-1 .[/b] [size=18] [b]CaractÈres composÉs[/b] [/size] Quelques codes du [b]UCS[/b] ont été assignés à des [b]caractères composés .[/b] Ils sont semblables aux touches accentuées sans avance sur les machines à écrire. Un caractère composé ajoute simplement un accent sur le caractère précédent (contrairement aux machines à écrire qui agissent sur le caractère suivant). Les caractères accentués les plus importants ont leurs propres codes dans l'UCS néanmoins le mécanisme des caractères composés permet d'ajouter des accents ou des signes diacritiques sur n'importe quel caractère de base. Les caractères composés suivent toujours le caractère qu'ils modifient. Par exemple, le caractère allemand A-Umlaut (A majuscule avec un tréma) peut être représenté soit par le code UCS précomposé 0x00C4, ou par la combinaison d'un A majuscule normal, suivi d'un "tréma composé" (combining diaeresis), 0x0041 0x0308. Les caractères composés sont essentiels par exemple pour l'encodage de l'écriture Thai ou pour les notations mathématiques et l'alphabet phonétique international. [size=18] [b]Niveaux dimplÉmentation[/b] [/size] Comme tous les systèmes ne sont pas censés supporter les mécanismes comme les caractères composés, ISO 10646-1 spécifie les trois niveaux d'implémentation suivants pour l'UCS : [table][row][col] [/col][col]Niveau 1 Les caractères composés et les caractères Hangul Jamo (un encodage spécial et compliqué de l'écriture Coréenne, où les syllabes Hangul sont codées sur 2 ou 3 sous-caractères) ne sont pas supportés.[/col][/row][/table] [table][row][col] [/col][col]Niveau 2 Comme le niveau 1, mais ce n'est qu'avec certaines écritures (par exemple Hébreu, Arabe, Devangari, Bengali, Gurmukhi, Gujarati, Oriya, Tamil, Telugo, Kannada, Malayalam, Thai et Lao) qu'il y a des caractères composés non supportés.[/col][/row][/table] [table][row][col] [/col][col]Niveau 3 Tous les caractères [b]UCS[/b] sont supportés.[/col][/row][/table] Le standard [b]Unicode 3.0[/b] publié par le [b]Unicode Consortium[/b] contient exactement le [b]Basic Multilingual Plane UCS[/b] au niveau d'implémentation 3, comme décrit dans le ISO 10646-1:2000. [b]Unicode 3.1[/b] ajoute les plans supplémentaires de l'ISO 10646-2. Le standard Unicode et les rapports techniques publiés par le Consortium fournissent beaucoup d'informations supplémentaires sur la sémantique et les recommandations d'usage. Ils fournissent des guides et des algorithmes pour éditer, trier comparer, normaliser, convertir et afficher des chaînes Unicode. [size=18] [b]Unicode sous linux[/b] [/size] Sous Gnu/Linux le type C [b]wchar_t[/b] est un entier 32 bits signé sous Linux, et sa valeur est interprétée comme un code [b]UCS[/b] (dans toutes les localisations), une convention signalée par la bibliothèque C Gnu en définissant la constante [b]__STDC_ISO_10646__[/b] comme indiquée dans le standard ISO C 99. L'UCS/Unicode peut être employé comme l'ASCII dans les flux d'entrée/sortie, les communications avec les terminaux, les fichiers de texte, les noms de fichiers et les variables d'environnement dans un encodage multi-octets compatible [b]UTF-8 .[/b] Pour signaler l'utilisation de l'UTF-8 comme encodage pour toutes les applications, une [b]locale[/b] correcte doit être configurée dans les variables d'environnement (ex. "LANG=en_GB.UTF-8"). La fonction [b]nl_langinfo(CODESET)[/b] renvoie le nom de l'encodage sélectionné. Les fonctions de bibliothèques comme [b]wctomb (3)[/b] et [b]mbsrtowcs (3)[/b] peuvent être utilisées pour transformer les caractères [b]wchar_t[/b] et les chaînes dans le jeu de caractères du système et inversement. La fonction [b]wcwidth (3)[/b] indique combien de positions (0(en2) le curseur est avancé en sortant un caractère. Sous Linux, en général, seule une implémentation BMP de niveau 1 devrait être utilisée pour le moment. Pour certaines écritures (en particulier Thai) certains émulateurs de terminaux UTF-8 gèrent jusqu'à deux caractères combinés avec une fonte ISO 10646 (niveau 2), mais il vaut mieux préférer les caractères précomposés s'ils sont disponibles. [size=18] [b]Zone privÉe[/b] [/size] L'intervalle entre 0xE000 et 0xF8FF du [b]BMP ,[/b] ne sera jamais assigné a aucun caractère par le standard, et est réservé pour un usage privé. Pour la communauté Linux, cette zone privée a été subdivisée en deux. L'intervalle entre 0xe000 et 0xefff peut être utilisé individuellement par n'importe quelle application. L'intervalle s'étendant de 0xF000 à 0xF8FF est réservé à Linux, et les extensions y sont coordonnées entre les divers utilisateurs de Linux. L'enregistrement des caractères assignés à la zone Linux est actuellement maintenu par H. Peter Anvin
. [size=18] [b]LittÉrature[/b] [/size] [table][row][col] [/col][col]* Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane. International Standard ISO 10646-1, International Organization for Standardization, Geneva, 2000. Ce sont les spécifications officielles de l'[b]UCS[/b]. Disponible en fichier PDF sur CD-ROM sur http://www.iso.ch/.[/col][/row][/table] [table][row][col] [/col][col]* The Unicode Standard, Version 3.0. The Unicode Consortium, Addison-Wesley, Reading, MA, 2000, ISBN 0-201-61633-5.[/col][/row][/table] [table][row][col] [/col][col]* S. Harbison, G. Steele. C - A Reference Manual. Fourth edition, Prentice Hall, Englewood Cliffs, 1995, ISBN 0-13-326224-3. Un bon livre de référence à propos du langage C. La 4eme édition couvre maintenant l'amendement 1 (1994) au standard ISO C (ISO/IEC 9899:1990) qui ajoute un grand nombre de fonctions de bibliothèque C pour manipuler les jeux de caractères, mais ne couvre pas encore C99.[/col][/row][/table] [table][row][col] [/col][col]* Unicode Technical Reports.[table][row][col] [/col][col] http://www.unicode.org/unicode/reports/[/col][/row][/table][/col][/row][/table] [table][row][col] [/col][col]* Markus Kuhn: UTF-8 and Unicode FAQ for Unix/Linux.[table][row][col] [/col][col] http://www.cl.cam.ac.uk/~mgk25/unicode.html Fournit les informations sur la liste de diffusion [b]linux-utf8 ,[/b] le meilleur endroit pour trouver des conseils sur l'utilisation de l'Unicode sous Linux[/col][/row][/table][/col][/row][/table] [table][row][col] [/col][col]* Bruno Haible: Unicode HOWTO.[table][row][col] [/col][col] ftp://ftp.ilog.fr/pub/Users/haible/utf8/Unicode-HOWTO.html[/col][/row][/table][/col][/row][/table] [size=18] [b]Bugs[/b] [/size] Au moment de la rédaction de cette page, le support libc de Linux pour les locales [b]UTF-8[/b] était mûr, et le support XFree86 était avancé, mais le travail nécessaire pour rendre les applications (principalement les éditeurs) compatibles avec l'UTF-8 était en cours. Le support général actuel de [b]UCS[/b] sous Linux fournit les caractères double-largeur CJK, et parfois les surcharges des caractères combinés, mais ne permet pas l'écriture de droite à gauche ou les ligatures nécessaires en Hébreu, Arabe, ou Indien. Ces écritures ne sont pour le moment supportées que par certaines applications graphiques (visualisateurs HTML, traitements de texte) avec des moteurs d'affichage perfectionnés. [size=18] [b]Auteur[/b] [/size] Markus Kuhn <
[size=18] [b]Voir aussi[/b] [/size] [b]utf-8 (7)[/b] [b]charsets (7),[/b] [b]setlocale (3)[/b] [size=18] [b]Traduction[/b] [/size] Christophe Blaess, 1997-2003.
Fichier
Forum
-
Derniers messages
Bavardages
Aujourd'hui, je rénove ou je construis ^^
Software
problème sur windows 10
Réseaux et Télécom
Administrateur Réseau - Cisco
Réseaux et Télécom
Problème wifi (POE)
Software
Postfix - Need help
Bavardages
Oh râge oh désespoir !
Programmation
Enregistrement client et envoi mail
Software
SÉCURITÉ MACBOOK
Hardware
conseil matos réseau?
Hardware
nVidia Shield Android TV
Actualités
-
Archives
Matériel
Nvidia prévient d'une pénurie de GPU ce trimestre, avec une reprise début 2025
Les Technos
Les Technos #469 : Un jour sans fin
Jeux Vidéos
Test Farming Simulator 25 (PS5) - Des innovations intéressantes mais des performances à revoir
Matériel
Qualcomm souhaite réduire davantage les prix des PC Windows basés sur ARM
Tablettes
Finalement, Google préparerait une nouvelle tablette mais la Pixel Tablet 2 serait abandonnée
Ada
CSS
Cobol
CPP
HTML
Fortran
Java
JavaScript
Pascal
Perl
PHP
Python
SQL
VB
XML
Anon URL
DailyMotion
eBay
Flickr
FLV
Google Video
Google Maps
Metacafe
MP3
SeeqPod
Veoh
Yahoo Video
YouTube
6px
8px
10px
12px
14px
16px
18px
Informaticien.be
- © 2002-2024
Akretio
SPRL - Generated via
Kelare
The Akretio Network:
Akretio
-
Freedelity
-
KelCommerce
-
Votre publicité sur informaticien.be ?