Se connecter
Se connecter
Inscription
Mot de passe perdu
Connexion:
[Actualités]
Nvidia prévient d'une pénurie de GPU ce trimestre, avec une reprise début 2025
[Actualités]
Les Technos #469 : Un jour sans fin
[Actualités]
Test Farming Simulator 25 (PS5) - Des innovations intéressantes mais des perfor...
[Actualités]
Qualcomm souhaite réduire davantage les prix des PC Windows basés sur ARM
[Actualités]
Finalement, Google préparerait une nouvelle tablette mais la Pixel Tablet 2 ser...
[Actualités]
Windows 10 version 22H2 : erreur de mise à jour et de désinstallation
[Actualités]
OpenAI prépare désormais son propre navigateur
[Actualités]
WhatsApp bat Telegram : les transcriptions des messages vocaux arrivent pour tou...
[Actualités]
Unreal et Unreal Tournament désormais gratuits sur Internet Archive
[Actualités]
Windows 10 : Microsoft affiche des publicités en plein écran pour les PC équi...
[Articles]
Dungeons 4 - Nintendo Switch Edition
[Articles]
The Bridge Curse 2 : The Extrication
[Articles]
Farmagia
[Articles]
I*CHU: Chibi Edition
[Articles]
Farming Simulator 25
[Articles]
Goblin Slayer -Another Adventurer- Nightmare Feast
[Articles]
Deel lance des programmes en marque blanche et pour les revendeurs pour plus de ...
[Articles]
ESET Research : WolfsBane, nouvelle porte dérobée de cyber-espionnage Linux cr...
[Articles]
Devoteam présente son nouveau plan stratégique « AMPLIFY » avec un fort acce...
[Articles]
LEGO Horizon Adventures
Actualités
Lettre d'information
Proposer une actualité
Archives
Actualités
Articles
Programmation
Press Release
Matériel
Logiciels
Livres
Interviews
Derniers commentaires
Jeux Vidéos
XBox One
XBox 360
Wii U
PSP
PS4
PS3
PC
DS
GameCube
3DS
Forum
Derniers messages
Informatique
Fun
Divers
Logithèque
Blogs
Divers
A Propos
Annonceurs
Contact
Recherche
RSS
Editer un article
Titre
Mots Clés
Texte
[size=18] [b]Nom[/b] [/size] regex - Expressions rationnelles POSIX 1003.2. [size=18] [b]Description[/b] [/size] Les expressions rationnelles (``ER''), définies par Posix 1003.2 existent sous deux formes : les ER modernes (en gros celles de [b]egrep ;[/b] que Posix 1OO3.2 appelle expressions rationnelles "étendues"), et les ER obsolètes (en gros celles de [b]ed (1) ;[/b] les ER basiques pour Posix 1003.2). [NDT : Le terme "officiel" pour la traduction de "Regular expression" est "expression rationnelle", et c'est celui que j'emploierai. Toutefois, on utilise couramment le terme "expression régulière", même s'il s'agit d'un léger abus de langage.] Les ER obsolètes existent surtout à titre de compatibilité avec d'anciens programmes ; on en parlera plus bas. Posix 1003.2 laisse de côté certains aspects syntaxiques et sémantiques des ER ; un signe `*(dg' indique une interprétation qui peut ne pas être totalement portable sur d'autres implémentation de 1003.2. Une ER (moderne) est une*(dg ou plusieurs [i]branches[/i] non-vides*(dg, séparées par '|'. Elle correspond à tout ce qui correspond à l'une des branches. Une branche est une*(dg ou plusieurs [i]pièces[/i] concaténées. Elle correspond à ce qui correspond à la première pièce, suivi de ce qui correspond à la seconde, et ainsi de suite. Une pièce est un [i]atome[/i] suivi éventuellement d'un unique*(dg `*', `+', `?', ou d'un encadrement. Un atome suivi de `*' correspond à une séquence de 0 ou plusieurs correspondances pour l'atome. Un atome suivi d'un `+' correspond à une séquence de 1 ou plusieurs correspondances pour l'atome. Un atome suivi d'un `?' correspond à ue séquence de zéro ou une correspondance pour l'atome. Un encadrement est un `{' suivi d'un entier décimal non-signé, suivis éventuellement d'une virgule, suivis éventuellement d'un entier décimal non-signé, toujours suivis d'un `}'. Les entiers doivent être entre 0 et RE_DUP_MAX (255*(dg) compris, et s'il y en a deux, le second ne doit pas être plus petit que le premier. Un atome suivi d'un encadrement contenant un entier [i]i[/i] et pas de virgule, correspond à une séquence de [i]i[/i] correspondances pour l'atome exactement. Un atome suivi d'un encadrement contenant un entier [i]i[/i] et une virgule correspond à une séquence d'au moins [i]i[/i] correspondances pour l'atome. Un atome suivi d'un encadrement contenant deux entiers [i]i[/i] et [i]j[/i] correspond à une séquence de [i]i[/i] à [i]j[/i] (compris) correspondances pour l'atome. Un atome est une expression rationnelle encadrée par des parenthèses (correspondant à ce qui correspond à l'expression rationnelle), un ensemble vide `()' (correspond à une chaîne nulle)*(dg, une [i]expression[/i] entre crochets (voir plus bas), An atom is a regular expression enclosed in `()' (matching a match for the regular expression), un point `.' (correspondant à n'importe quel caractère), un accent `^' (correspondant à une chaîne vide en début de ligne), `$' (correspondant à une chaîne vide en fin de ligne), un `e' suivi d'un des caractères `^.[$()|*+?{e' (correspondant au caractère littéral - sans signification particulière), un `e' suivi de n'importe quel autre caractère*(dg (correspondant au caractère pris sous forme littérale, comme si le `e' était absent*(dg), ou un caractère simple sans signification particulière (correspondant à ce caractère/ Un `{' suivi d'un caractère autre qu'un chiffre est considéré sous sa forme littérale, pas un encadrement *(dg. Il est illégal de terminer une ER avec un `e' seul. Une [i]expression[/i] entre crochets est une liste de caractères encadrés par `[]'. Elle correspond normalement à n'importe quel caractère de la liste. Si la liste débute par `^', elle correspond à n'importe quel caractère [i]sauf[/i] ceux de la liste. Si deux caractères de la liste sont séparés par un `-', ils représentent tout [i]l'intervalle[/i] de caractères entre-eux (compris). Par exemple [0-9@ en Ascii représente n'importe quel chiffre décimal. Il est illégal*(dg d'utiliser la même limite dans deux intervalles, comme `a-c-e'. Les intervalles dépendent beaucoup de l'ordre de classement des caractères, et les programmes portables doivent éviter de les utiliser. Pour insérer un `]' littéral dans la liste, il faut le mettre en première position (ou après un éventuel `^'). Pour inclure un `-' littéral, il faut le placer en première, dernière position, ou en seconde borne d'un intervalle. Pour utiliser un - en première borne d'intervalle, encadrez-le entre `[.' et `.]' pour en faire une fusion (plus bas). À l'exception de ces éléments, et de quelques combinaisons avec des crochets (voir plus bas), tous les autres caractères spéciaux, y compris le `e', perdent leurs significations spéciales dans une expression entre crochets. Dans une expression entre crochet, une fusion (un seul caractère, ou une séquence de caractères qui se comporte comme un seul, ou un nom de fusion) entre `[.' et `.]' correspond à la séquence des caractères de la fusion. Une séquence est un élément unique de l'expression entre crochets. Ainsi, un expression entre crochets contenant une fusion multi-caractères peut correspondre à plus d'un caractère. Par exemple si la séquence inclue la fusion `ch', alors l'ER `[[.ch.]]*c' correspond aux cinq premiers caractères de `chchcc'. Dans une expression entre crochets, une séquence encadrée par `[=' et `=]' est une classe d'équivalence, correspondant à la séquence des caractères de tous les éléments équivalents à celui-ci, y compris lui-même. (S'il ny a pas d'autre éléments équivalents, le fonctionnement est le même que si l'encadrement était `[.' et `.]'). Par exemple, si o et o'o^' sont membres d'une classe équivalence, alors `[[=o=]]', `[[=o'o^'=]]', et `[oo'o^']' sont tous synonymes. Une classe d'équivalence ne doit*(dg pas être une borne d'intervalle. Dans une expression entre crochet, le nom d'une [i]classe[/i] de caractères encadré par `[:' et `:]' correspond à la liste de tous les caractères de la classe. Les noms des classes standards sont : [table][row][col] [/col][col] .nf .ta 3c 6c 9c alnum digit punct alpha graph space blank lower upper cntrl print xdigit .fi[/col][/row][/table] Cela correspond aux classes des caractères définis pour [b]wctype (3).[/b] Une localisation peut en fournir d'autres. Une classe de caractères ne doit pas être utilisé comme borne d'intervalle. Il existe deux cas spéciaux*(dg d'expressions entre crochets : les expressions `[[:<:]]' et `[[:>:]]' correspondent à une chaîne vide en début et en fin de mot, respectivement. Un mot est défini comme une séquence de caractères de mot, qui n'est suivie ni précédée de caractères de mot. Un caractère de mot est un caractère [i]alnum[/i] (comme défini par [b]wctype (3))[/b] ou un souligné. C'est une extension, compatible mais non spécifiée par POSIX 1003.2, et doit être utilisée avec précaution dans les logiciels destinés à être portés vers d'autres systèmes. Dans le cas où une ER peut correspondre à plusieurs sous-chaînes d'une chaîne donnée, elle correspond à celle qui commence le plus tôt dans la chaîne. Si l'ER peut correspondre à plusieurs sous-chaînes débutant au même point, elle correspond à la plus longue sous-chaîne. Les sous-expressions correspondent aussi à la plus longue sous-chaîne possible, à condition que la correspondance complète soit la plus longue possible, les sous-expressions débutant le plus tôt dans l'ER ayant priorité sur celles débutant plus loin. Notez que les sous-expressions de haut-niveau ont donc priorité sur les sous-expressions de bas-niveau les composant. La longueur des correspondances est mesurée en caractères, pas en éléments fusionnés. Une chaîne vide est considérée comme plus longueur qu'aucune correspondance. Par exemple `bb*' correspond au trois caractères du milieu de `abbbc', `(wee|week)(knights|nights)' correspond aux dix caractères de `weeknights', quand `(.*).*' est mis en correspondance avec `abc', la sous-expression entre parenthèses correspond aux trois caractères, et si `(a*)*' est mis en correspondance avec `bc' l'ER entière et la sous-ER entre parenthèses correspondent toutes deux avec une chaîne nulle. Si une correspondance sans distinction de casse est demandée, toutes les différences entre majuscules et minuscules disparaissent de l'alphabet. Un symbole alphabétique apparaissant hors d'une expression entre crochets est remplacé par une expression contenant les deux casses (par exemple `x' devient `[xX]'). Lorsqu'il apparait dans une expression entre crochets, tous ses équivalents sont ajoutés (`[x]' devient `[xX]' et `[^x]' devient `[^xX]'). Aucune limite particulière n'est imposée sur la longueur est ER*(dg. Les programmes destinés à être portables devrait limiter leurs ER à 256 octets, car une implémentation compatible POSIX peut refuser les expressions plus longues. Les expressions rationnelles obsolètes (basiques) diffèrent sur plusieurs points. `|', `+', et `?' sont des caractères normaux sans équivalents. Les délimiteurs d'encadrements sont `e{' et `e}', car `{' et `{' sont des caractères ordinaires. Les parenthèses pour les sous-expressions sont `e(' et `e)', car `(' et `)' sont des caractères ordinaires. `^' est un caractère ordinaire sauf au début d'une ER ou au*(dg début d'une sous-expression entre parenthèses, `$' est un caractère ordinaire sauf à la fin d'une ER ou à*(dg la fin d'une sous-expressions entre parenthèses, et `*' est un caractère ordinaire s'il apparaît au début d'une ER ou au début d'une sous-expression entre parenthèses (après un éventuel `^'). Enfin, il existe un nouveau type d'atome, la [i]référence[/i] arrière : `e' suivi d'un chiffre décimal non-nul [i]n[/i] correspond à la même séquence de caractères que ceux mis en correspondance avec la [i]n[/i]-ième sous-expression entre parenthèses. (les sous-expressions sont numérotées par leurs parenthèses ouvrantes, de gauche à droite), ainsi `e([bc]e)e1' correspond à `bb' ou `cc' mais pas à `bc'. [size=18] [b]Voir aussi[/b] [/size] [b]regex (3)[/b] POSIX 1003.2, section 2.8 (Regular Expression Notation). [size=18] [b]Bugs[/b] [/size] Avoir deux sortes d'ER est un calvaire. Les spécifications 1003.2 disent que `)' est un caractère ordinaire en l'absence de la `(' correspondante. C'est dû à une erreur d'interprétation et changera probablement. Evitez d'en tenir compte. Les références arrières sont un vrai calvaire, et posent de gros problèmes d'efficacité pour l'implémentation. Elles sont de plus assez mal définies (est-ce que `ae(e(be)*e2e)*d' correspond à `abbbd' ?). Evitez-les. Les spécifications 1003.2 sur les correspondances sans distinction de casse sont assez vagues. La description donnée plus haut est le consensus actuel parmi les implémenteurs. La syntaxe concernant les limites de mot est incroyablement laide. [size=18] [b]Auteur[/b] [/size] Cette page provient du paquetage regex de Henry Spencer. [size=18] [b]Traduction[/b] [/size] Christophe Blaess, 2003.
Fichier
Forum
-
Derniers messages
Bavardages
Aujourd'hui, je rénove ou je construis ^^
Software
problème sur windows 10
Réseaux et Télécom
Administrateur Réseau - Cisco
Réseaux et Télécom
Problème wifi (POE)
Software
Postfix - Need help
Bavardages
Oh râge oh désespoir !
Programmation
Enregistrement client et envoi mail
Software
SÉCURITÉ MACBOOK
Hardware
conseil matos réseau?
Hardware
nVidia Shield Android TV
Actualités
-
Archives
Matériel
Nvidia prévient d'une pénurie de GPU ce trimestre, avec une reprise début 2025
Les Technos
Les Technos #469 : Un jour sans fin
Jeux Vidéos
Test Farming Simulator 25 (PS5) - Des innovations intéressantes mais des performances à revoir
Matériel
Qualcomm souhaite réduire davantage les prix des PC Windows basés sur ARM
Tablettes
Finalement, Google préparerait une nouvelle tablette mais la Pixel Tablet 2 serait abandonnée
Ada
CSS
Cobol
CPP
HTML
Fortran
Java
JavaScript
Pascal
Perl
PHP
Python
SQL
VB
XML
Anon URL
DailyMotion
eBay
Flickr
FLV
Google Video
Google Maps
Metacafe
MP3
SeeqPod
Veoh
Yahoo Video
YouTube
6px
8px
10px
12px
14px
16px
18px
Informaticien.be
- © 2002-2024
Akretio
SPRL - Generated via
Kelare
The Akretio Network:
Akretio
-
Freedelity
-
KelCommerce
-
Votre publicité sur informaticien.be ?