CL-UNICODE - A portable Unicode library for Common Lisp

c · very

(asdf:oos 'asdf:test-op :cl-unicode)

CL-USER 1 > (general-category #\A)
"Lu"
CL-UNICODE-NAMES::LU

CL-USER 2 > (general-category #\-)
"Pd"
CL-UNICODE-NAMES::PD

CL-USER 3 > (general-category #\8)
"Nd"
CL-UNICODE-NAMES::ND

CL-USER 1 > (script #\B)
"Latin"
CL-UNICODE-NAMES::LATIN

CL-USER 2 > (script (code-char #x5d0))
"Hebrew"
CL-UNICODE-NAMES::HEBREW

CL-USER 1 > (code-block #\a)
"Basic Latin"
CL-UNICODE-NAMES::BASICLATIN

CL-USER 2 > (code-block #\ä)
"Latin-1 Supplement"
CL-UNICODE-NAMES::LATIN1SUPPLEMENT

CL-USER 1 > (has-binary-property #\Space "White_Space")
CL-UNICODE-NAMES::WHITESPACE

CL-USER 2 > (has-binary-property #\F "ASCII_Hex_Digit")
CL-UNICODE-NAMES::ASCIIHEXDIGIT

CL-USER 3 > (has-binary-property #\- "Dash")
CL-UNICODE-NAMES::DASH

CL-USER 4 > (has-binary-property #\= "Dash")
NIL

CL-USER 1 > (numeric-type #\3)
"Decimal"
CL-UNICODE-NAMES::DECIMAL

CL-USER 2 > (numeric-type (character-named "VULGAR FRACTION THREE QUARTERS"))
"Numeric"
CL-UNICODE-NAMES::NUMERIC

CL-USER 3 > (numeric-type #\z)
NIL
NIL

CL-USER 1 > (numeric-value #\3)
3

CL-USER 2 > (numeric-value (character-named "VULGAR FRACTION THREE QUARTERS"))
3/4

CL-USER 3 > (numeric-value #\z)
NIL

CL-USER 1 > (bidi-class #\Space)
"WS"
CL-UNICODE-NAMES::WS

CL-USER 2 > (bidi-class #\A)
"L"
CL-UNICODE-NAMES::L

CL-USER 3 > (bidi-class (character-named "HEBREW LETTER ALEF"))
"R"
CL-UNICODE-NAMES::R

&key
CL-USER 1 > (bidi-mirroring-glyph #\[)
#\]

CL-USER 2 > (bidi-mirroring-glyph #\])
#\[

CL-USER 3 > (bidi-mirroring-glyph #\|)
NIL

&key
CL-USER 1 > (lowercase-mapping #\Ä)
#\ä

CL-USER 2 > (unicode-name (lowercase-mapping (character-named "GEORGIAN CAPITAL LETTER AN")))
"GEORGIAN SMALL LETTER AN"

CL-USER 3 > (lowercase-mapping (character-named "LATIN CAPITAL LETTER SHARP S"))
#\ß

&key
CL-USER 1 > (uppercase-mapping #\s)
#\S

CL-USER 2 > (unicode-name (uppercase-mapping (character-named "GLAGOLITIC SMALL LETTER AZU")))
"GLAGOLITIC CAPITAL LETTER AZU"

&key
CL-USER 1 > (unicode-name (titlecase-mapping (char-code (character-named "LATIN SMALL LETTER DZ WITH CARON"))))
"LATIN CAPITAL LETTER D WITH SMALL LETTER Z WITH CARON"

CL-USER 2 > (unicode-name (uppercase-mapping (char-code (character-named "LATIN SMALL LETTER DZ WITH CARON"))))
"LATIN CAPITAL LETTER DZ WITH CARON"

CL-USER 1 > (combining-class #\~)
0

CL-USER 2 > (combining-class (character-named "COMBINING TILDE OVERLAY"))
1

CL-USER 3 > (combining-class (character-named "NON-SPACING DOUBLE OVERSCORE"))
230

CL-USER 1 > (age #\K)
(1 1)

CL-USER 2 > (age (character-named "HANGUL SYLLABLE PWILH"))
(2 0)

CL-USER 3 > (age (character-named "LATIN CAPITAL LETTER SHARP S"))
(5 1)

CL-USER 1 > (general-categories)
("Cc" "Cf" "Cn" "Co" "CS" "Ll" "Lm" "Lo" "Lt" "Lu" "Mc" "Me" "Mn" "Nd" "Nl" "No"
 "Pc" "Pd" "Pe" "Pf" "Pi" "Po" "Ps" "Sc" "Sk" "Sm" "So" "Zl" "Zp" "Zs")

CL-USER 1 > (binary-properties)
("ASCII_Hex_Digit"
 "BidiMirrored"
 "Bidi_Control"
 "Dash"
 "Deprecated"
 "Diacritic"
 "Extender"
 "Hex_Digit"
 "Hyphen"
 "Ideographic"
 "IDS_Binary_Operator"
 "IDS_Trinary_Operator"
 "Join_Control"
 "Logical_Order_Exception"
 "Other_Alphabetic"
 "Other_Default_Ignorable_Code_Point"
 "Other_Grapheme_Extend"
 "Other_ID_Continue"
 "Other_ID_Start"
 "Other_Lowercase"
 "Other_Math"
 "Other_Uppercase"
 "Pattern_Syntax"
 "Pattern_White_Space"
 "Quotation_Mark"
 "Radical"
 "Soft_Dotted"
 "STerm"
 "Terminal_Punctuation"
 "Unified_Ideograph"
 "Variation_Selector"
 "White_Space")

CL-USER 1 > (bidi-classes)
("AL" "AN" "B" "BN" "CS" "EN" "ES" "ET" "L" "LRE" "LRO" "NSM" "ON" "PDF" "R" "RLE" "RLO" "S" "WS")

CL-USER 1 > (has-property #\A "L")
T

CL-USER 2 > (has-property #\A "Letter")
T

CL-USER 3 > (has-property #\A "LC")
T

CL-USER 4 > (has-property #\A "CasedLetter")
T

CL-USER 5 > (has-property #\A "Lu")
T

CL-USER 6 > (has-property #\A "UppercaseLetter")
T

CL-USER 7 > (has-property #\A "IsUppercaseLetter")
T

CL-USER 8 > (has-property #\A "LowercaseLetter")
NIL

CL-USER 9 > (has-property #\A "Latin")
T

CL-USER 10 > (has-property #\A "Script:Latin")
T

CL-USER 11 > (has-property #\A "Script:Hebrew")
NIL

CL-USER 12 > (has-property #\A "Basic Latin")
T

CL-USER 13 > (has-property #\A "Block:BasicLatin")
T

CL-USER 14 > (has-property #\A "InBasicLatin")
T

CL-USER 15 > (has-property #\A "Block:Arabic")
NIL

CL-USER 16 > (has-property #\A "WhiteSpace")
NIL

CL-USER 17 > (has-property #\A "HexDigit")
CL-UNICODE-NAMES::HEXDIGIT

CL-USER 18 > (has-property #\A "BidiClass:L")
T

CL-USER 19 > (has-property #\A "BidiClass:Left-to-Right")
T

CL-USER 20 > (has-property #\A "LeftToRight")
T

CL-USER 21 > (has-property #\A "Any")
T

CL-USER 22 > (has-property #\A "Assigned")
T

CL-USER 23 > (has-property #\A "Unassigned")
NIL

CL-USER 24 > (has-property #\A "ASCII")
T

&key
CL-USER 1 > (let ((ascii-tester (property-test "ASCII_Hex_Digit")))
              (count-if 'identity (map 'list ascii-tester "ALEF")))
3

&key
CL-USER 1 > (mapcar 'unicode-name (list-all-characters "Grapheme_Link" :want-code-point-p t))
("DEVANAGARI SIGN VIRAMA"
 "BENGALI SIGN VIRAMA"
 "GURMUKHI SIGN VIRAMA"
 "GUJARATI SIGN VIRAMA"
 "ORIYA SIGN VIRAMA"
 "TAMIL SIGN VIRAMA"
 "TELUGU SIGN VIRAMA"
 "KANNADA SIGN VIRAMA"
 "MALAYALAM SIGN VIRAMA"
 "SINHALA SIGN AL-LAKUNA"
 "THAI CHARACTER PHINTHU"
 "TIBETAN MARK HALANTA"
 "MYANMAR SIGN VIRAMA"
 "MYANMAR SIGN ASAT"
 "TAGALOG SIGN VIRAMA"
 "HANUNOO SIGN PAMUDPOD"
 "KHMER SIGN COENG"
 "BALINESE ADEG ADEG"
 "SUNDANESE SIGN PAMAAEH"
 "SYLOTI NAGRI SIGN HASANTA"
 "SAURASHTRA SIGN VIRAMA"
 "REJANG VIRAMA"
 "KHAROSHTHI VIRAMA")

&optional
CL-USER 1 > (length (recognized-properties t))
996

CL-USER 1 > (property-symbol "XID_Start")
CL-UNICODE-NAMES::XIDSTART
"XIDStart"

CL-USER 2 > (property-symbol "Foo")
CL-UNICODE-NAMES::FOO
NIL

(STRING= (PROPERTY-NAME (PROPERTY-SYMBOL <string>)) <string>)

(EQ (PROPERTY-SYMBOL (PROPERTY-NAME <symbol>)) <symbol>)

CL-USER 1 > (property-name 'cl-unicode-names::asciihexdigit)
"ASCII_Hex_Digit"

CL-USER 1 > (canonicalize-name "Left-to-Right")
"LefttoRight"

CL-USER 2 > (canonicalize-name "Left_To_Right")
"LeftToRight"

CL-USER 3 > (string-equal * **)
T

CL-USER 4 > (canonicalize-name "TIBETAN LETTER A")
"TIBETANLETTERA"

CL-USER 5 > (canonicalize-name "TIBETAN LETTER -A")
"TIBETANLETTER -A"

CL-USER 6 > (canonicalize-name (canonicalize-name "TIBETAN LETTER A"))
"TIBETANLETTERA"

CL-USER 7 > (canonicalize-name (canonicalize-name "TIBETAN LETTER -A"))
"TIBETANLETTER -A"

CL-USER 8 > (canonicalize-name "Tibetan_Letter_-A")
"TibetanLetter -A"

CL-USER 8 > (char= (character-named "TibetanLetter A") (character-named "TibetanLetter -A"))
NIL

CL-USER 9 > (char= (character-named "TibetanLetterA") (character-named "TibetanLetter-A"))
T

CL-USER 1 > (unicode-name #\ß)
"LATIN SMALL LETTER SHARP S"

CL-USER 2 > (unicode-name #\ü)
"LATIN SMALL LETTER U WITH DIAERESIS"

CL-USER 3 > (unicode-name #xd4db)
"HANGUL SYLLABLE PWILH"

CL-USER 1 > (unicode-name (code-char 1))
NIL

CL-USER 2 > (unicode1-name (code-char 1))
"START OF HEADING"

CL-USER 3 > (unicode-name (code-char #x67e))
"ARABIC LETTER PEH"

CL-USER 4 > (unicode1-name (code-char #x67e))
"ARABIC LETTER TAA WITH THREE DOTS BELOW"

&key
CL-USER 1 > (character-named "LATIN SMALL LETTER SHARP S")
#\ß

CL-USER 2 > (character-named "latin small letter sharp s")
#\ß

CL-USER 3 > (character-named "LatinSmallLetterSharpS")
#\ß

CL-USER 4 > (character-named "Latin:sharps" :try-abbreviations-p t)
#\ß

CL-USER 5 > (character-named "sharps" :try-abbreviations-p t :scripts-to-try "Latin")
#\ß

CL-USER 6 > (character-named "Backspace")
#\Backspace

CL-USER 7 > (character-named "Backspace" :try-unicode1-names-p nil)
NIL

CL-USER 8 > (character-named "Newline")
NIL

CL-USER 9 > (character-named "Newline" :try-lisp-names-p t)
#\Newline

CL-USER 10 > (character-named "U+0020" :try-hex-notation-p t)
#\Space

CL-USER 1 > (enable-alternative-character-syntax)

CL-USER 2 > (setq *try-abbreviations-p* t)
T

CL-USER 3 > (setq *scripts-to-try* "Hebrew")
"Hebrew"

CL-USER 4 > (char-code #\Alef)
1488

CL-UNICODE - A portable Unicode library for Common Lisp

Abstract

Contents

Download and installation

Support and mailing lists

Function and variable reference

Specific character properties

General character properties

Property symbols and look-up

Character names

Alternative reader syntax

Miscellaneous

Symbol index

Acknowledgements