]> granicus.if.org Git - python/commitdiff
Merged revisions 74000-74001 via svnmerge from
authorAmaury Forgeot d'Arc <amauryfa@gmail.com>
Mon, 13 Jul 2009 20:38:21 +0000 (20:38 +0000)
committerAmaury Forgeot d'Arc <amauryfa@gmail.com>
Mon, 13 Jul 2009 20:38:21 +0000 (20:38 +0000)
svn+ssh://pythondev@svn.python.org/python/trunk

........
  r74000 | amaury.forgeotdarc | 2009-07-13 22:01:11 +0200 (lun., 13 juil. 2009) | 4 lines

  #1616979: Add the cp720 (Arabic DOS) encoding.
  Since there is no official mapping file from unicode.org,
  the codec file is generated on Windows with the new genwincodec.py script.
........
  r74001 | amaury.forgeotdarc | 2009-07-13 22:03:21 +0200 (lun., 13 juil. 2009) | 2 lines

  NEWS entry for r74000.
........

Lib/encodings/cp720.py [new file with mode: 0644]
Misc/NEWS
Tools/unicode/gencodec.py
Tools/unicode/genwincodec.py [new file with mode: 0644]
Tools/unicode/genwincodecs.bat [new file with mode: 0644]

diff --git a/Lib/encodings/cp720.py b/Lib/encodings/cp720.py
new file mode 100644 (file)
index 0000000..548c61f
--- /dev/null
@@ -0,0 +1,311 @@
+"""Python Character Mapping Codec cp720 generated on Windows:\r
+Vista 6.0.6002 SP2 Multiprocessor Free with the command:\r
+  python Tools/unicode/genwincodec.py 720\r
+"""#"\r
+\r
+\r
+import codecs\r
+\r
+### Codec APIs\r
+\r
+class Codec(codecs.Codec):\r
+\r
+    def encode(self,input,errors='strict'):\r
+        return codecs.charmap_encode(input,errors,encoding_table)\r
+\r
+    def decode(self,input,errors='strict'):\r
+        return codecs.charmap_decode(input,errors,decoding_table)\r
+\r
+class IncrementalEncoder(codecs.IncrementalEncoder):\r
+    def encode(self, input, final=False):\r
+        return codecs.charmap_encode(input,self.errors,encoding_table)[0]\r
+\r
+class IncrementalDecoder(codecs.IncrementalDecoder):\r
+    def decode(self, input, final=False):\r
+        return codecs.charmap_decode(input,self.errors,decoding_table)[0]\r
+\r
+class StreamWriter(Codec,codecs.StreamWriter):\r
+    pass\r
+\r
+class StreamReader(Codec,codecs.StreamReader):\r
+    pass\r
+\r
+### encodings module API\r
+\r
+def getregentry():\r
+    return codecs.CodecInfo(\r
+        name='cp720',\r
+        encode=Codec().encode,\r
+        decode=Codec().decode,\r
+        incrementalencoder=IncrementalEncoder,\r
+        incrementaldecoder=IncrementalDecoder,\r
+        streamreader=StreamReader,\r
+        streamwriter=StreamWriter,\r
+    )\r
+\r
+\r
+### Decoding Table\r
+\r
+decoding_table = (\r
+    '\x00'      #  0x00 -> CONTROL CHARACTER\r
+    '\x01'      #  0x01 -> CONTROL CHARACTER\r
+    '\x02'      #  0x02 -> CONTROL CHARACTER\r
+    '\x03'      #  0x03 -> CONTROL CHARACTER\r
+    '\x04'      #  0x04 -> CONTROL CHARACTER\r
+    '\x05'      #  0x05 -> CONTROL CHARACTER\r
+    '\x06'      #  0x06 -> CONTROL CHARACTER\r
+    '\x07'      #  0x07 -> CONTROL CHARACTER\r
+    '\x08'      #  0x08 -> CONTROL CHARACTER\r
+    '\t'        #  0x09 -> CONTROL CHARACTER\r
+    '\n'        #  0x0A -> CONTROL CHARACTER\r
+    '\x0b'      #  0x0B -> CONTROL CHARACTER\r
+    '\x0c'      #  0x0C -> CONTROL CHARACTER\r
+    '\r'        #  0x0D -> CONTROL CHARACTER\r
+    '\x0e'      #  0x0E -> CONTROL CHARACTER\r
+    '\x0f'      #  0x0F -> CONTROL CHARACTER\r
+    '\x10'      #  0x10 -> CONTROL CHARACTER\r
+    '\x11'      #  0x11 -> CONTROL CHARACTER\r
+    '\x12'      #  0x12 -> CONTROL CHARACTER\r
+    '\x13'      #  0x13 -> CONTROL CHARACTER\r
+    '\x14'      #  0x14 -> CONTROL CHARACTER\r
+    '\x15'      #  0x15 -> CONTROL CHARACTER\r
+    '\x16'      #  0x16 -> CONTROL CHARACTER\r
+    '\x17'      #  0x17 -> CONTROL CHARACTER\r
+    '\x18'      #  0x18 -> CONTROL CHARACTER\r
+    '\x19'      #  0x19 -> CONTROL CHARACTER\r
+    '\x1a'      #  0x1A -> CONTROL CHARACTER\r
+    '\x1b'      #  0x1B -> CONTROL CHARACTER\r
+    '\x1c'      #  0x1C -> CONTROL CHARACTER\r
+    '\x1d'      #  0x1D -> CONTROL CHARACTER\r
+    '\x1e'      #  0x1E -> CONTROL CHARACTER\r
+    '\x1f'      #  0x1F -> CONTROL CHARACTER\r
+    ' '         #  0x20 -> SPACE\r
+    '!'         #  0x21 -> EXCLAMATION MARK\r
+    '"'         #  0x22 -> QUOTATION MARK\r
+    '#'         #  0x23 -> NUMBER SIGN\r
+    '$'         #  0x24 -> DOLLAR SIGN\r
+    '%'         #  0x25 -> PERCENT SIGN\r
+    '&'         #  0x26 -> AMPERSAND\r
+    "'"         #  0x27 -> APOSTROPHE\r
+    '('         #  0x28 -> LEFT PARENTHESIS\r
+    ')'         #  0x29 -> RIGHT PARENTHESIS\r
+    '*'         #  0x2A -> ASTERISK\r
+    '+'         #  0x2B -> PLUS SIGN\r
+    ','         #  0x2C -> COMMA\r
+    '-'         #  0x2D -> HYPHEN-MINUS\r
+    '.'         #  0x2E -> FULL STOP\r
+    '/'         #  0x2F -> SOLIDUS\r
+    '0'         #  0x30 -> DIGIT ZERO\r
+    '1'         #  0x31 -> DIGIT ONE\r
+    '2'         #  0x32 -> DIGIT TWO\r
+    '3'         #  0x33 -> DIGIT THREE\r
+    '4'         #  0x34 -> DIGIT FOUR\r
+    '5'         #  0x35 -> DIGIT FIVE\r
+    '6'         #  0x36 -> DIGIT SIX\r
+    '7'         #  0x37 -> DIGIT SEVEN\r
+    '8'         #  0x38 -> DIGIT EIGHT\r
+    '9'         #  0x39 -> DIGIT NINE\r
+    ':'         #  0x3A -> COLON\r
+    ';'         #  0x3B -> SEMICOLON\r
+    '<'         #  0x3C -> LESS-THAN SIGN\r
+    '='         #  0x3D -> EQUALS SIGN\r
+    '>'         #  0x3E -> GREATER-THAN SIGN\r
+    '?'         #  0x3F -> QUESTION MARK\r
+    '@'         #  0x40 -> COMMERCIAL AT\r
+    'A'         #  0x41 -> LATIN CAPITAL LETTER A\r
+    'B'         #  0x42 -> LATIN CAPITAL LETTER B\r
+    'C'         #  0x43 -> LATIN CAPITAL LETTER C\r
+    'D'         #  0x44 -> LATIN CAPITAL LETTER D\r
+    'E'         #  0x45 -> LATIN CAPITAL LETTER E\r
+    'F'         #  0x46 -> LATIN CAPITAL LETTER F\r
+    'G'         #  0x47 -> LATIN CAPITAL LETTER G\r
+    'H'         #  0x48 -> LATIN CAPITAL LETTER H\r
+    'I'         #  0x49 -> LATIN CAPITAL LETTER I\r
+    'J'         #  0x4A -> LATIN CAPITAL LETTER J\r
+    'K'         #  0x4B -> LATIN CAPITAL LETTER K\r
+    'L'         #  0x4C -> LATIN CAPITAL LETTER L\r
+    'M'         #  0x4D -> LATIN CAPITAL LETTER M\r
+    'N'         #  0x4E -> LATIN CAPITAL LETTER N\r
+    'O'         #  0x4F -> LATIN CAPITAL LETTER O\r
+    'P'         #  0x50 -> LATIN CAPITAL LETTER P\r
+    'Q'         #  0x51 -> LATIN CAPITAL LETTER Q\r
+    'R'         #  0x52 -> LATIN CAPITAL LETTER R\r
+    'S'         #  0x53 -> LATIN CAPITAL LETTER S\r
+    'T'         #  0x54 -> LATIN CAPITAL LETTER T\r
+    'U'         #  0x55 -> LATIN CAPITAL LETTER U\r
+    'V'         #  0x56 -> LATIN CAPITAL LETTER V\r
+    'W'         #  0x57 -> LATIN CAPITAL LETTER W\r
+    'X'         #  0x58 -> LATIN CAPITAL LETTER X\r
+    'Y'         #  0x59 -> LATIN CAPITAL LETTER Y\r
+    'Z'         #  0x5A -> LATIN CAPITAL LETTER Z\r
+    '['         #  0x5B -> LEFT SQUARE BRACKET\r
+    '\\'        #  0x5C -> REVERSE SOLIDUS\r
+    ']'         #  0x5D -> RIGHT SQUARE BRACKET\r
+    '^'         #  0x5E -> CIRCUMFLEX ACCENT\r
+    '_'         #  0x5F -> LOW LINE\r
+    '`'         #  0x60 -> GRAVE ACCENT\r
+    'a'         #  0x61 -> LATIN SMALL LETTER A\r
+    'b'         #  0x62 -> LATIN SMALL LETTER B\r
+    'c'         #  0x63 -> LATIN SMALL LETTER C\r
+    'd'         #  0x64 -> LATIN SMALL LETTER D\r
+    'e'         #  0x65 -> LATIN SMALL LETTER E\r
+    'f'         #  0x66 -> LATIN SMALL LETTER F\r
+    'g'         #  0x67 -> LATIN SMALL LETTER G\r
+    'h'         #  0x68 -> LATIN SMALL LETTER H\r
+    'i'         #  0x69 -> LATIN SMALL LETTER I\r
+    'j'         #  0x6A -> LATIN SMALL LETTER J\r
+    'k'         #  0x6B -> LATIN SMALL LETTER K\r
+    'l'         #  0x6C -> LATIN SMALL LETTER L\r
+    'm'         #  0x6D -> LATIN SMALL LETTER M\r
+    'n'         #  0x6E -> LATIN SMALL LETTER N\r
+    'o'         #  0x6F -> LATIN SMALL LETTER O\r
+    'p'         #  0x70 -> LATIN SMALL LETTER P\r
+    'q'         #  0x71 -> LATIN SMALL LETTER Q\r
+    'r'         #  0x72 -> LATIN SMALL LETTER R\r
+    's'         #  0x73 -> LATIN SMALL LETTER S\r
+    't'         #  0x74 -> LATIN SMALL LETTER T\r
+    'u'         #  0x75 -> LATIN SMALL LETTER U\r
+    'v'         #  0x76 -> LATIN SMALL LETTER V\r
+    'w'         #  0x77 -> LATIN SMALL LETTER W\r
+    'x'         #  0x78 -> LATIN SMALL LETTER X\r
+    'y'         #  0x79 -> LATIN SMALL LETTER Y\r
+    'z'         #  0x7A -> LATIN SMALL LETTER Z\r
+    '{'         #  0x7B -> LEFT CURLY BRACKET\r
+    '|'         #  0x7C -> VERTICAL LINE\r
+    '}'         #  0x7D -> RIGHT CURLY BRACKET\r
+    '~'         #  0x7E -> TILDE\r
+    '\x7f'      #  0x7F -> CONTROL CHARACTER\r
+    '?'         #  0x80 -> QUESTION MARK\r
+    '\x81'\r
+    '?'         #  0x82 -> QUESTION MARK\r
+    '?'         #  0x83 -> QUESTION MARK\r
+    '?'         #  0x84 -> QUESTION MARK\r
+    '?'         #  0x85 -> QUESTION MARK\r
+    '?'         #  0x86 -> QUESTION MARK\r
+    '?'         #  0x87 -> QUESTION MARK\r
+    '?'         #  0x88 -> QUESTION MARK\r
+    '?'         #  0x89 -> QUESTION MARK\r
+    '?'         #  0x8A -> QUESTION MARK\r
+    '?'         #  0x8B -> QUESTION MARK\r
+    '?'         #  0x8C -> QUESTION MARK\r
+    '\x8d'\r
+    '?'         #  0x8E -> QUESTION MARK\r
+    '\x8f'\r
+    '\x90'\r
+    '?'         #  0x91 -> QUESTION MARK\r
+    '?'         #  0x92 -> QUESTION MARK\r
+    '?'         #  0x93 -> QUESTION MARK\r
+    '?'         #  0x94 -> QUESTION MARK\r
+    '?'         #  0x95 -> QUESTION MARK\r
+    '?'         #  0x96 -> QUESTION MARK\r
+    '?'         #  0x97 -> QUESTION MARK\r
+    '?'         #  0x98 -> QUESTION MARK\r
+    '?'         #  0x99 -> QUESTION MARK\r
+    '?'         #  0x9A -> QUESTION MARK\r
+    '?'         #  0x9B -> QUESTION MARK\r
+    '?'         #  0x9C -> QUESTION MARK\r
+    '\u0625'    #  0x9D -> ARABIC LETTER ALEF WITH HAMZA BELOW\r
+    '?'         #  0x9E -> QUESTION MARK\r
+    '?'         #  0x9F -> QUESTION MARK\r
+    '\u0628'    #  0xA0 -> ARABIC LETTER BEH\r
+    '\u0629'    #  0xA1 -> ARABIC LETTER TEH MARBUTA\r
+    '\u062a'    #  0xA2 -> ARABIC LETTER TEH\r
+    '\u062b'    #  0xA3 -> ARABIC LETTER THEH\r
+    '\u062c'    #  0xA4 -> ARABIC LETTER JEEM\r
+    '\u062d'    #  0xA5 -> ARABIC LETTER HAH\r
+    '\u062e'    #  0xA6 -> ARABIC LETTER KHAH\r
+    '\u062f'    #  0xA7 -> ARABIC LETTER DAL\r
+    '\u0630'    #  0xA8 -> ARABIC LETTER THAL\r
+    '\u0631'    #  0xA9 -> ARABIC LETTER REH\r
+    '\u0632'    #  0xAA -> ARABIC LETTER ZAIN\r
+    '\u0633'    #  0xAB -> ARABIC LETTER SEEN\r
+    '\u0634'    #  0xAC -> ARABIC LETTER SHEEN\r
+    '\u0635'    #  0xAD -> ARABIC LETTER SAD\r
+    '\xab'      #  0xAE -> LEFT-POINTING DOUBLE ANGLE QUOTATION MARK\r
+    '\xbb'      #  0xAF -> RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK\r
+    '\u2591'    #  0xB0 -> LIGHT SHADE\r
+    '\u2592'    #  0xB1 -> MEDIUM SHADE\r
+    '\u2593'    #  0xB2 -> DARK SHADE\r
+    '\u2502'    #  0xB3 -> BOX DRAWINGS LIGHT VERTICAL\r
+    '\u2524'    #  0xB4 -> BOX DRAWINGS LIGHT VERTICAL AND LEFT\r
+    '\u2561'    #  0xB5 -> BOX DRAWINGS VERTICAL SINGLE AND LEFT DOUBLE\r
+    '\u2562'    #  0xB6 -> BOX DRAWINGS VERTICAL DOUBLE AND LEFT SINGLE\r
+    '\u2556'    #  0xB7 -> BOX DRAWINGS DOWN DOUBLE AND LEFT SINGLE\r
+    '\u2555'    #  0xB8 -> BOX DRAWINGS DOWN SINGLE AND LEFT DOUBLE\r
+    '\u2563'    #  0xB9 -> BOX DRAWINGS DOUBLE VERTICAL AND LEFT\r
+    '\u2551'    #  0xBA -> BOX DRAWINGS DOUBLE VERTICAL\r
+    '\u2557'    #  0xBB -> BOX DRAWINGS DOUBLE DOWN AND LEFT\r
+    '\u255d'    #  0xBC -> BOX DRAWINGS DOUBLE UP AND LEFT\r
+    '\u255c'    #  0xBD -> BOX DRAWINGS UP DOUBLE AND LEFT SINGLE\r
+    '\u255b'    #  0xBE -> BOX DRAWINGS UP SINGLE AND LEFT DOUBLE\r
+    '\u2510'    #  0xBF -> BOX DRAWINGS LIGHT DOWN AND LEFT\r
+    '\u2514'    #  0xC0 -> BOX DRAWINGS LIGHT UP AND RIGHT\r
+    '\u2534'    #  0xC1 -> BOX DRAWINGS LIGHT UP AND HORIZONTAL\r
+    '\u252c'    #  0xC2 -> BOX DRAWINGS LIGHT DOWN AND HORIZONTAL\r
+    '\u251c'    #  0xC3 -> BOX DRAWINGS LIGHT VERTICAL AND RIGHT\r
+    '\u2500'    #  0xC4 -> BOX DRAWINGS LIGHT HORIZONTAL\r
+    '\u253c'    #  0xC5 -> BOX DRAWINGS LIGHT VERTICAL AND HORIZONTAL\r
+    '\u255e'    #  0xC6 -> BOX DRAWINGS VERTICAL SINGLE AND RIGHT DOUBLE\r
+    '\u255f'    #  0xC7 -> BOX DRAWINGS VERTICAL DOUBLE AND RIGHT SINGLE\r
+    '\u255a'    #  0xC8 -> BOX DRAWINGS DOUBLE UP AND RIGHT\r
+    '\u2554'    #  0xC9 -> BOX DRAWINGS DOUBLE DOWN AND RIGHT\r
+    '\u2569'    #  0xCA -> BOX DRAWINGS DOUBLE UP AND HORIZONTAL\r
+    '\u2566'    #  0xCB -> BOX DRAWINGS DOUBLE DOWN AND HORIZONTAL\r
+    '\u2560'    #  0xCC -> BOX DRAWINGS DOUBLE VERTICAL AND RIGHT\r
+    '\u2550'    #  0xCD -> BOX DRAWINGS DOUBLE HORIZONTAL\r
+    '\u256c'    #  0xCE -> BOX DRAWINGS DOUBLE VERTICAL AND HORIZONTAL\r
+    '\u2567'    #  0xCF -> BOX DRAWINGS UP SINGLE AND HORIZONTAL DOUBLE\r
+    '\u2568'    #  0xD0 -> BOX DRAWINGS UP DOUBLE AND HORIZONTAL SINGLE\r
+    '\u2564'    #  0xD1 -> BOX DRAWINGS DOWN SINGLE AND HORIZONTAL DOUBLE\r
+    '\u2565'    #  0xD2 -> BOX DRAWINGS DOWN DOUBLE AND HORIZONTAL SINGLE\r
+    '\u2559'    #  0xD3 -> BOX DRAWINGS UP DOUBLE AND RIGHT SINGLE\r
+    '\u2558'    #  0xD4 -> BOX DRAWINGS UP SINGLE AND RIGHT DOUBLE\r
+    '\u2552'    #  0xD5 -> BOX DRAWINGS DOWN SINGLE AND RIGHT DOUBLE\r
+    '\u2553'    #  0xD6 -> BOX DRAWINGS DOWN DOUBLE AND RIGHT SINGLE\r
+    '\u256b'    #  0xD7 -> BOX DRAWINGS VERTICAL DOUBLE AND HORIZONTAL SINGLE\r
+    '\u256a'    #  0xD8 -> BOX DRAWINGS VERTICAL SINGLE AND HORIZONTAL DOUBLE\r
+    '\u2518'    #  0xD9 -> BOX DRAWINGS LIGHT UP AND LEFT\r
+    '\u250c'    #  0xDA -> BOX DRAWINGS LIGHT DOWN AND RIGHT\r
+    '\u2588'    #  0xDB -> FULL BLOCK\r
+    '\u2584'    #  0xDC -> LOWER HALF BLOCK\r
+    '\u258c'    #  0xDD -> LEFT HALF BLOCK\r
+    '\u2590'    #  0xDE -> RIGHT HALF BLOCK\r
+    '\u2580'    #  0xDF -> UPPER HALF BLOCK\r
+    '\u0636'    #  0xE0 -> ARABIC LETTER DAD\r
+    '\u0637'    #  0xE1 -> ARABIC LETTER TAH\r
+    '\u0638'    #  0xE2 -> ARABIC LETTER ZAH\r
+    '\u0639'    #  0xE3 -> ARABIC LETTER AIN\r
+    '\u063a'    #  0xE4 -> ARABIC LETTER GHAIN\r
+    '\u0641'    #  0xE5 -> ARABIC LETTER FEH\r
+    '\xb5'      #  0xE6 -> MICRO SIGN\r
+    '\u0642'    #  0xE7 -> ARABIC LETTER QAF\r
+    '\u0643'    #  0xE8 -> ARABIC LETTER KAF\r
+    '\u0644'    #  0xE9 -> ARABIC LETTER LAM\r
+    '\u0645'    #  0xEA -> ARABIC LETTER MEEM\r
+    '\u0646'    #  0xEB -> ARABIC LETTER NOON\r
+    '\u0647'    #  0xEC -> ARABIC LETTER HEH\r
+    '\u0648'    #  0xED -> ARABIC LETTER WAW\r
+    '\u0649'    #  0xEE -> ARABIC LETTER ALEF MAKSURA\r
+    '\u064a'    #  0xEF -> ARABIC LETTER YEH\r
+    '\u2261'    #  0xF0 -> IDENTICAL TO\r
+    '\u064b'    #  0xF1 -> ARABIC FATHATAN\r
+    '\u064c'    #  0xF2 -> ARABIC DAMMATAN\r
+    '\u064d'    #  0xF3 -> ARABIC KASRATAN\r
+    '\u064e'    #  0xF4 -> ARABIC FATHA\r
+    '\u064f'    #  0xF5 -> ARABIC DAMMA\r
+    '\u0650'    #  0xF6 -> ARABIC KASRA\r
+    '\u2248'    #  0xF7 -> ALMOST EQUAL TO\r
+    '\xb0'      #  0xF8 -> DEGREE SIGN\r
+    '\u2219'    #  0xF9 -> BULLET OPERATOR\r
+    '\xb7'      #  0xFA -> MIDDLE DOT\r
+    '\u221a'    #  0xFB -> SQUARE ROOT\r
+    '\u207f'    #  0xFC -> SUPERSCRIPT LATIN SMALL LETTER N\r
+    '\xb2'      #  0xFD -> SUPERSCRIPT TWO\r
+    '\u25a0'    #  0xFE -> BLACK SQUARE\r
+    '\xa0'      #  0xFF -> NO-BREAK SPACE\r
+)\r
+\r
+### Encoding table\r
+encoding_table=codecs.charmap_build(decoding_table)\r
+\r
+\r
index f4670e6466960ae4910d0876ea396d49d90bc54f..d44789e1308cde48a92dcd04715b96fc07571054 100644 (file)
--- a/Misc/NEWS
+++ b/Misc/NEWS
@@ -12,6 +12,8 @@ What's New in Python 3.2 Alpha 1?
 Core and Builtins
 -----------------
 
+- Issue #1616979: Added the cp720 (Arabic DOS) encoding.
+
 - Issue #6428: Since Python 3.0, the __bool__ method must return a bool
   object, and not an int.  Fix the corresponding error message, and the
   documentation.
index c3846e9fb2bbe6c7be9efc95aa4f72ba0bce13d0..198ae56abb0184584439da41c47a6149dcfcaa36 100644 (file)
@@ -237,11 +237,11 @@ def python_tabledef_code(varname, map, comments=1, key_precision=2):
             else:
                 mapchar = chr(mapvalue)
         if mapcomment and comments:
-            append('    %r\t#  %s -> %s' % (mapchar,
+            append('    %\t#  %s -> %s' % (mapchar,
                                             hexrepr(key, key_precision),
                                             mapcomment))
         else:
-            append('    %r' % mapchar)
+            append('    %a' % mapchar)
 
     append(')')
     return l
diff --git a/Tools/unicode/genwincodec.py b/Tools/unicode/genwincodec.py
new file mode 100644 (file)
index 0000000..17ba809
--- /dev/null
@@ -0,0 +1,61 @@
+"""This script generates a Python codec module from a Windows Code Page.\r
+\r
+It uses the function MultiByteToWideChar to generate a decoding table.\r
+"""\r
+\r
+import ctypes\r
+from ctypes import wintypes\r
+from gencodec import codegen\r
+import unicodedata\r
+\r
+def genwinmap(codepage):\r
+    MultiByteToWideChar = ctypes.windll.kernel32.MultiByteToWideChar\r
+    MultiByteToWideChar.argtypes = [wintypes.UINT, wintypes.DWORD,\r
+                                    wintypes.LPCSTR, ctypes.c_int,\r
+                                    wintypes.LPWSTR, ctypes.c_int]\r
+    MultiByteToWideChar.restype = ctypes.c_int\r
+\r
+    enc2uni = {}\r
+\r
+    for i in list(range(32)) + [127]:\r
+        enc2uni[i] = (i, 'CONTROL CHARACTER')\r
+\r
+    for i in range(256):\r
+        buf = ctypes.create_unicode_buffer(2)\r
+        ret = MultiByteToWideChar(\r
+            codepage, 0,\r
+            chr(i), 1,\r
+            buf, 2)\r
+        assert ret == 1, "invalid code page"\r
+        assert buf[1] == '\x00'\r
+        try:\r
+            name = unicodedata.name(buf[0])\r
+        except ValueError:\r
+            try:\r
+                name = enc2uni[i][1]\r
+            except KeyError:\r
+                name = ''\r
+\r
+        enc2uni[i] = (ord(buf[0]), name)\r
+\r
+    return enc2uni\r
+\r
+def genwincodec(codepage):\r
+    import platform\r
+    map = genwinmap(codepage)\r
+    encodingname = 'cp%d' % codepage\r
+    code = codegen("", map, encodingname)\r
+    # Replace first lines with our own docstring\r
+    code = '''\\r
+"""Python Character Mapping Codec %s generated on Windows:\r
+%s with the command:\r
+  python Tools/unicode/genwincodec.py %s\r
+"""#"\r
+''' % (encodingname, ' '.join(platform.win32_ver()), codepage\r
+      ) + code.split('"""#"', 1)[1]\r
+\r
+    print(code)\r
+\r
+if __name__ == '__main__':\r
+    import sys\r
+    genwincodec(int(sys.argv[1]))\r
diff --git a/Tools/unicode/genwincodecs.bat b/Tools/unicode/genwincodecs.bat
new file mode 100644 (file)
index 0000000..ad45c6c
--- /dev/null
@@ -0,0 +1,7 @@
+@rem Recreate some python charmap codecs from the Windows function\r
+@rem MultiByteToWideChar.\r
+\r
+@cd /d %~dp0\r
+@mkdir build\r
+@rem Arabic DOS code page\r
+c:\python30\python genwincodec.py 720 > build/cp720.py\r