]> granicus.if.org Git - php/commitdiff
Add identify filter for ISO-8859-3 (Latin-3)
authorAlex Dowad <alexinbeijing@gmail.com>
Sat, 19 Sep 2020 18:27:55 +0000 (20:27 +0200)
committerAlex Dowad <alexinbeijing@gmail.com>
Fri, 16 Oct 2020 20:17:45 +0000 (22:17 +0200)
There are some bytes in this encoding which are not mapped to any character.
Notably, MicroSoft added their own mappings for these 'unused' bits in their
version of Latin-3, called CP28593.

ext/mbstring/libmbfl/filters/mbfilter_iso8859_3.c

index 3b1c0847ea656c52da43c57a79fb16932fe9e46f..0c061055f89076b5a659a5fca843390d0829f7c2 100644 (file)
@@ -31,6 +31,8 @@
 #include "mbfilter_iso8859_3.h"
 #include "unicode_table_iso8859_3.h"
 
+static int mbfl_filt_ident_iso8859_3(int c, mbfl_identify_filter *filter);
+
 static const char *mbfl_encoding_8859_3_aliases[] = {"ISO8859-3", "latin3", NULL};
 
 const mbfl_encoding mbfl_encoding_8859_3 = {
@@ -47,7 +49,7 @@ const mbfl_encoding mbfl_encoding_8859_3 = {
 const struct mbfl_identify_vtbl vtbl_identify_8859_3 = {
        mbfl_no_encoding_8859_3,
        mbfl_filt_ident_common_ctor,
-       mbfl_filt_ident_true
+       mbfl_filt_ident_iso8859_3
 };
 
 const struct mbfl_convert_vtbl vtbl_8859_3_wchar = {
@@ -132,3 +134,11 @@ int mbfl_filt_conv_wchar_8859_3(int c, mbfl_convert_filter *filter)
 
        return c;
 }
+
+static int mbfl_filt_ident_iso8859_3(int c, mbfl_identify_filter *filter)
+{
+       if (c >= 0xA0 && !iso8859_3_ucs_table[c - 0xA0]) {
+               filter->status = 1;
+       }
+       return c;
+}