ICU-21699 Add breakpoint between Japanese and Alphabet

author allenwtsu <allenwtsu@google.com>

Thu, 27 Jan 2022 10:01:25 +0000 (18:01 +0800)

committer Markus Scherer <markus.icu@gmail.com>

Thu, 10 Feb 2022 05:12:49 +0000 (21:12 -0800)
author allenwtsu <allenwtsu@google.com>
Thu, 27 Jan 2022 10:01:25 +0000 (18:01 +0800)
committer Markus Scherer <markus.icu@gmail.com>
Thu, 10 Feb 2022 05:12:49 +0000 (21:12 -0800)
diff --git a/icu4c/source/common/dictbe.cpp b/icu4c/source/common/dictbe.cpp

index 4621bf4e24f303551c910bd577476b17f91b39c4..08e4c0a9b7a23de225e28c32512d41793ab2f792 100644 (file)
--- a/icu4c/source/common/dictbe.cpp
+++ b/icu4c/source/common/dictbe.cpp
@@ -1061,8 +1061,10 @@ CjkBreakEngine::CjkBreakEngine(DictionaryMatcher *adoptDictionary, LanguageType
      // Korean dictionary only includes Hangul syllables
      fHangulWordSet.applyPattern(UnicodeString(u"[\\uac00-\\ud7a3]"), status);
      fHangulWordSet.compact();
-    fNumberOrOpenPunctuationSet.applyPattern(UnicodeString(u"[[:Nd:][:Pi:][:Ps:]]"), status);
-    fNumberOrOpenPunctuationSet.compact();
+    // Digits, open puncutation and Alphabetic characters.
+    fDigitOrOpenPunctuationOrAlphabetSet.applyPattern(
+        UnicodeString(u"[[:Nd:][:Pi:][:Ps:][:Alphabetic:]]"), status);
+    fDigitOrOpenPunctuationOrAlphabetSet.compact();
      fClosePunctuationSet.applyPattern(UnicodeString(u"[[:Pc:][:Pd:][:Pe:][:Pf:][:Po:]]"), status);
      fClosePunctuationSet.compact();
  
@@ -1433,8 +1435,9 @@ CjkBreakEngine::divideUpDictionaryRange( UText *inText,
          // the number/open punctuation.
          // E.g. る文字「そうだ、京都」->る▁文字▁「そうだ、▁京都」-> breakpoint between 字 and「
          // E.g. 乗車率９０％程度だろうか -> 乗車▁率▁９０％▁程度だ▁ろうか -> breakpoint between 率 and ９
+        // E.g. しかもロゴがＵｎｉｃｏｄｅ！ -> しかも▁ロゴが▁Ｕｎｉｃｏｄｅ！-> breakpoint between が and Ｕ
          if (isPhraseBreaking) {
-            if (!fNumberOrOpenPunctuationSet.contains(nextChar)) {
+            if (!fDigitOrOpenPunctuationOrAlphabetSet.contains(nextChar)) {
                  foundBreaks.popi();
                  correctedNumBreaks--;
              }
diff --git a/icu4c/source/common/dictbe.h b/icu4c/source/common/dictbe.h

index 36c9a8628432fc8ce68304927d7358f2a7ebccd0..a73274e3e9dd4799ed6bb8d123f5860e43d7abc2 100644 (file)
--- a/icu4c/source/common/dictbe.h
+++ b/icu4c/source/common/dictbe.h
@@ -369,7 +369,7 @@ class CjkBreakEngine : public DictionaryBreakEngine {
       * @internal
       */
    UnicodeSet                fHangulWordSet;
-  UnicodeSet                fNumberOrOpenPunctuationSet;
+  UnicodeSet                fDigitOrOpenPunctuationOrAlphabetSet;
    UnicodeSet                fClosePunctuationSet;
  
    DictionaryMatcher        *fDictionary;
diff --git a/icu4c/source/test/testdata/rbbitst.txt b/icu4c/source/test/testdata/rbbitst.txt

index 1b74e31a81008f31ff25f778f0a4efc70d73d4c5..e74ee60edb6cbdb6a83686adaca3faded4fbfef5 100644 (file)
--- a/icu4c/source/test/testdata/rbbitst.txt
+++ b/icu4c/source/test/testdata/rbbitst.txt
@@ -1906,11 +1906,13 @@ Bangkok)•</data>
  # ｄｏｃｏｍｏのサイト情報によると、７８０００パケット以上▁使うならパケ放題がいいとか -> ｄｏｃｏｍｏの▁サイト▁情報によると、▁７８０００パケット▁以上▁使う▁なら▁パケ▁放題が▁いい▁とか
  <data>•\uFF44\uFF4F\uFF43\uFF4F\uFF4D\uFF4F\u306E•\u30B5\u30A4\u30C8•\u60C5\u5831•\u306B\u3088\u308B\u3068\u3001•\uFF17\uFF18\uFF10\uFF10\uFF10\u30D1\u30B1\u30C3\u30C8•\u4EE5\u4E0A•\u4F7F\u3046•\u306A\u3089•\u30D1\u30B1•\u653E\u984C\u304C•\u3044\u3044•\u3068\u304B•</data>
  #日本の携帯はＣＤＭＡの形だといわれています -> 日本の▁携帯は▁ＣＤＭＡの▁形だと▁いわれ▁ています
-<data>•\u65E5\u672C\u306E•\u643A\u5E2F\u306F\uFF23\uFF24\uFF2D\uFF21\u306E•\u5F62\u3060\u3068•\u3044\u308F\u308C•\u3066\u3044\u307E\u3059•</data>
+<data>•\u65E5\u672C\u306E•\u643A\u5E2F\u306F•\uFF23\uFF24\uFF2D\uFF21\u306E•\u5F62\u3060\u3068•\u3044\u308F\u308C•\u3066\u3044\u307E\u3059•</data>
  #中国の携帯は約５００元から５０００元です -> 中国の▁携帯は▁約▁５００元から▁５０００元です
  <data>•\u4E2D\u56FD\u306E•\u643A\u5E2F\u306F•\u7D04•\uFF15\uFF10\uFF10\u5143\u304B\u3089•\uFF15\uFF10\uFF10\uFF10\u5143\u3067\u3059•</data>
  #プリペイドカード携帯布教 -> プリペイドカード▁携帯▁布教
  <data>•\u30D7\u30EA\u30DA\u30A4\u30C9\u30AB\u30FC\u30C9•\u643A\u5E2F•\u5E03\u6559•</data>
+#しかもロゴがＵｎｉｃｏｄｅ！！ -> しかも▁ロゴが▁Ｕｎｉｃｏｄｅ！！
+<data>•\u3057\u304B\u3082•\u30ED\u30B4\u304C•\uFF35\uFF4E\uFF49\uFF43\uFF4F\uFF44\uFF45\uFF01\uFF01•</data>
  
  ####################################################################################
  #
diff --git a/icu4j/main/classes/core/src/com/ibm/icu/impl/breakiter/CjkBreakEngine.java b/icu4j/main/classes/core/src/com/ibm/icu/impl/breakiter/CjkBreakEngine.java

index 166a4c752453e52a56349ecec6b22cf5c3f12dd9..a6da7d502ccab90a6483985c9fd265b0027b11b5 100644 (file)
--- a/icu4j/main/classes/core/src/com/ibm/icu/impl/breakiter/CjkBreakEngine.java
+++ b/icu4j/main/classes/core/src/com/ibm/icu/impl/breakiter/CjkBreakEngine.java
@@ -27,7 +27,7 @@ import com.ibm.icu.util.UResourceBundleIterator;
  
  public class CjkBreakEngine extends DictionaryBreakEngine {
      private UnicodeSet fHangulWordSet;
-    private UnicodeSet fNumberOrOpenPunctuationSet;
+    private UnicodeSet fDigitOrOpenPunctuationOrAlphabetSet;
      private UnicodeSet fClosePunctuationSet;
      private DictionaryMatcher fDictionary = null;
      private HashSet<String> fSkipSet;
@@ -35,8 +35,10 @@ public class CjkBreakEngine extends DictionaryBreakEngine {
      public CjkBreakEngine(boolean korean) throws IOException {
          fHangulWordSet = new UnicodeSet("[\\uac00-\\ud7a3]");
          fHangulWordSet.freeze();
-        fNumberOrOpenPunctuationSet = new UnicodeSet("[[:Nd:][:Pi:][:Ps:]]");
-        fNumberOrOpenPunctuationSet.freeze();
+        // Digit, open punctuation and Alphabetic characters.
+        fDigitOrOpenPunctuationOrAlphabetSet = new UnicodeSet("[[:Nd:][:Pi:][:Ps:][:Alphabetic:]]");
+        fDigitOrOpenPunctuationOrAlphabetSet.freeze();
+
          fClosePunctuationSet = new UnicodeSet("[[:Pc:][:Pd:][:Pe:][:Pf:][:Po:]]");
          fClosePunctuationSet.freeze();
          fSkipSet = new HashSet<String>();
@@ -292,8 +294,9 @@ public class CjkBreakEngine extends DictionaryBreakEngine {
              // the number/open punctuation.
              // E.g. る文字「そうだ、京都」->る▁文字▁「そうだ、▁京都」-> breakpoint between 字 and「
              // E.g. 乗車率９０％程度だろうか -> 乗車▁率▁９０％▁程度だ▁ろうか -> breakpoint between 率 and ９
+            // E.g. しかもロゴがＵｎｉｃｏｄｅ！ -> しかも▁ロゴが▁Ｕｎｉｃｏｄｅ！-> breakpoint between が and Ｕ
              if (isPhraseBreaking) {
-                if (!fNumberOrOpenPunctuationSet.contains(inText.setIndex(endPos))) {
+                if (!fDigitOrOpenPunctuationOrAlphabetSet.contains(inText.setIndex(endPos))) {
                      foundBreaks.pop();
                      correctedNumBreaks--;
                  }
diff --git a/icu4j/main/tests/core/src/com/ibm/icu/dev/test/rbbi/rbbitst.txt b/icu4j/main/tests/core/src/com/ibm/icu/dev/test/rbbi/rbbitst.txt

index e8b07361ff864ed2a79908e92792d286fc4dc560..0645d0b6bbd6423b24c049565984661eae8348ae 100644 (file)
--- a/icu4j/main/tests/core/src/com/ibm/icu/dev/test/rbbi/rbbitst.txt
+++ b/icu4j/main/tests/core/src/com/ibm/icu/dev/test/rbbi/rbbitst.txt
@@ -1901,17 +1901,18 @@ Bangkok)•</data>
  #Kana supplement: 𛁈(U+1B048) -> \uD82C\uDC48, 𛀸(U+1B038) -> \uD82C\uDC38, 𛀙(U+1B019)-> \uD82C\uDC19</data>
  #𛁈る𛀸（しるこ）、あ𛀙よろし（あかよろし） -> 𛁈る𛀸•（しるこ）、•あ𛀙よろし•（あ•かよろし）
  <data>•\uD82C\uDC48\u308B\uD82C\uDC38•\uFF08\u3057\u308B\u3053\uFF09\u3001•\u3042\uD82C\uDC19\u3088\u308D\u3057•\uFF08\u3042•\u304B\u3088\u308D\u3057\uFF09•</data>
-<data>•\uD82C\uDC48\u308B\uD82C\uDC38•\uFF08\u3057\u308B\u3053\uFF09\u3001•\u3042\uD82C\uDC19\u3088\u308D\u3057•\uFF08\u3042•\u304B\u3088\u308D\u3057\uFF09•</data>
  #最初に目に入るのは、「許諾なき写真禁止」のサインである。 -> 最初に▁目に▁入るのは、▁「許諾なき▁写真▁禁止」▁の▁サインで▁ある。
  <data>•\u6700\u521D\u306B•\u76EE\u306B•\u5165\u308B\u306E\u306F\u3001•\u300C\u8A31\u8AFE\u306A\u304D•\u5199\u771F•\u7981\u6B62\u300D•\u306E•\u30B5\u30A4\u30F3\u3067•\u3042\u308B\u3002•</data>
  # ｄｏｃｏｍｏのサイト情報によると、７８０００パケット以上▁使うならパケ放題がいいとか -> ｄｏｃｏｍｏの▁サイト▁情報によると、▁７８０００パケット▁以上▁使う▁なら▁パケ▁放題が▁いい▁とか
  <data>•\uFF44\uFF4F\uFF43\uFF4F\uFF4D\uFF4F\u306E•\u30B5\u30A4\u30C8•\u60C5\u5831•\u306B\u3088\u308B\u3068\u3001•\uFF17\uFF18\uFF10\uFF10\uFF10\u30D1\u30B1\u30C3\u30C8•\u4EE5\u4E0A•\u4F7F\u3046•\u306A\u3089•\u30D1\u30B1•\u653E\u984C\u304C•\u3044\u3044•\u3068\u304B•</data>
  #日本の携帯はＣＤＭＡの形だといわれています -> 日本の▁携帯は▁ＣＤＭＡの▁形だと▁いわれ▁ています
-<data>•\u65E5\u672C\u306E•\u643A\u5E2F\u306F\uFF23\uFF24\uFF2D\uFF21\u306E•\u5F62\u3060\u3068•\u3044\u308F\u308C•\u3066\u3044\u307E\u3059•</data>
+<data>•\u65E5\u672C\u306E•\u643A\u5E2F\u306F•\uFF23\uFF24\uFF2D\uFF21\u306E•\u5F62\u3060\u3068•\u3044\u308F\u308C•\u3066\u3044\u307E\u3059•</data>
  #中国の携帯は約５００元から５０００元です -> 中国の▁携帯は▁約▁５００元から▁５０００元です
  <data>•\u4E2D\u56FD\u306E•\u643A\u5E2F\u306F•\u7D04•\uFF15\uFF10\uFF10\u5143\u304B\u3089•\uFF15\uFF10\uFF10\uFF10\u5143\u3067\u3059•</data>
  #プリペイドカード携帯布教 -> プリペイドカード▁携帯▁布教
  <data>•\u30D7\u30EA\u30DA\u30A4\u30C9\u30AB\u30FC\u30C9•\u643A\u5E2F•\u5E03\u6559•</data>
+#しかもロゴがＵｎｉｃｏｄｅ！！ -> しかも▁ロゴが▁Ｕｎｉｃｏｄｅ！！
+<data>•\u3057\u304B\u3082•\u30ED\u30B4\u304C•\uFF35\uFF4E\uFF49\uFF43\uFF4F\uFF44\uFF45\uFF01\uFF01•</data>
  
  ####################################################################################
  #
author	allenwtsu <allenwtsu@google.com>
	Thu, 27 Jan 2022 10:01:25 +0000 (18:01 +0800)
committer	Markus Scherer <markus.icu@gmail.com>
	Thu, 10 Feb 2022 05:12:49 +0000 (21:12 -0800)
icu4c/source/common/dictbe.cpp		patch \| blob \| history
icu4c/source/common/dictbe.h		patch \| blob \| history
icu4c/source/test/testdata/rbbitst.txt		patch \| blob \| history
icu4j/main/classes/core/src/com/ibm/icu/impl/breakiter/CjkBreakEngine.java		patch \| blob \| history
icu4j/main/tests/core/src/com/ibm/icu/dev/test/rbbi/rbbitst.txt		patch \| blob \| history