fix: improve regex for detecting language codes in NllbTokenizer

CodeWithKyrian · CodeWithKyrian · commit 3a261daf5c0a · 2024-07-15T20:19:50.000+01:00
- Updated the regex pattern from /^[a-z]{3}_[A-Z]{3}$/ to /^[a-z]{3}_[a-zA-Z]{3,4}$/ to accommodate additional language code formats such as `eng_Latn` used by some models like `Xenova/nllb-200-distilled-600M`. - This change ensures better compatibility without significant penalties for false positives. - Thanks to @Thorry84 for the suggestion.
diff --git a/examples/pipelines/translation.php b/examples/pipelines/translation.php
@@ -11,11 +11,13 @@
 
 ini_set('memory_limit', -1);
 
-$translator = pipeline('translation', 'Xenova/m2m100_418M');
+//$translator = pipeline('translation', 'Xenova/m2m100_418M');
+$translator = pipeline('translation', 'Xenova/nllb-200-distilled-600M');
 
 $streamer = StdOutStreamer::make();
 
-$output = $translator('生活就像一盒巧克力。', streamer: $streamer, tgtLang: 'en');
+//$output = $translator('生活就像一盒巧克力。', streamer: $streamer, tgtLang: 'en');
+$output = $translator('जीवन एक चॉकलेट बॉक्स की तरह है।', streamer: $streamer, tgtLang: 'fra_Latn');
 //$output = $translator('जीवन एक चॉकलेट बॉक्स की तरह है।', streamer: $streamer, tgtLang: 'fr');
 //$output = $translator('संयुक्त राष्ट्र के प्रमुख का कहना है कि सीरिया में कोई सैन्य समाधान नहीं है', streamer: $streamer, tgtLang: 'fr', maxNewTokens: 256);
 
diff --git a/src/Normalizers/Replace.php b/src/Normalizers/Replace.php
@@ -2,7 +2,6 @@
 
 declare(strict_types=1);
 
-
 namespace Codewithkyrian\Transformers\Normalizers;
 
 /**
diff --git a/src/PretrainedTokenizers/NllbTokenizer.php b/src/PretrainedTokenizers/NllbTokenizer.php
@@ -10,7 +10,7 @@
 
 class NllbTokenizer extends PretrainedTokenizer
 {
-    protected string $languageRegex = '/^[a-z]{3}_[A-Z]{3}$/';
+    protected string $languageRegex = '/^[a-z]{3}_[a-zA-Z]{3,4}$/';
 
     protected array $languageCodes = [];
     protected \Closure $langToToken;

Original file line number	Diff line number	Diff line change
`@@ -10,7 +10,7 @@`
`10`	`10`
`11`	`11`	`class NllbTokenizer extends PretrainedTokenizer`
`12`	`12`	`{`
`13`		`- protected string $languageRegex = '/^[a-z]{3}_[A-Z]{3}$/';`
	`13`	`+ protected string $languageRegex = '/^[a-z]{3}_[a-zA-Z]{3,4}$/';`
`14`	`14`
`15`	`15`	`protected array $languageCodes = [];`
`16`	`16`	`protected \Closure $langToToken;`