ó fT–hÃ<ãóÀ•SrSSKrSSKrSSKrSSKJr SSKJrJrJ r J r Jr SSKJ r Jr SSKJr \R""\5rSS 0r"S S5r"SS \5rS /rg)z"Tokenization class for model MyT5.éN)Údefaultdict)ÚDictÚListÚOptionalÚTupleÚUnioné)Ú AddedTokenÚPreTrainedTokenizer)ÚloggingÚ vocab_filezbyte_maps.jsonc óî•\rSrSrSrSrS\\\\\444Sjr S\\\\ \\44S\S\4S jrS\\\4S \\\\ \\444Sjr S\\S \S \\44SjrSS\\S \\4SjjrSrg )ÚByteRewriteré!aB Byte rewriter class for MyT5 tokenizer. This class is used to rewrite bytes using a hash tree. The hash tree is constructed from a set of rewriting rules. Args: rewriting_rules (`str` or `Dict[str, str]`): A path to a json file containing the rewriting rules or a dictionary containing the rewriting rules. z[LEAF]Úrewriting_rulescó¬•[U[5(a,[US5n[R"U5nSSS5 O,[U[ 5(d[ S[U535eURU5Ul UR5VVs0sHup4XC_M nnnURU5Ulg!,(df N_=fs snnf)NÚrzDrewriting_rules should be either a path to json file or a dict, got )Ú isinstanceÚstrÚopenÚjsonÚloadÚdictÚ ValueErrorÚtypeÚconstruct_hash_treeÚ hash_treeÚitemsÚreverse_hash_tree)ÚselfrÚfÚkÚvÚreverse_rewriting_ruless Úb/var/www/auris/envauris/lib/python3.13/site-packages/transformers/models/myt5/tokenization_myt5.pyÚ__init__ÚByteRewriter.__init__.s¶€Üo¤s×+Ñ+Üo sÔ+¨qÜ"&§)¢)¨A£,÷,Ð+ä˜O¬T×2Ñ2ÜØVÔW[Ð\kÓWlÐVmÐnóð ð×1Ñ1°/ÓBˆŒØ4C×4IÑ4IÔ4KÔ"LÒ4K©D¨A 1¢4Ñ4KÐÑ"LØ!%×!9Ñ!9Ð:QÓ!RˆÕ÷,Õ+üó#Ms¢B?ÂCÂ? C rÚbyte_in_sequenceÚbyte_out_sequencecó”•URS5nURS5nUnUHnXv;a0Xg'XgnM XVUR'g)z< Add a leaf with the output byte sequence to the hash tree. Ú N)ÚsplitÚLEAF)r rr(r)Úbyte_in_listÚ byte_out_listÚtree_pointerÚbs r%Úadd_leafÚByteRewriter.add_leaf;sU€ð(×-Ñ-¨cÓ2ˆØ)×/Ñ/°Ó4ˆ à ˆÛˆAØÓ$Ø"$‘Ø'™?ŠLñð #0T—Y‘YÒóÚreturncóÐ•[[5nS[S55HnU/X#UR'M UR 5HupEURX$U5 M U$)z5 Construct a hash tree for rewritten byte sequences. c3ó(# •UHoSv• M g7f)Ú02xN©)Ú.0Úxs r%Ú Ú3ByteRewriter.construct_hash_tree..Osé€Ð1¢j sG”*¢jùs‚é)rrÚranger-rr2)r rrr1Úin_sequenceÚout_sequences r%rÚ ByteRewriter.construct_hash_treeJsb€ô ¤Ó%ˆ Ù1¤e¨C¤jÖ1ˆAØ'( cˆI‰L˜Ÿ™Ó#ñ2ð*9×)>Ñ)>Ö)@Ñ%ˆKØM‰M˜)°,Ö?ñ*AðÐr4Ú byte_sequenceNcó^•URnUHnX2;aX#nM g X R$)zG Search the hash tree and return the rewritten byte sequence if found. N)rr-)r rCr0r1s r%Úsearch_hash_treeÚByteRewriter.search_hash_treeWs6€ð—~‘~ˆÛˆAØÓ Ø+™’áñ ðŸI™IÑ&Ð&r4Úin_bytescóp•/nSnSnU[U5:a U(dUROURn[U[U55HAnXnX†;aXhnOXt:XaU/n Un O( O&URU;dM1X`Rn UnMC URW 5 US-nU[U5:aM U$)zþ Rewrite a sequence of bytes using the hash tree. Args: in_bytes (`List[str]`): A list of bytes to be rewritten. reverse (`bool`): If True, decoding is performed with the reverse hash tree. Returns: `List[str]`: The rewritten byte sequence. ré)Úlenrrr?r-Úextend) r rGÚreverseÚ out_bytesÚb_startÚb_endr0Újr1Úcur_leafs r%Ú rewrite_bytesÚByteRewriter.rewrite_bytesds¾€ðˆ ØˆØˆàœ˜H› Ó%Þ18˜4Ÿ>š>¸d×>TÑ>TˆLÜ˜7¤C¨£MÖ2Ø‘KØÓ$Ø#/¡?‘LØ“\Ø !˜sHØEÙáØ—9‘9 Õ,Ø+¯I©IÑ6HØ’Eñ3ð ×Ñ˜XÔ&Ø˜a‘iˆGð!œ˜H› Õ%ð$Ðr4)rr)F)Ú__name__Ú __module__Ú__qualname__Ú__firstlineno__Ú__doc__r-rrrr&rrr2rrErRÚ__static_attributes__r9r4r%rr!sÝ†ñð€DðS¨¨c°4¸¸S¸±>Ð.AÑ(BôSð 0 $ s¨E°$¸¸S¹ °/Ñ,BÐ'BÑ"Cð 0ÐWZð 0Ðorô 0ð°4¸¸S¸±>ðÀdÈ3ÐPUÐVZÐ\`ÐadÑ\eÐVeÑPfÐKfÑFgôð'¨d°3©ið'¸EÀ$ÈÈSÉ À/Ñ"`): The end of sequence token. unk_token (`str`, *optional*, defaults to `""`): The unknown token. A token that is not in the vocabulary cannot be converted to an ID and is set to be this token instead. pad_token (`str`, *optional*, defaults to `""`): The token used for padding, for example when batching sequences of different lengths. extra_ids (`int`, *optional*, defaults to 125): Add a number of extra ids added to the end of the vocabulary for use as sentinels. These tokens are accessible as "" where "{%d}" is a number between 0 and extra_ids-1. Extra tokens are indexed from the end of the vocabulary up to beginning ("" is the last token in the vocabulary like in ByT5 preprocessing see [here](https://github.com/google-research/text-to-text-transfer-transformer/blob/9fd7b14a769417be33bc6c850f9598764913c833/t5/data/preprocessors.py#L2117)). additional_special_tokens (`List[str]`, *optional*): Additional special tokens used by the tokenizer. Ú input_idsÚattention_maskr5c ó >•US:”a#Uc [U5Vs/sH nSUS3PM nnONUS:”aHUbE[U5S:”a6[[[SU555n X•:wa[ SUSUS35e[U[5(a[USSS 9OUn[U[5(a[USSS 9OUn[U[5(a[USSS 9OUnXBUS .Ul[UR5Ul SUl [R"[US55Ul[URS 5Ul[URS5Ul[$T U]L"SUUUSUS.UD6 gs snf)Nrz có0•[S[U5;5$)NÚextra_id)Úboolr)r;s r%ÚÚ(MyT5Tokenizer.__init__..´s€´D¸ÄsÈ1ÃvÑ9MÔ4Nr4zBoth extra_ids (z!) and additional_special_tokens (zm) are provided to MyT5Tokenizer. In this case the additional_special_tokens must include the extra_ids tokensT)ÚlstripÚrstrip)rrIér>rÚ decompose_mapÚ merge_map)Ú eos_tokenÚ unk_tokenÚ pad_tokenÚ extra_idsÚadditional_special_tokensr9)r?rJÚsetÚfilterrrrr Ú_added_tokens_decoderÚoffsetÚ_utf_vocab_sizerrrÚ byte_mapsrÚdecompose_rewriterÚmerge_rewriterÚsuperr&)r r rkrlrmrnroÚkwargsÚiÚextra_tokensÚ __class__s €r%r&ÚMyT5Tokenizer.__init__¥s™ø€ðq‹=Ð6Ñ>ÜDIÈ)ÔDTÓ(UÒDT¸q¨:°a°S¸Ó):ÑDTÐ%Ð(UÐ%Ø ˜‹]Ð8ÑDÌÐMfÓIgÐjkÓIkäœs¤6Ñ*NÐPiÓ#jÓkÓlˆLØÓ(Ü Ø& y kÐ1RÐSlÐRmðn(ð(óðôHRÐR[Ô]`×GaÑGa”J˜y°¸dÒCÐgpˆ ÜGQÐR[Ô]`×GaÑGa”J˜y°¸dÒCÐgpˆ ÜGQÐR[Ô]`×GaÑGa”J˜y°¸dÒCÐgpˆ à)2ÀYÑ%OˆÔ"Ü˜$×4Ñ4Ó5ˆŒØ#ˆÔôŸš¤4¨ °CÓ#8Ó9ˆŒä".¨t¯~©~¸oÑ/NÓ"OˆÔÜ*¨4¯>©>¸+Ñ+FÓGˆÔä ‰Òð ØØØØØ&?ñ ðó ùò3)Vs˜Fcó•UR$©N)rt)r s r%Ú vocab_sizeÚMyT5Tokenizer.vocab_sizeÓs€à×#Ñ#Ð#r4cóÈ•[URUR-5Vs0sHoRU5U_M nnUR UR 5 U$s snfr)r?r€rsÚconvert_ids_to_tokensÚupdateÚadded_tokens_encoder)r rzÚvocabs r%Ú get_vocabÚMyT5Tokenizer.get_vocabØsX€Ü;@ÀÇÁÐSW×S^ÑS^ÑA^Ô;_Ó`Ò;_°a×+Ñ+¨AÓ.°Ò1Ñ;_ˆÐ`Ø ‰T×.Ñ.Ô/Øˆùòas¥AÚtoken_ids_0Útoken_ids_1Úalready_has_special_tokenscó¨>•U(a[TU]XSS9$UcS/[U5-S/-$S/[U5-S/-S/[U5--S/-$)ad Retrieve sequence ids from a token list that has no special tokens added. This method is called when adding special tokens using the tokenizer `prepare_for_model` method. Args: token_ids_0 (`List[int]`): List of IDs. token_ids_1 (`List[int]`, *optional*): Optional second list of IDs for sequence pairs. already_has_special_tokens (`bool`, *optional*, defaults to `False`): Whether or not the token list is already formatted with special tokens for the model. Returns: `List[int]`: A list of integers in the range [0, 1]: 1 for a special token, 0 for a sequence token. T)r‰rŠr‹rrI)rxÚget_special_tokens_maskrJ)r r‰rŠr‹r|s €r%rÚ%MyT5Tokenizer.get_special_tokens_maskÞswø€ö$&Ü‘7Ñ2Ø'Ð]að3ðð ð ÑØCœ#˜kÓ*Ñ*¨q¨cÑ1Ð1Ø”c˜+Ó&Ñ&¨1¨#Ñ-°!°´s¸;Ó7GÑ1GÑHÈAÈ3ÑNÐNr4Ú token_idscó°•[U5S:”a9USUR:Xa&[R"SURS35 U$XR/-$)z.Do not add eos again if user already added it.réÿÿÿÿzThis sequence already has zQ. In future versions this behavior may lead to duplicated eos tokens being added.)rJÚeos_token_idÚwarningsÚwarnrk)r rs r%Ú_add_eos_if_not_presentÚ%MyT5Tokenizer._add_eos_if_not_presentús[€äˆy‹>˜AÓ )¨B¡-°4×3DÑ3DÓ"DÜMŠMØ,¨T¯^©^Ð,<ð=+ð+ô ðÐà× 1Ñ 1Ð2Ñ2Ð2r4cór•UR/nUc[X-5S/-$[X-U-U-5S/-$)ay Create a mask from the two sequences passed to be used in a sequence-pair classification task. MyT5 does not make use of token type ids, therefore a list of zeros is returned. Args: token_ids_0 (`List[int]`): List of IDs. token_ids_1 (`List[int]`, *optional*): Optional second list of IDs for sequence pairs. Returns: `List[int]`: List of zeros. r)r’rJ)r r‰rŠÚeoss r%Ú$create_token_type_ids_from_sequencesÚ2MyT5Tokenizer.create_token_type_ids_from_sequencessL€ð × Ñ Ð!ˆàÑÜ{Ñ(Ó)¨Q¨CÑ/Ð/Ü;Ñ$ {Ñ2°SÑ8Ó9¸Q¸CÑ?Ð?r4cóX•URU5nUcU$URU5nX-$)a" Build model inputs from a sequence or a pair of sequence for sequence classification tasks by concatenating and adding special tokens. A sequence has the following format: - single sequence: `X ` - pair of sequences: `A B ` Args: token_ids_0 (`List[int]`): List of IDs to which the special tokens will be added. token_ids_1 (`List[int]`, *optional*): Optional second list of IDs for sequence pairs. Returns: `List[int]`: List of [input IDs](../glossary#input-ids) with the appropriate special tokens. )r•)r r‰rŠs r%Ú build_inputs_with_special_tokensÚ.MyT5Tokenizer.build_inputs_with_special_tokenss9€ð&×2Ñ2°;Ó?ˆØÑØÐà×6Ñ6°{ÓCˆKØÑ,Ð,r4Útextcóv•URS5Vs/sHo3SPM nnURU5nU$s snf)zTake as input a string and return a list of strings (tokens) for words/sub-words. Represents tokens in two character hex formatúutf-8r8)ÚencodeÚmorphological_encode)r ržryrzÚtokenss r%Ú _tokenizeÚMyT5Tokenizer._tokenize6sA€ð'+§k¡k°'Ô&:Ó;Ò&: sG’*Ñ&:ˆÐ;Ø×*Ñ*¨6Ó2ˆØˆ ùòs6€ôˆu‹:˜‹?ØˆHðˆô˜5 "“~¨¯©Ñ3ˆHàˆr4có&•XR- SnU$)z=Converts an index (integer) in a token (str) using the vocab.r8)rs)r Úindexr©s r%Ú_convert_id_to_tokenÚ"MyT5Tokenizer._convert_id_to_tokenHs€àŸ;™;Ñ& sÐ+ˆØˆr4Úindicescón•URRUSS9nURRUSS9nU$)NF©rL)rvrRrw©r r±s r%r¢Ú"MyT5Tokenizer.morphological_encodeMs=€à×)Ñ)×7Ñ7¸ÈÐ7ÐOˆØ×%Ñ%×3Ñ3°GÀUÐ3ÐKˆØˆr4cón•URRUSS9nURRUSS9nU$)NTr³)rwrRrvr´s r%Úmorphological_decodeÚ"MyT5Tokenizer.morphological_decodeSs=€à×%Ñ%×3Ñ3°GÀTÐ3ÐJˆØ×)Ñ)×7Ñ7¸ÈÐ7ÐNˆØˆr4có•Sn/nUHenX@R;a URURU5 M2X@R;aURU5 MTURU5 Mg URU5n[ URR55[ UR5-nUH1nXE;aU[ US5- nMU[RU5- nM3 URSSS9nU$)z:Converts a sequence of tokens (string) in a single string.r4r Úignore)Úerrors) Úadded_tokens_decoderÚappendr…r·rpÚvaluesÚbytesÚfromhexÚdecode)r r£ÚbstringÚ out_tokensr©Ú _added_tokensÚstrings r%Úconvert_tokens_to_stringÚ&MyT5Tokenizer.convert_tokens_to_stringYsë€àˆàˆ ÛˆEØ×1Ñ1Ó1Ø×!Ñ! $×";Ñ";¸EÑ"BÖCØ×3Ñ3Ó3Ø×!Ñ! %Ö(à×!Ñ! %Ö(ñ ð×.Ñ.¨zÓ:ˆ Ü˜D×5Ñ5×<Ñ<Ó>Ó?Ä#Àd×F_ÑF_ÓB`Ñ`ˆ ÛˆEØÓ%Øœ5 ¨Ó0Ñ0’àœ5Ÿ=™=¨Ó/Ñ/’ñ ð —‘ °Ð9ˆØˆ r4Úsave_directoryÚfilename_prefixc óŠ•[RRU5(a6[RRX(aUS-OS[S-5nOU(aUS-OSU-n[USSS9nUR [R"URSSS 95 SSS5 U4$!,(df U4$=f) NÚ-Úr Úwr )ÚencodingrhF)ÚindentÚensure_ascii) ÚosÚpathÚisdirÚjoinÚVOCAB_FILES_NAMESrÚwriterÚdumpsru)r rÈrÉr Úwriters r%Úsave_vocabularyÚMyT5Tokenizer.save_vocabularyps €Ü 7‰7=‰=˜×(Ñ(ÜŸ™Ÿ™Ø½/ °3Ò!6ÈrÔUfÐgsÑUtÑ tó‰Jö4C˜/¨CÒ/ÈÈnÑ\ˆJÜ *˜c¨GÒ 4¸ØL‰LœŸš D§N¡N¸1È5ÑQÔR÷5àˆ}Ð÷5Ô 4àˆ}ÐúsÁ70B2Â2 C)rrrtrurvrwrs)zzzé}N)r5N)NFr)rTrUrVrWrXÚmodel_input_namesrÕÚvocab_files_namesr&Úpropertyr€r‡rr¨rrcrr•r™rœrr¤r«r¯r¢r·rÆrrÙrYÚ __classcell__)r|s@r%r[r[‡s²ø†ñð4%Ð&6Ð7ÐØ)Ðð ØØØØ"&ð, ð ÷, ð, ð\ñ$óð$òðsxñOØ ™9ðOØ3;¸DÀ¹IÑ3FðOØkoðOà ˆc‰÷OðOð8 3°°c±ð 3¸tÀC¹yô 3ðJNñ@Ø ™9ð@Ø3;¸DÀ¹IÑ3Fð@à ˆc‰õ@ð0JNñ-Ø ™9ð-Ø3;¸DÀ¹IÑ3Fð-à ˆc‰õ-ð4˜cð°°S± ôòòð ¨D°©Ið¸$¸s¹)ôð¨D°©Ið¸$¸s¹)ôòñ. ¨cð ÀHÈSÁMð Ð]bÐcfÑ]g÷ ó r4r[)rXrrÑr“ÚcollectionsrÚtypingrrrrrÚtokenization_utilsr rÚutilsrÚ get_loggerrTÚloggerrÕrr[Ú__all__r9r4r%Úrçsiðñ)ãÛ ÛÝ#ß5Õ5çAÝð × Ò ˜HÓ %€ð"Ð#3Ð4Ð÷cñcôLrÐ'ôrðjÐ r4