ó
    fT–hì‚  ã                   óâ  • S r SSKrSSKJrJrJrJr  SSKrSSKrSSKJ	r	  SSK
Jr  SSKJr  SSKJrJr  SS	KJrJr  SS
KJr  SSKJrJr  SSKJr  \R6                  " \5      r " S S\	R<                  5      r " S S\	R@                  5      r! " S S\	R@                  5      r" " S S\	R@                  5      r#\ " S S\5      5       r$\ " S S\$5      5       r%\" SS9 " S S\$\5      5       r&/ SQr'g)zPyTorch XGLM model.é    N)ÚListÚOptionalÚTupleÚUnion)Únné   )ÚACT2FN)ÚGenerationMixin)Ú_prepare_4d_attention_maskÚ!_prepare_4d_causal_attention_mask)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentions)ÚPreTrainedModel)Úauto_docstringÚloggingé   )Ú
XGLMConfigc            
       ór   ^ • \ rS rSrSrSS\S\S\S\\   4U 4S jjjrS\	R                  4U 4S	 jjrS
rU =r$ )ÚXGLMScaledWordEmbeddingé%   zT
This module overrides nn.Embeddings' forward by multiplying with embeddings scale.
Únum_embeddingsÚembedding_dimÚpadding_idxÚembed_scalec                 ó2   >• [         TU ]  XU5        X@l        g ©N)ÚsuperÚ__init__r   )Úselfr   r   r   r   Ú	__class__s        €Ú^/var/www/auris/envauris/lib/python3.13/site-packages/transformers/models/xglm/modeling_xglm.pyr   Ú XGLMScaledWordEmbedding.__init__*   s   ø€ Ü‰Ñ˜¸ÔDØ&Õó    Ú	input_idsc                 ó<   >• [         TU ]  U5      U R                  -  $ r   )r   Úforwardr   )r   r$   r    s     €r!   r&   ÚXGLMScaledWordEmbedding.forward.   s   ø€ Ü‰w‰˜yÓ)¨D×,<Ñ,<Ñ<Ð<r#   ©r   )ç      ð?)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__Úintr   Úfloatr   ÚtorchÚTensorr&   Ú__static_attributes__Ú__classcell__©r    s   @r!   r   r   %   sJ   ø† ññ' sð '¸3ð 'ÈSð 'Ð_gÐhmÑ_n÷ 'ð 'ð= §¡÷ =õ =r#   r   c            	       óè   ^ • \ rS rSrSrSS\S\S\\   4U 4S jjjrSS\S\S\\   4S jjr\	SS\S\S\\   4S	 jj5       r
\R                  " 5       SS
\\R                     S\4S jj5       rSrU =r$ )Ú!XGLMSinusoidalPositionalEmbeddingé2   zDThis module produces sinusoidal positional embeddings of any length.Únum_positionsr   r   c                 ó„   >• [         TU ]  5         SU l        X l        X0l        U R                  XR                  -   X#5        g )Né   )r   r   Úoffsetr   r   Úmake_weights)r   r9   r   r   r    s       €r!   r   Ú*XGLMSinusoidalPositionalEmbedding.__init__5   s8   ø€ Ü‰ÑÔØˆŒØ*ÔØ&ÔØ×Ñ˜-¯+©+Ñ5°}ÕRr#   r   c                 óÜ   • U R                  XU5      n[        U S5      (       a8  UR                  U R                  R                  U R                  R
                  S9nU R                  SUSS9  g )NÚweights©ÚdtypeÚdeviceF)Ú
persistent)Úget_embeddingÚhasattrÚtor@   rB   rC   Úregister_buffer)r   r   r   r   Úemb_weightss        r!   r=   Ú.XGLMSinusoidalPositionalEmbedding.make_weights<   s\   € Ø×(Ñ(¨ÈÓTˆÜ4˜×#Ñ#à%Ÿ.™.¨t¯|©|×/AÑ/AÈ$Ï,É,×J]ÑJ]˜.Ð^ˆKà×Ñ˜Y¨ÀÐÒFr#   c                 óà  • US-  n[         R                  " S5      US-
  -  n[        R                  " [        R                  " U[        R
                  S9R                  5       U* -  5      n[        R                  " U [        R
                  S9R                  5       R                  S5      UR                  S5      -  n[        R                  " [        R                  " U5      [        R                  " U5      /SS9R                  U S5      nUS-  S:X  a,  [        R                  " U[        R                  " U S5      /SS9nUb  SXBSS24'   UR                  [        R                  " 5       5      $ )	zª
Build sinusoidal embeddings.

This matches the implementation in tensor2tensor, but differs slightly from the description in Section 3.5 of
"Attention Is All You Need".
r;   i'  r   )rB   r   ©ÚdiméÿÿÿÿN)ÚmathÚlogr1   ÚexpÚarangeÚint64r0   Ú	unsqueezeÚcatÚsinÚcosÚviewÚzerosrG   Úget_default_dtype)r   r   r   Úhalf_dimÚembs        r!   rE   Ú/XGLMSinusoidalPositionalEmbedding.get_embeddingD   s  € ð ! AÑ%ˆÜhŠhu‹o ¨A¡Ñ.ˆÜiŠiœŸš X´U·[±[ÑA×GÑGÓIÈSÈDÑPÓQˆÜlŠl˜>´·±Ñ=×CÑCÓE×OÑOÐPQÓRÐUX×UbÑUbÐcdÓUeÑeˆÜiŠiœŸš 3›¬¯ª°3«Ð8¸aÑ@×EÑEÀnÐVXÓYˆØ˜1Ñ Ó!ä—)’)˜S¤%§+¢+¨n¸aÓ"@ÐAÀqÑIˆCØÑ"Ø"#ˆCšQÑàv‰v”e×-Ò-Ó/Ó0Ð0r#   Úposition_idsÚpast_key_values_lengthc                 óš  • UR                  5       u  p4XR                  -  nSU-   U-   nXPR                  R                  S5      :”  a&  U R                  XPR                  U R
                  5        U R                  R                  SUR                  S5      5      R                  X4U R                  R                  S   5      R                  5       $ )Nr;   r   rN   )
Úsizer<   r@   r=   r   r   Úindex_selectrX   ÚshapeÚdetach)r   r^   r_   ÚbszÚseq_lenÚmax_poss         r!   r&   Ú)XGLMSinusoidalPositionalEmbedding.forwardY   s«   € à#×(Ñ(Ó*‰ˆØŸ™Ñ#ˆð g‘+Ð 6Ñ6ˆØ—\‘\×&Ñ& qÓ)Ó)Ø×Ñ˜g×'9Ñ'9¸4×;KÑ;KÔLà|‰|×(Ñ(¨¨L×,=Ñ,=¸bÓ,AÓB×GÑGÈÐVZ×VbÑVb×VhÑVhÐikÑVlÓm×tÑtÓvÐvr#   )r   r<   r   r   )Nr   )r*   r+   r,   r-   r.   r/   r   r   r=   ÚstaticmethodrE   r1   Úno_gradr2   r&   r3   r4   r5   s   @r!   r7   r7   2   s¸   ø† ÙNñS cð S¸#ð SÈHÐUXÉM÷ Sð SñG¨3ð G¸sð GÐQYÐZ]ÑQ^õ Gð ñ1 cð 1¸#ð 1ÈHÐUXÉMô 1ó ð1ð( ‡]‚]ƒ_ñ	w H¨U¯\©\Ñ$:ð 	wÐ[^ô 	wó ö	wr#   r7   c                   óˆ  ^ • \ rS rSrSr   SS\S\S\S\S\4
U 4S jjjrS	\	R                  S
\S\4S jr     SS\	R                  S\\	R                     S\\\	R                        S\\	R                     S\\	R                     S\S\\	R                  \\	R                     \\\	R                        4   4S jjrSrU =r$ )ÚXGLMAttentionéf   z=Multi-headed attention from 'Attention Is All You Need' paperÚ	embed_dimÚ	num_headsÚdropoutÚ
is_decoderÚbiasc                 óÎ  >• [         TU ]  5         Xl        X l        X0l        X-  U l        U R
                  U-  U R                  :w  a  [        SU R                   SU S35      eU R
                  S-  U l        X@l        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        [        R                  " XUS9U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).g      à¿©rr   )r   r   rn   ro   rp   Úhead_dimÚ
ValueErrorÚscalingrq   r   ÚLinearÚk_projÚv_projÚq_projÚout_proj)r   rn   ro   rp   rq   rr   r    s         €r!   r   ÚXGLMAttention.__init__i   sÄ   ø€ ô 	‰ÑÔØ"ŒØ"ŒØŒØ!Ñ.ˆŒàM‰M˜IÑ%¨$¯.©.Ó8ÜØMÈdÏnÉnÐM]Ø$ Y K¨rð3óð ð —}‘} dÑ*ˆŒØ$Œä—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜ—i’i 	¸4Ñ@ˆŒÜŸ	š	 )¸TÑBˆr#   Útensorrf   re   c                 óŒ   • UR                  X2U R                  U R                  5      R                  SS5      R	                  5       $ )Nr   r;   )rX   ro   ru   Ú	transposeÚ
contiguous)r   r~   rf   re   s       r!   Ú_shapeÚXGLMAttention._shape„   s5   € Ø{‰{˜3¨¯©¸¿¹ÓG×QÑQÐRSÐUVÓW×bÑbÓdÐdr#   Úhidden_statesÚkey_value_statesÚpast_key_valueÚattention_maskÚlayer_head_maskÚoutput_attentionsÚreturnc                 ó4  • USLnUR                  5       u  p‰n
U R                  U5      U R                  -  nU(       a  Ub  US   nUS   nGOU(       aE  U R                  U R	                  U5      SU5      nU R                  U R                  U5      SU5      nOÀUby  U R                  U R	                  U5      SU5      nU R                  U R                  U5      SU5      n[        R                  " US   U/SS9n[        R                  " US   U/SS9nODU R                  U R	                  U5      SU5      nU R                  U R                  U5      SU5      nU R                  (       a  XÍ4nX€R                  -  SU R                  4nU R                  X¹U5      R                  " U6 nUR                  " U6 nUR                  " U6 nUR                  S5      n[        R                  " X¼R                  SS5      5      nUR                  5       X€R                  -  XŸ4:w  a-  [        SX€R                  -  XŸ4 SUR                  5        35      eUbÒ  UR                  5       USXŸ4:w  a"  [        S	USXŸ4 SUR                  5        35      eUR                  X€R                  XŸ5      U-   n[        R                  " U[        R                   " [        R"                  " UR$                  5      R&                  UR(                  S
95      nUR                  X€R                  -  XŸ5      nUR$                  [        R*                  :X  aK  [,        R.                  R1                  US[        R2                  S9R5                  [        R*                  5      nO[,        R.                  R1                  USS9nUb˜  UR                  5       U R                  4:w  a*  [        SU R                  4 SUR                  5        35      eUR                  SSSS5      UR                  X€R                  XŸ5      -  nUR                  X€R                  -  XŸ5      nU(       a;  UR                  X€R                  XŸ5      nUR                  X€R                  -  XŸ5      nOSn[,        R.                  R7                  UU R6                  U R8                  S9n[        R                  " UU5      nUR                  5       X€R                  -  XR                  4:w  a5  [        SX€R                  XR                  4 SUR                  5        35      eUR                  X€R                  XR                  5      nUR                  SS5      nUR;                  X‰U R<                  5      nU R?                  U5      nUUU4$ )z#Input shape: Batch x Time x ChannelNr   r   rN   r;   rL   z$Attention weights should be of size z	, but is z!Attention mask should be of size )rC   )rM   rB   z/Head mask for a single layer should be of size ©ÚpÚtrainingz `attn_output` should be of size ) ra   r{   rw   r‚   ry   rz   r1   rU   rq   ro   ru   rX   Úbmmr€   rv   Úmaxr~   ÚfinforB   ÚminrC   Úfloat16r   Ú
functionalÚsoftmaxÚfloat32rG   rp   rŽ   Úreshapern   r|   )r   r„   r…   r†   r‡   rˆ   r‰   Úis_cross_attentionre   Útgt_lenÚ_Úquery_statesÚ
key_statesÚvalue_statesÚ
proj_shapeÚsrc_lenÚattn_weightsÚattn_weights_reshapedÚ
attn_probsÚattn_outputs                       r!   r&   ÚXGLMAttention.forward‡   s  € ð .°TÐ9Ðà'×,Ñ,Ó.‰ˆað —{‘{ =Ó1°D·L±LÑ@ˆæ .Ñ"<à'¨Ñ*ˆJØ)¨!Ñ,ŠLÞàŸ™ T§[¡[Ð1AÓ%BÀBÈÓLˆJØŸ;™; t§{¡{Ð3CÓ'DÀbÈ#ÓN‰LØÑ'àŸ™ T§[¡[°Ó%?ÀÀSÓIˆJØŸ;™; t§{¡{°=Ó'AÀ2ÀsÓKˆLÜŸš N°1Ñ$5°zÐ#BÈÑJˆJÜ Ÿ9š9 n°QÑ&7¸Ð%FÈAÑN‰Lð Ÿ™ T§[¡[°Ó%?ÀÀSÓIˆJØŸ;™; t§{¡{°=Ó'AÀ2ÀsÓKˆLà??ð )Ð7ˆNàŸN™NÑ*¨B°·±Ð>ˆ
Ø—{‘{ <¸#Ó>×CÒCÀZÐPˆØ—_’_ jÐ1ˆ
Ø#×(Ò(¨*Ð5ˆà—/‘/ !Ó$ˆÜ—y’y ×/CÑ/CÀAÀqÓ/IÓJˆà×ÑÓ 3¯©Ñ#7¸Ð"JÓJÜØ6¸¿n¹nÑ8LÈgÐ7_Ð6`ð aØ ×%Ñ%Ó'Ð(ð*óð ð
 Ñ%Ø×"Ñ"Ó$¨¨a°Ð(BÓBÜ Ø7¸¸aÀÐ8RÐ7SÐS\Ð]k×]pÑ]pÓ]rÐ\sÐtóð ð (×,Ñ,¨S·.±.À'ÓSÐVdÑdˆLÜ Ÿ9š9ØœeŸlšl¬5¯;ª;°|×7IÑ7IÓ+J×+NÑ+NÐWc×WjÑWjÑkóˆLð (×,Ñ,¨S·>±>Ñ-AÀ7ÓTˆLð ×Ñ¤§¡Ó.ÜŸ=™=×0Ñ0°À2ÌUÏ]É]Ð0Ð[×^Ñ^Ô_d×_lÑ_lÓm‰LäŸ=™=×0Ñ0°À2Ð0ÐFˆLàÑ&Ø×#Ñ#Ó%¨$¯.©.Ð):Ó:Ü ØEÀtÇ~Á~ÐFWÐEXð YØ'×,Ñ,Ó.Ð/ð1óð ð +×/Ñ/°°2°q¸!Ó<¸|×?PÑ?PÐQT×VdÑVdÐfmÓ?wÑwˆLØ'×,Ñ,¨S·>±>Ñ-AÀ7ÓTˆLæð
 %1×$5Ñ$5°c¿>¹>È7Ó$\Ð!Ø0×5Ñ5°c¿N¹NÑ6JÈGÓ]‰Là$(Ð!ä—]‘]×*Ñ*¨<¸4¿<¹<ÐRV×R_ÑR_Ð*Ð`ˆ
ä—i’i 
¨LÓ9ˆà×ÑÓ #¯©Ñ"6¸ÇÁÐ!OÓOÜØ2°C¿¹È×R_ÑR_Ð3`Ð2að bØ×$Ñ$Ó&Ð'ð)óð ð
 "×&Ñ& s¯N©N¸GÇ]Á]ÓSˆØ!×+Ñ+¨A¨qÓ1ˆð "×)Ñ)¨#¸¿¹ÓGˆà—m‘m KÓ0ˆàÐ1°>ÐAÐAr#   )
rp   rn   ru   rq   ry   ro   r|   r{   rw   rz   )ç        FT)NNNNF)r*   r+   r,   r-   r.   r/   r0   Úboolr   r1   r2   r‚   r   r   r&   r3   r4   r5   s   @r!   rl   rl   f   s9  ø† ÙGð Ø ØñCàðCð ðCð ð	Cð
 ðCð ÷Cð Cð6e˜UŸ\™\ð e°Cð e¸cô eð 48Ø8<Ø15Ø26Ø"'ñvBà—|‘|ðvBð # 5§<¡<Ñ0ðvBð !  u§|¡|Ñ!4Ñ5ð	vBð
 ! §¡Ñ.ðvBð " %§,¡,Ñ/ðvBð  ðvBð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷vBó vBr#   rl   c                   óL  ^ • \ rS rSrS\4U 4S jjr        SS\R                  S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\	\R                        S\\
   S\\
   S\R                  4S jjrSrU =r$ )ÚXGLMDecoderLayeré   Úconfigc                 ó4  >• [         TU ]  5         UR                  U l        [	        U R                  UR
                  UR                  SS9U l        UR                  U l        [        UR                     U l        UR                  U l        UR                  (       aT  [	        U R                  UR
                  UR                  SS9U l        [        R                   " U R                  5      U l        [        R                   " U R                  5      U l        [        R&                  " U R                  UR(                  5      U l        [        R&                  " UR(                  U R                  5      U l        [        R                   " U R                  5      U l        g )NT)rn   ro   rp   rq   )r   r   Úd_modelrn   rl   Úattention_headsÚattention_dropoutÚ	self_attnrp   r	   Úactivation_functionÚactivation_fnÚactivation_dropoutÚadd_cross_attentionÚencoder_attnr   Ú	LayerNormÚencoder_attn_layer_normÚself_attn_layer_normrx   Úffn_dimÚfc1Úfc2Úfinal_layer_norm©r   rª   r    s     €r!   r   ÚXGLMDecoderLayer.__init__  s  ø€ Ü‰ÑÔØŸ™ˆŒä&Ø—n‘nØ×,Ñ,Ø×,Ñ,Øñ	
ˆŒð —~‘~ˆŒÜ# F×$>Ñ$>Ñ?ˆÔØ"(×";Ñ";ˆÔà×%×%Ü -ØŸ.™.Ø ×0Ñ0Ø×0Ñ0Øñ	!ˆDÔô ,.¯<ª<¸¿¹Ó+GˆDÔ(ä$&§L¢L°·±Ó$@ˆÔ!Ü—9’9˜TŸ^™^¨V¯^©^Ó<ˆŒÜ—9’9˜VŸ^™^¨T¯^©^Ó<ˆŒÜ "§¢¨T¯^©^Ó <ˆÕr#   r„   r‡   Úencoder_hidden_statesÚencoder_attention_maskrˆ   Úcross_attn_layer_head_maskr†   r‰   Ú	use_cacherŠ   c
           	      óT  • Un
U R                  U5      nUb  USS OSnU R                  UUUUUS9u  pn[        R                  R	                  XR                  U R
                  S9nX¡-   nSnSnUbn  Un
U R                  U5      nUb  USS OSnU R                  UUUUUUS9u  pn[        R                  R	                  XR                  U R
                  S9nX¡-   nXÞ-   nUn
U R                  U5      nU R                  U R                  U5      5      n[        R                  R	                  XR                  U R
                  S9nU R                  U5      n[        R                  R	                  XR                  U R
                  S9nX¡-   nU4nU(       a  UXÏ4-  nU	(       a  UU4-  nU$ )a‡  
Args:
    hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    encoder_hidden_states (`torch.FloatTensor`):
        cross attention input to the layer of shape `(batch, seq_len, embed_dim)`
    encoder_attention_mask (`torch.FloatTensor`): encoder attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    layer_head_mask (`torch.FloatTensor`): mask for attention heads in a given layer of size
        `(encoder_attention_heads,)`.
    cross_attn_layer_head_mask (`torch.FloatTensor`): mask for cross-attention heads in a given layer of
        size `(decoder_attention_heads,)`.
    past_key_value (`Tuple(torch.FloatTensor)`): cached past key and value projection states
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
Nr;   )r„   r†   r‡   rˆ   r‰   rŒ   éþÿÿÿ)r„   r…   r‡   rˆ   r†   r‰   )r·   r¯   r   r”   rp   rŽ   r¶   r´   r»   r±   r¹   r²   rº   )r   r„   r‡   r¾   r¿   rˆ   rÀ   r†   r‰   rÁ   ÚresidualÚself_attn_past_key_valueÚself_attn_weightsÚpresent_key_valueÚcross_attn_present_key_valueÚcross_attn_weightsÚcross_attn_past_key_valueÚoutputss                     r!   r&   ÚXGLMDecoderLayer.forward  sò  € ð< !ˆØ×1Ñ1°-Ó@ˆð :HÑ9S >°"°1Ñ#5ÐY]Ð à>B¿n¹nØ'Ø3Ø)Ø+Ø/ð ?Mð ?
Ñ;ˆÐ*;ô Ÿ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆð (,Ð$Ø!ÐØ Ñ,Ø$ˆHØ ×8Ñ8¸ÓGˆMð @NÑ?Y¨°r°sÑ(;Ð_cÐ%ØNR×N_ÑN_Ø+Ø!6Ø5Ø :Ø8Ø"3ð O`ð OÑKˆMÐ/Kô ŸM™M×1Ñ1°-Ç<Á<ÐZ^×ZgÑZgÐ1ÐhˆMØ$Ñ4ˆMð !2Ñ PÐð !ˆØ×-Ñ-¨mÓ<ˆØ×*Ñ*¨4¯8©8°MÓ+BÓCˆÜŸ™×-Ñ-¨m×?VÑ?VÐae×anÑanÐ-ÐoˆØŸ™ Ó/ˆÜŸ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØ Ñ0ˆà Ð"ˆæØÐ)Ð>Ñ>ˆGæØÐ)Ð+Ñ+ˆGàˆr#   )r²   r±   rp   rn   r´   r¶   r¹   rº   r»   r¯   r·   )NNNNNNFT)r*   r+   r,   r-   r   r   r1   r2   r   r   r¦   r&   r3   r4   r5   s   @r!   r¨   r¨      sí   ø† ð=˜z÷ =ð@ 26Ø8<Ø9=Ø26Ø=AØ8<Ø,1Ø$(ñWà—|‘|ðWð ! §¡Ñ.ðWð  (¨¯©Ñ5ð	Wð
 !)¨¯©Ñ 6ðWð " %§,¡,Ñ/ðWð %-¨U¯\©\Ñ$:ðWð !  u§|¡|Ñ!4Ñ5ðWð $ D™>ðWð ˜D‘>ðWð 
‰÷Wó Wr#   r¨   c                   ó,   • \ rS rSr\rSrSrS/rS r	Sr
g)ÚXGLMPreTrainedModelix  ÚmodelTr¨   c                 ó"  • U R                   R                  n[        U[        R                  5      (       aW  UR
                  R                  R                  SUS9  UR                  b%  UR                  R                  R                  5         g g [        U[        R                  5      (       ad  UR
                  R                  R                  SUS9  UR                  b2  UR
                  R                  UR                     R                  5         g g g )Nr¥   )ÚmeanÚstd)rª   Úinit_stdÚ
isinstancer   rx   ÚweightÚdataÚnormal_rr   Úzero_Ú	Embeddingr   )r   ÚmodulerÒ   s      r!   Ú_init_weightsÚ!XGLMPreTrainedModel._init_weights  sÉ   € Øk‰k×"Ñ"ˆÜfœbŸi™i×(Ñ(ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°SÐ&Ñ9Ø×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ð .r#   © N)r*   r+   r,   r-   r   Úconfig_classÚbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesrÛ   r3   rÝ   r#   r!   rÎ   rÎ   x  s!   † à€LØÐØ&*Ð#Ø+Ð,Ðõ	?r#   rÎ   c                    óô  ^ • \ rS rSrSS\S\\R                     4U 4S jjjrS r	S r
\             SS\\R                     S\\R                     S	\\R                     S
\\R                     S\\R                     S\\R                     S\\R                     S\\\R                        S\\R                     S\\   S\\   S\\   S\\   S\\\R                     \4   4S jj5       rSrU =r$ )Ú	XGLMModeli‹  rª   Úembed_tokensc                 óö  >• [         TU ]  U5        UR                  U l        UR                  U l        UR                  U l        UR                  U l        UR                  (       a   [        R                  " UR                  5      OSnUb  X l        O/[        UR                  UR                  U R
                  US9U l        [        UR                  UR                  UR                  5      U l        ["        R$                  " ['        UR(                  5       Vs/ s H  n[+        U5      PM     sn5      U l        ["        R.                  " UR                  5      U l        SU l        U R5                  5         gs  snf )zB
embed_tokens (`nn.Embedding`, *optional*):
    output embeddings
r)   Nr(   F)r   r   rp   Ú	layerdropÚpad_token_idr   Úmax_position_embeddingsÚmax_target_positionsÚscale_embeddingrO   Úsqrtr¬   rä   r   Ú
vocab_sizer7   Úembed_positionsr   Ú
ModuleListÚrangeÚ
num_layersr¨   Úlayersrµ   Ú
layer_normÚgradient_checkpointingÚ	post_init)r   rª   rä   r   rš   r    s        €r!   r   ÚXGLMModel.__init__  s  ø€ ô
 	‰Ñ˜Ô Ø—~‘~ˆŒØ×)Ñ)ˆŒØ!×.Ñ.ˆÔØ$*×$BÑ$BˆÔ!Ø39×3I×3I”d—i’i §¡Ô/ÈsˆàÑ#Ø ,Õä 7Ø×!Ñ! 6§>¡>°4×3CÑ3CÐQ\ñ!ˆDÔô  AØ×*Ñ*ØN‰NØ×Ñó 
ˆÔô
 —m’mÄuÈV×M^ÑM^ÔG_Ó$`ÒG_À!Ô%5°fÖ%=ÑG_Ñ$`ÓaˆŒÜŸ,š, v§~¡~Ó6ˆŒà&+ˆÔ#à‰Õùò %as   ÄE6c                 ó   • U R                   $ r   ©rä   ©r   s    r!   Úget_input_embeddingsÚXGLMModel.get_input_embeddings¬  s   € Ø× Ñ Ð r#   c                 ó   • Xl         g r   r÷   ©r   Úvalues     r!   Úset_input_embeddingsÚXGLMModel.set_input_embeddings¯  s   € Ø!Õr#   r$   r‡   r^   r¾   r¿   Ú	head_maskÚcross_attn_head_maskÚpast_key_valuesÚinputs_embedsrÁ   r‰   Úoutput_hidden_statesÚreturn_dictrŠ   c                 ó´  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUb  U	b  [        S5      eUb7  U R                  X5        UR                  5       nUR                  SUS   5      nO"U	b  U	R                  5       SS nO[        S5      eUb  US   S   R                  S   OSnUcU  [        R                  " UUS   U-   [        R                  Ub  UR                  OU	R                  S9nUR                  S5      nU	c  U R                  U5      n	[!        X.XŸ5      nUb  Ub  [#        XYR$                  US   S9nXR'                  X?5      R)                  U	R                  5      -   n[*        R,                  R/                  U[1        U R.                  5      U R2                  S	9nU R4                  (       a/  U R2                  (       a  U
(       a  [6        R9                  S
5        Sn
U(       a  SOSnU(       a  SOSnU(       a  Ub  SOSnU
(       a  SOSn[;        Xg/SS/5       Hn  u  nnUc  M  UR                  5       S   [=        U R>                  5      :w  d  M7  [        SU S[=        U R>                  5       SUR                  5       S    S35      e   [A        U R>                  5       GH  u  nnU(       a  UU4-  nU R2                  (       a(  [        RB                  " / 5      nUU RD                  :  a  MM  Ub  UU   OSnU R4                  (       aF  U R2                  (       a5  U RG                  URH                  UUUUUb  UU   OSUb  UU   OSSUU
5
      nOU" UUUUUb  UU   OSUb  UU   OSUUU
S9	nUS   nU
(       a  UUU(       a  SOS   4-  nU(       d  Mó  UUS   4-  nUc  GM  UUS   4-  nGM     U RK                  U5      nU(       a  UU4-  nU
(       a  UOSnU(       d  [M        S UUUUU4 5       5      $ [O        UUUUUS9$ )a  
encoder_hidden_states (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
    Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention of
    the decoder.
encoder_attention_mask (`torch.LongTensor` of shape `(batch_size, encoder_sequence_length)`, *optional*):
    Mask to avoid performing cross-attention on padding tokens indices of encoder input_ids. Mask values
    selected in `[0, 1]`:

    - 1 for tokens that are **not masked**,
    - 0 for tokens that are **masked**.

    [What are attention masks?](../glossary#attention-mask)
cross_attn_head_mask (`torch.Tensor` of shape `(num_layers, attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
NzDYou cannot specify both input_ids and inputs_embeds at the same timerN   z5You have to specify either input_ids or inputs_embedsr   r;   rA   )r™   rŒ   z_`use_cache = True` is incompatible with gradient checkpointing`. Setting `use_cache = False`...FrÝ   r   r  zThe `z` should be specified for z layers, but it is for Ú.)r‡   r¾   r¿   rˆ   rÀ   r†   r‰   rÁ   r   r   c              3   ó0   #   • U  H  nUc  M  Uv •  M     g 7fr   rÝ   )Ú.0Úvs     r!   Ú	<genexpr>Ú$XGLMModel.forward.<locals>.<genexpr>T  s   é € ð âmAØ÷ ‘Úmùs   ‚	)Úlast_hidden_stater  r„   Ú
attentionsÚcross_attentions)(rª   r‰   r  rÁ   Úuse_return_dictrv   Ú%warn_if_padding_and_no_attention_maskra   rX   rc   r1   rR   ÚlongrC   rT   rä   r   r   rB   rí   rG   r   r”   rp   r0   rŽ   ró   ÚloggerÚwarning_onceÚzipÚlenrñ   Ú	enumerateÚrandræ   Ú_gradient_checkpointing_funcÚ__call__rò   Útupler   )r   r$   r‡   r^   r¾   r¿   r   r  r  r  rÁ   r‰   r  r  Úinput_shaper_   r„   Úall_hidden_statesÚall_self_attnsÚall_cross_attentionsÚnext_decoder_cacheÚ	attn_maskÚ	mask_nameÚidxÚdecoder_layerÚdropout_probabilityr†   Úlayer_outputsÚ
next_caches                                r!   r&   ÚXGLMModel.forward²  sª  € ðF 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð Ñ  ]Ñ%>ÜÐcÓdÐdØÑ"Ø×6Ñ6°yÔQØ#Ÿ.™.Ó*ˆKØ!Ÿ™ r¨;°r©?Ó;‰IØÑ&Ø'×,Ñ,Ó.¨s°Ð3‰KäÐTÓUÐUàCRÑC^ °Ñ!3°AÑ!6×!<Ñ!<¸QÒ!?ÐdeÐàÑÜ Ÿ<š<Ø&Ø˜B‘Ð"8Ñ8Ü—j‘jØ+4Ñ+@y×'Ò'Àm×FZÑFZñ	ˆLð (×1Ñ1°!Ó4ˆLàÑ Ø ×-Ñ-¨iÓ8ˆMä:Ø¨ó
ˆð
 !Ñ,Ð1GÑ1Sä%?Ø&×(;Ñ(;À[ÐQSÁ_ñ&Ð"ð &×(<Ñ(<¸\Ó(b×(eÑ(eØ× Ñ ó)
ñ 
ˆô Ÿ™×-Ñ-¨m¼uÀTÇ\Á\Ó?RÐ]a×]jÑ]jÐ-Ðkˆà×&×&¨4¯=¯=ÞÜ×#Ñ#Øuôð "	ö #7™B¸DÐÞ0™°dˆÞ&7Ð<QÑ<]™rÐdhÐÞ#,™R°$Ðô %(¨Ð(IÈKÐYoÐKpÖ$qÑ ˆIyØÓ$Ø—>‘>Ó# AÑ&¬#¨d¯k©kÓ*:Õ:Ü$Ø 	˜{Ð*DÄSÈÏÉÓEUÐDVð WØ%ŸN™NÓ,¨QÑ/Ð0°ð3óð ñ %rô #,¨D¯K©K×"8ÑˆCæ#Ø! mÐ%5Ñ5Ð!Ø}}Ü&+§j¢j°£nÐ#Ø&¨¯©Ó7Ùà5DÑ5P˜_¨SÒ1ÐVZˆNà×*×*¨t¯}¯}Ø $× AÑ AØ!×*Ñ*Ø!Ø"Ø)Ø*Ø&/Ñ&;I˜c’NÀØ1EÑ1QÐ(¨Ò-ÐW[ØØ%Øó!‘ñ !.Ø!Ø#1Ø*?Ø+AØ7@Ñ7L Y¨s¢^ÐRVà5IÑ5UÐ,¨SÒ1Ð[_à#1Ø&7Ø'ñ!ð *¨!Ñ,ˆMæØ" }Ö:K±QÐQRÑ'SÐ&UÑUÐ"ç Ð Ø =°Ñ#3Ð"5Ñ5à(Ô4Ø(¨]¸1Ñ-=Ð,?Ñ?Ó(ñ_ #9ðb Ÿ™¨Ó6ˆö  Ø -Ð!1Ñ1Ðæ+4Ñ'¸$ˆ
ÞÜñ à'¨Ð5FÈÐXlÑmóó ð ô
 9Ø+Ø&Ø+Ø%Ø1ñ
ð 	
r#   )	rp   rí   rä   ró   rò   ræ   rñ   ré   r   r   )NNNNNNNNNNNNN)r*   r+   r,   r-   r   r   r   rÙ   r   rù   rþ   r   r1   r2   r   ÚFloatTensorr¦   r   r   r   r&   r3   r4   r5   s   @r!   rã   rã   ‹  s  ø† ñ˜zð ¸À"Ç,Á,Ñ9O÷ ð ò>!ò"ð ð -1Ø15Ø/3Ø8<Ø9=Ø,0Ø7;Ø=AØ04Ø$(Ø,0Ø/3Ø&*ñl
à˜EŸL™LÑ)ðl
ð ! §¡Ñ.ðl
ð ˜uŸ|™|Ñ,ð	l
ð
  (¨¯©Ñ5ðl
ð !)¨¯©Ñ 6ðl
ð ˜EŸL™LÑ)ðl
ð ' u§|¡|Ñ4ðl
ð " $ u×'8Ñ'8Ñ"9Ñ:ðl
ð   §¡Ñ-ðl
ð ˜D‘>ðl
ð $ D™>ðl
ð ' t™nðl
ð ˜d‘^ðl
ð 
ˆuU—\‘\Ñ"Ð$MÐMÑ	Nôl
ó öl
r#   rã   z‡
    The XGLM Model transformer with a language modeling head on top (linear layer with weights tied to the input
    embeddings).
    )Úcustom_introc            "       ó  ^ • \ rS rSrSrS/rU 4S jrS rS rS r	S r
\              SS	\\R                     S
\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\R                     S\\\R                         S\\R                     S\\R                     S\\   S\\   S\\   S\\   S\\\R                     \4   4S jj5       r\S 5       rSrU =r$ )ÚXGLMForCausalLMib  rÏ   zlm_head.weightc                 óÂ   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  UR                  SS9U l        U R                  5         g )NFrt   )
r   r   rã   rÏ   r   rx   Úhidden_sizerì   Úlm_headrô   r¼   s     €r!   r   ÚXGLMForCausalLM.__init__l  sH   ø€ Ü‰Ñ˜Ô Ü˜vÓ&ˆŒ
Ü—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒð 	‰Õr#   c                 ó.   • U R                   R                  $ r   ©rÏ   rä   rø   s    r!   rù   Ú$XGLMForCausalLM.get_input_embeddingst  s   € Øz‰z×&Ñ&Ð&r#   c                 ó$   • XR                   l        g r   r2  rü   s     r!   rþ   Ú$XGLMForCausalLM.set_input_embeddingsw  s   € Ø"'
‰
Õr#   c                 ó   • U R                   $ r   ©r/  rø   s    r!   Úget_output_embeddingsÚ%XGLMForCausalLM.get_output_embeddingsz  s   € Ø|‰|Ðr#   c                 ó   • Xl         g r   r7  )r   Únew_embeddingss     r!   Úset_output_embeddingsÚ%XGLMForCausalLM.set_output_embeddings}  s   € Ø%r#   r$   r‡   r^   r¾   r¿   r   r  r  r  ÚlabelsrÁ   r‰   r  r  rŠ   c                 ó,  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  UUUUUUUUU	UUUUS9nU R                  US   5      nSnU
b?  U R                  " UU
4U R                   R                  U R                   R                  S.UD6nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  UR                  S9$ )a  
encoder_hidden_states (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
    Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention of
    the decoder.
encoder_attention_mask (`torch.LongTensor` of shape `(batch_size, encoder_sequence_length)`, *optional*):
    Mask to avoid performing cross-attention on padding tokens indices of encoder input_ids. Mask values
    selected in `[0, 1]`:

    - 1 for tokens that are **not masked**,
    - 0 for tokens that are **masked**.

    [What are attention masks?](../glossary#attention-mask)
cross_attn_head_mask (`torch.Tensor` of shape `(num_layers, attention_heads)`, *optional*):
    Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

    - 1 indicates the head is **not masked**,
    - 0 indicates the head is **masked**.
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
    config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
    (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
N)r$   r‡   r^   r¾   r¿   r   r  r  r  rÁ   r‰   r  r  r   )rì   rç   r   )ÚlossÚlogitsr  r„   r  r  )rª   r‰   r  r  rÏ   r/  Úloss_functionrì   rç   r   r  r„   r  r  )r   r$   r‡   r^   r¾   r¿   r   r  r  r  r>  rÁ   r‰   r  r  ÚkwargsrË   rA  r@  Úoutputs                       r!   r&   ÚXGLMForCausalLM.forward€  sT  € ðT 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆð —*‘*ØØ)Ø%Ø"7Ø#9ØØ!5Ø+Ø'ØØ/Ø!5Ø#ð ð 
ˆð  —‘˜g a™jÓ)ˆàˆØÑØ×%Ò%ØØðð  Ÿ;™;×1Ñ1Ø!Ÿ[™[×5Ñ5ñ	ð
 ñˆDö ØY ¨¨ Ñ,ˆFØ'+Ñ'7D7˜VÑ#ÐC¸VÐCä0ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø$×5Ñ5ñ
ð 	
r#   c                 óP   ^• SnU  H  nU[        U4S jU 5       5      4-  nM     U$ )NrÝ   c              3   óx   >#   • U  H/  oR                  S TR                  UR                  5      5      v •  M1     g7f)r   N)rb   rG   rC   )r	  Ú
past_stateÚbeam_idxs     €r!   r  Ú1XGLMForCausalLM._reorder_cache.<locals>.<genexpr>ß  s1   øé € ÐnÒcmÐU_×-Ñ-¨a°·±¸Z×=NÑ=NÓ1O×PÐPÒcmùs   ƒ7:)r  )r  rI  Úreordered_pastÚ
layer_pasts    `  r!   Ú_reorder_cacheÚXGLMForCausalLM._reorder_cacheÚ  s8   ø€ àˆÛ)ˆJØÜÔnÑcmÓnÓnðñ ŠNñ *ð Ðr#   )r/  rÏ   )NNNNNNNNNNNNNN)r*   r+   r,   r-   rß   Ú_tied_weights_keysr   rù   rþ   r8  r<  r   r   r1   r2   r   r)  r¦   r   r   r   r&   ri   rM  r3   r4   r5   s   @r!   r,  r,  b  s¬  ø† ð  ÐØ*Ð+Ðõò'ò(òò&ð ð -1Ø15Ø/3Ø8<Ø9=Ø,0Ø7;Ø=AØ04Ø)-Ø$(Ø,0Ø/3Ø&*ñW
à˜EŸL™LÑ)ðW
ð ! §¡Ñ.ðW
ð ˜uŸ|™|Ñ,ð	W
ð
  (¨¯©Ñ5ðW
ð !)¨¯©Ñ 6ðW
ð ˜EŸL™LÑ)ðW
ð ' u§|¡|Ñ4ðW
ð " $ u×'8Ñ'8Ñ"9Ñ:ðW
ð   §¡Ñ-ðW
ð ˜Ÿ™Ñ&ðW
ð ˜D‘>ðW
ð $ D™>ðW
ð ' t™nðW
ð ˜d‘^ðW
ð" 
ˆuU—\‘\Ñ"Ð$EÐEÑ	Fô#W
ó ðW
ðr ñó ör#   r,  )r,  rã   rÎ   )(r.   rO   Útypingr   r   r   r   r1   Útorch.utils.checkpointr   Úactivationsr	   Ú
generationr
   Úmodeling_attn_mask_utilsr   r   Úmodeling_outputsr   r   Úmodeling_utilsr   Úutilsr   r   Úconfiguration_xglmr   Ú
get_loggerr*   r  rÙ   r   ÚModuler7   rl   r¨   rÎ   rã   r,  Ú__all__rÝ   r#   r!   Ú<module>r\     sý   ðñ ã ß /Ó /ã Û Ý å !Ý )ß eß lÝ -ß ,Ý *ð 
×	Ò	˜HÓ	%€ô
=˜bŸl™lô 
=ô1w¨¯	©	ô 1wôhWBB—I‘Iô WBôtur—y‘yô uðp ô?˜/ó ?ó ð?ð$ ôS
Ð#ó S
ó ðS
ñl ðñôyÐ)¨?ó yóðyòx Br#   