ó
    fT–hP~  ã                   óÖ  • S r SSKJrJrJr  SSKrSSKrSSKJr  SSK	J
r
JrJr  SSKJr  SSKJrJrJr  SS	KJr  SS
KJrJrJr  SSKJrJr  SSKJr  \R<                  " \5      r S r!S r"S"S jr# " S S\RH                  5      r%S r& " S S\RH                  5      r'\ " S S\5      5       r(\ " S S\(5      5       r)\" SS9 " S S\(\5      5       r*\" SS9 " S S \(5      5       r+/ S!Qr,g)#zPyTorch CTRL model.é    )ÚOptionalÚTupleÚUnionN)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚGenerationMixin)ÚBaseModelOutputWithPastÚCausalLMOutputWithPastÚSequenceClassifierOutput)ÚPreTrainedModel)ÚConv1DÚ find_pruneable_heads_and_indicesÚprune_linear_layer)Úauto_docstringÚloggingé   )Ú
CTRLConfigc                 óP   • S[         R                  " SSUS-  -  U-  5      -  nX-  $ )Nr   i'  é   )ÚtorchÚpow)ÚposÚiÚd_model_sizeÚangle_ratess       Ú^/var/www/auris/envauris/lib/python3.13/site-packages/transformers/models/ctrl/modeling_ctrl.pyÚ
angle_defnr    '   s-   € Ø”e—i’i ¨¨Q°!©V©¸Ñ'DÓEÑE€KØÑÐó    c                 óÈ  • [        [        R                  " U [        R                  S9R	                  U5      R                  S5      [        R                  " U[        R                  S9R	                  U5      R                  S5      U5      n[        R                  " US S 2SS S24   5      n[        R                  " US S 2SS S24   5      n[        R                  " XE/SS9nU$ )N©Údtyper   r   r   éÿÿÿÿ©Údim)	r    r   ÚarangeÚint64ÚtoÚ	unsqueezeÚsinÚcosÚcat)Úpositionr   r$   Ú
angle_radsÚsinesÚcosinesÚpos_encodings          r   Úpositional_encodingr4   ,   s´   € äÜŠX¤U§[¡[Ñ1×4Ñ4°UÓ;×EÑEÀaÓHÜŠ\¬¯©Ñ5×8Ñ8¸Ó?×IÑIÈ!ÓLØó€Jô IŠIj¢ A D q D Ñ)Ó*€EÜiŠi˜
¢1 a d¨ d 7Ñ+Ó,€Gä—9’9˜eÐ-°2Ñ6€LØÐr!   c           	      ó†  • [         R                  " XR                  SSSS5      5      nUR                  S   nU[        R
                  " U5      -  nUb3  UR                  S5      UR                  S5      p©XƒX©-
  U
2S U
24   S-  -  nUb  X„-   n[         R                  " USS9nUb  Xµ-  n[         R                  " X²5      nXË4$ )	Nr   r   r
   r   r%   éþÿÿÿg     ˆÃÀr&   )r   ÚmatmulÚpermuteÚshapeÚnpÚsqrtÚsizeÚsoftmax)ÚqÚkÚvÚmaskÚattention_maskÚ	head_maskÚ	matmul_qkÚdkÚscaled_attention_logitsÚndÚnsÚattention_weightsÚoutputs                r   Úscaled_dot_product_attentionrK   ;   sÐ   € ä—’˜Q§	¡	¨!¨Q°°1Ó 5Ó6€Ià	
‰‰€BØ'¬"¯'ª'°"«+Ñ5ÐàÑØ(×-Ñ-¨bÓ1Ð3J×3OÑ3OÐPRÓ3SˆBØ¨©°"¨°c°r°cÐ(9Ñ#:¸TÑ#AÑAÐàÑ!à"9Ñ"JÐäŸšÐ&=À2ÑFÐð ÑØ-Ñ9Ðä\Š\Ð+Ó/€FàÐ$Ð$r!   c                   óH   ^ • \ rS rSrU 4S jrS rS r     SS jrSrU =r	$ )ÚMultiHeadAttentionéU   c                 óh  >• [         TU ]  5         X l        Xl        [	        XR                  -  5      U l        [        R                  " X5      U l        [        R                  " X5      U l	        [        R                  " X5      U l
        [        R                  " X5      U l        [        5       U l        g ©N)ÚsuperÚ__init__Ú	num_headsr   ÚintÚdepthr   ÚLinearÚWqÚWkÚWvÚdenseÚsetÚpruned_heads)Úselfr   rS   Ú	__class__s      €r   rR   ÚMultiHeadAttention.__init__V   sv   ø€ Ü‰ÑÔØ"ŒØ(Ôä˜¯©Ñ6Ó7ˆŒ
ä—)’)˜LÓ7ˆŒÜ—)’)˜LÓ7ˆŒÜ—)’)˜LÓ7ˆŒä—Y’Y˜|Ó:ˆŒ
Ü›EˆÕr!   c                 ó  • U R                   U R                  -  n[        U5      S:X  a  g [        XR                  X R                  5      u  p[        U R                  U5      U l        [        U R                  U5      U l        [        U R                  U5      U l        [        U R                  USS9U l	        U R                  [        U5      -
  U l        X R                  -  U l         U R                  R                  U5      U l        g )Nr   r   r&   )r   rS   Úlenr   r\   r   rW   rX   rY   rZ   Úunion)r]   ÚheadsÚattention_head_sizeÚindexs       r   Úprune_headsÚMultiHeadAttention.prune_headsd   sÈ   € Ø"×/Ñ/°4·>±>ÑAÐÜˆu‹:˜‹?ØÜ7¸¿~¹~ÐOb×duÑduÓv‰ˆô % T§W¡W¨eÓ4ˆŒÜ$ T§W¡W¨eÓ4ˆŒÜ$ T§W¡W¨eÓ4ˆŒÜ'¨¯
©
°E¸qÑAˆŒ
ð Ÿ™¬#¨e«*Ñ4ˆŒØ/·.±.Ñ@ˆÔØ ×-Ñ-×3Ñ3°EÓ:ˆÕr!   c                 óx   • UR                  USU R                  U R                  5      nUR                  / SQ5      $ )Nr%   ©r   r   r   r
   )ÚreshaperS   rU   r8   )r]   ÚxÚ
batch_sizes      r   Úsplit_into_headsÚ#MultiHeadAttention.split_into_headsu   s-   € ØI‰Ij " d§n¡n°d·j±jÓAˆØy‰yšÓ&Ð&r!   c
                 ój  • UR                   S   n
U R                  U5      nU R                  U5      nU R                  U5      nU R	                  X:5      nU R	                  X*5      nU R	                  X5      nUb5  US   US   pË[
        R                  " X²4SS9n[
        R                  " XÁ4SS9nUSL a  [
        R                  " X!45      nOSn[        X2XXg5      nUS   R                  / SQ5      nUS   nUR                  U
SU R                  5      nU R                  U5      nXí4nU	(       a  UU4-   nU$ )	Nr   r   r6   r&   TrP   ri   r%   )r9   rW   rX   rY   rm   r   r.   ÚstackrK   r8   rj   r   rZ   )r]   r@   r?   r>   rA   Ú
layer_pastrB   rC   Ú	use_cacheÚoutput_attentionsrl   Úpast_keyÚ
past_valueÚpresentrJ   Úscaled_attentionÚattnÚoriginal_size_attentionÚoutputss                      r   ÚforwardÚMultiHeadAttention.forwardy   s0  € ð —W‘W˜Q‘Zˆ
àG‰GA‹JˆØG‰GA‹JˆØG‰GA‹Jˆà×!Ñ! !Ó0ˆØ×!Ñ! !Ó0ˆØ×!Ñ! !Ó0ˆØÑ!Ø#-¨a¡=°*¸Q±-jÜ—	’	˜8˜-¨RÑ0ˆAÜ—	’	˜:˜/¨rÑ2ˆAà˜ÒÜ—k’k 1 &Ó)‰GàˆGä-¨a°A¸^ÓWˆØ! !™9×,Ñ,ª\Ó:ÐØa‰yˆØ"2×":Ñ":¸:ÀrÈ4×K\ÑK\Ó"]ÐØ—‘Ð3Ó4ˆàÐ#ˆÞØ  Ñ'ˆGØˆr!   )rX   rW   rY   r   rZ   rU   rS   r\   ©NNNFF)
Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__rR   rf   rm   r{   Ú__static_attributes__Ú__classcell__©r^   s   @r   rM   rM   U   s-   ø† õ"ò;ò"'ð ØØØØ÷(ò (r!   rM   c                 ó¨   • [         R                  " [         R                  " X5      [         R                  " 5       [         R                  " X5      5      $ rP   )r   Ú
SequentialrV   ÚReLU)r   Údffs     r   Úpoint_wise_feed_forward_networkr‰   ¤   s-   € Ü=Š=œŸš <Ó5´r·w²w³yÄ"Ç)Â)ÈCÓB^Ó_Ð_r!   c                   ó8   ^ • \ rS rSrSU 4S jjr SS jrSrU =r$ )ÚEncoderLayeré¨   c                 ó6  >• [         TU ]  5         [        X5      U l        [	        X5      U l        [        R                  " USS9U l        [        R                  " USS9U l	        [        R                  " U5      U l        [        R                  " U5      U l        g )Ngíµ ÷Æ°>©Úeps)rQ   rR   rM   Úmulti_head_attentionr‰   Úffnr   Ú	LayerNormÚ
layernorm1Ú
layernorm2ÚDropoutÚdropout1Údropout2)r]   r   rS   rˆ   Úrater^   s        €r   rR   ÚEncoderLayer.__init__©   sk   ø€ Ü‰ÑÔä$6°|Ó$OˆÔ!Ü2°<ÓEˆŒäŸ,š, |¸Ñ>ˆŒÜŸ,š, |¸Ñ>ˆŒäŸ
š
 4Ó(ˆŒÜŸ
š
 4Ó(ˆr!   c                 ó
  • U R                  U5      nU R                  UUUUUUUUUS9	n	U	S   n
U R                  U
5      n
X-   nU R                  U5      nU R	                  U5      nU R                  U5      nX½-   nU4U	SS  -   nU$ )N©rq   rB   rC   rr   rs   r   r   )r“   r   r–   r”   r‘   r—   )r]   rk   rA   rq   rB   rC   rr   rs   ÚnormedÚattn_outputsÚattn_outputÚout1Úout2Ú
ffn_outputrz   s                  r   r{   ÚEncoderLayer.forwardµ   s«   € ð —‘ Ó#ˆØ×0Ñ0ØØØØØ!Ø)ØØØ/ð 1ð 

ˆð # 1‘oˆØ—m‘m KÓ0ˆØ‰ˆà‰˜tÓ$ˆØ—X‘X˜d“^ˆ
Ø—]‘] :Ó.ˆ
ØÑ ˆà'˜L¨¨Ð,Ñ,ˆØˆr!   )r–   r—   r‘   r“   r”   r   )gš™™™™™¹?r}   )r~   r   r€   r   rR   r{   r‚   rƒ   r„   s   @r   r‹   r‹   ¨   s   ø† ÷
)ð qv÷ò r!   r‹   c                   ó"   • \ rS rSr\rSrS rSrg)ÚCTRLPreTrainedModeléÑ   Útransformerc                 ó$  • [        U[        R                  [        45      (       ak  UR                  R
                  R                  SU R                  R                  S9  UR                  b%  UR                  R
                  R                  5         gg[        U[        R                  5      (       ax  UR                  R
                  R                  SU R                  R                  S9  UR                  b2  UR                  R
                  UR                     R                  5         gg[        U[        R                  5      (       aJ  UR                  R
                  R                  5         UR                  R
                  R                  S5        gg)zInitialize the weights.g        )ÚmeanÚstdNç      ð?)Ú
isinstancer   rV   r   ÚweightÚdataÚnormal_ÚconfigÚinitializer_rangeÚbiasÚzero_Ú	EmbeddingÚpadding_idxr’   Úfill_)r]   Úmodules     r   Ú_init_weightsÚ!CTRLPreTrainedModel._init_weightsÖ   s  € äfœrŸy™y¬&Ð1×2Ñ2ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ{‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÑSØ×!Ñ!Ñ-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)ð .r!   © N)	r~   r   r€   r   r   Úconfig_classÚbase_model_prefixr·   r‚   r¹   r!   r   r¤   r¤   Ñ   s   † à€LØ%Ðõ*r!   r¤   c                   ó–  ^ • \ rS rSrU 4S jrS rS rS r\           SS\	\
R                     S\	\\\
R                           S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\   S\	\   S\	\   S\	\   S\\\
R                      \4   4S jj5       rSrU =r$ )Ú	CTRLModeléç   c                 óæ  >• [         TU ]  U5        UR                  U l        UR                  U l        [        UR                  U R                  [        R                  5      U l
        [        R                  " UR                  UR                  5      U l        [        R                  " UR                   5      U l        [        R$                  " ['        UR                  5       Vs/ s H9  n[)        UR                  UR*                  UR,                  UR.                  5      PM;     sn5      U l        [        R2                  " UR                  UR4                  S9U l        U R9                  5         g s  snf )NrŽ   )rQ   rR   Ún_embdr   Ún_layerÚ
num_layersr4   Ún_positionsr   Úfloatr3   r   r³   Ú
vocab_sizeÚwr•   Ú
embd_pdropÚdropoutÚ
ModuleListÚranger‹   Ún_headrˆ   Úresid_pdropÚhr’   Úlayer_norm_epsilonÚ	layernormÚ	post_init)r]   r¯   Ú_r^   s      €r   rR   ÚCTRLModel.__init__é   sû   ø€ Ü‰Ñ˜Ô à"ŸM™MˆÔØ Ÿ.™.ˆŒä/°×0BÑ0BÀD×DUÑDUÔW\×WbÑWbÓcˆÔä—’˜f×/Ñ/°·±Ó?ˆŒä—z’z &×"3Ñ"3Ó4ˆŒÜ—’ÜafÐgm×guÑguÔavÓwÒavÐ\]Œ\˜&Ÿ-™-¨¯©¸¿
¹
ÀF×DVÑDVÖWÑavÑwó
ˆŒô Ÿš f§m¡m¸×9RÑ9RÑSˆŒð 	‰Õùò xs   Ã#A E.c                 ó   • U R                   $ rP   ©rÆ   ©r]   s    r   Úget_input_embeddingsÚCTRLModel.get_input_embeddingsü   s   € Øv‰vˆr!   c                 ó   • Xl         g rP   rÔ   ©r]   Únew_embeddingss     r   Úset_input_embeddingsÚCTRLModel.set_input_embeddingsÿ   s   € Ør!   c                 ó†   • UR                  5        H-  u  p#U R                  U   R                  R                  U5        M/     g)zf
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer}
N)ÚitemsrÍ   r   rf   )r]   Úheads_to_pruneÚlayerrc   s       r   Ú_prune_headsÚCTRLModel._prune_heads  s5   € ð +×0Ñ0Ö2‰LˆEØF‰F5‰M×.Ñ.×:Ñ:¸5ÖAò 3r!   Ú	input_idsÚpast_key_valuesrB   Útoken_type_idsÚposition_idsrC   Úinputs_embedsrr   rs   Úoutput_hidden_statesÚreturn_dictÚreturnc                 ód  • U	b  U	OU R                   R                  n	Ub  UOU R                   R                  nU
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUb  Ub  [        S5      eUbF  U R                  X5        UR                  5       nUR                  SUS   5      nUR                  S   nO1Ub#  UR                  5       SS nUR                  S   nO[        S5      eUb  UR                  OUR                  nUc%  Sn[        S/[        U R                  5      -  5      nOUS   S   R                  S5      nUc<  [        R                  " UUS   U-   [        R                   US9nUR#                  S5      nUbŒ  US::  a  [        S5      eUR                  US5      nUR#                  S	5      R#                  S
5      nUR%                  U R&                  S9nSU-
  [        R(                  " U R&                  5      R*                  -  nU R-                  X`R                   R.                  5      nUbJ  UR                  SUS   5      nU R1                  U5      nU[2        R4                  " U R6                  5      -  nOSnUc  U R1                  U5      nUS   n[        R8                  " [        R:                  " UU-   UU-   5      S	5      R%                  U5      nU[2        R4                  " U R6                  5      -  nU R<                  R%                  U5      U l        U R<                  USS24   nUU-   U-   nU R?                  U5      nU(       a  SOSnU
(       a  SOSnU	(       a  SOSn[A        [C        U R                  U5      5       HJ  u  nu  nnU
(       a  UU4-   nU" UUUUUU   UU	S9nUSS
 u  nnUSL a  UU4-   nU	(       d  MA  UUS
   4-  nML     U RE                  U5      nU
(       a  UU4-   nU(       d  [        S UUUU4 5       5      $ [G        UUUUS9$ )a•  
input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
    `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values[0].shape[-2]`
    (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

    If `past_key_values` is used, only input IDs that do not have their past calculated should be passed as
    `input_ids`.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.__call__`] and
    [`PreTrainedTokenizer.encode`] for details.

    [What are input IDs?](../glossary#input-ids)

Example:

```python
>>> from transformers import AutoTokenizer, CTRLModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("Salesforce/ctrl")
>>> model = CTRLModel.from_pretrained("Salesforce/ctrl")

>>> # CTRL was trained with control codes as the first token
>>> inputs = tokenizer("Opinion My dog is cute", return_tensors="pt")
>>> assert inputs["input_ids"][0, 0].item() in tokenizer.control_codes.values()

>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 5, 1280]
```NzDYou cannot specify both input_ids and inputs_embeds at the same timer%   r   z5You have to specify either input_ids or inputs_embedsr6   )r$   Údevicez$batch_size has to be defined and > 0r   r   r#   rª   r¹   r›   Tc              3   ó.   #   • U  H  oc  M  Uv •  M     g 7frP   r¹   )Ú.0r@   s     r   Ú	<genexpr>Ú$CTRLModel.forward.<locals>.<genexpr>¡  s   é € ÐrÒ$`˜qŸ™Ò$`ùs   ‚Œ	)Úlast_hidden_staterä   Úhidden_statesÚ
attentions)$r¯   rs   rr   rè   Úuse_return_dictÚ
ValueErrorÚ%warn_if_padding_and_no_attention_maskr<   Úviewr9   rì   Útuplera   rÍ   r   r(   Úlongr+   r*   r$   ÚfinfoÚminÚget_head_maskrÁ   rÆ   r:   r;   r   ÚtriuÚonesr3   rÈ   Ú	enumerateÚziprÏ   r   )r]   rã   rä   rB   rå   ræ   rC   rç   rr   rs   rè   ré   ÚkwargsÚinput_shaperl   rì   Úpast_lengthÚtoken_type_embedsÚseq_lenrA   Ú
pos_embedsrò   ÚpresentsÚall_hidden_statesÚall_attentionsr   rÍ   rq   rz   rv   s                                 r   r{   ÚCTRLModel.forward	  s4  € ð` 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐØ!*Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	à$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑ  ]Ñ%>ÜÐcÓdÐdØÑ"Ø×6Ñ6°yÔQØ#Ÿ.™.Ó*ˆKØ!Ÿ™ r¨;°r©?Ó;ˆIØ"Ÿ™¨Ñ+‰JØÑ&Ø'×,Ñ,Ó.¨s°Ð3ˆKØ&×,Ñ,¨QÑ/‰JäÐTÓUÐUà%.Ñ%:×!Ò!À×@TÑ@TˆàÑ"ØˆKÜ# T F¬S°·±«[Ñ$8Ó9‰Oà)¨!Ñ,¨QÑ/×4Ñ4°RÓ8ˆKØÑÜ Ÿ<š<¨°[À±_À{Ñ5RÔZ_×ZdÑZdÐmsÑtˆLØ'×1Ñ1°!Ó4ˆLð Ñ%Ø˜Q‹Ü Ð!GÓHÐHØ+×0Ñ0°¸RÓ@ˆNð ,×5Ñ5°aÓ8×BÑBÀ1ÓEˆNð ,×.Ñ.°T·Z±ZÐ.Ð@ˆNØ! NÑ2´e·k²kÀ$Ç*Á*Ó6M×6QÑ6QÑQˆNð ×&Ñ& y·+±+×2EÑ2EÓFˆ	àÑ%Ø+×0Ñ0°°[À±_ÓEˆNØ $§¡ ~Ó 6ÐØ¤§¢¨×):Ñ):Ó!;Ñ;Ñà !ÐàÑ Ø ŸF™F 9Ó-ˆMà˜b‘/ˆÜzŠzœ%Ÿ*š* W¨{Ñ%:¸GÀkÑ<QÓRÐTUÓV×YÑYÐZ`ÓaˆàœŸš ×!2Ñ!2Ó3Ñ3ˆð !×-Ñ-×0Ñ0°Ó8ˆÔØ×&Ñ& |²Q Ñ7ˆ
à%¨
Ñ2Ð5FÑFˆàŸ™ ]Ó3ˆæ"‘2¨ˆÞ"6™B¸DÐÞ0™°dˆÜ"+¬C°·±¸Ó,HÖ"IÑˆA‰:Þ#Ø$5¸Ð8HÑ$HÐ!ÙØØØ%Ø-Ø# A™,Ø#Ø"3ñˆGð &-¨R¨a [Ñ"ˆM˜7Ø˜DÒ Ø# w jÑ0ç Ð Ø 7¨1¡: -Ñ/’ñ# #Jð& Ÿ™ }Ó5ˆÞØ 1°]Ð4DÑ DÐæÜÑr ]°HÐ>OÐQ_Ñ$`ÓrÓrÐrä&Ø+Ø$Ø+Ø%ñ	
ð 	
r!   )r   rÈ   rÍ   rÏ   rÂ   r3   rÆ   )NNNNNNNNNNN)r~   r   r€   r   rR   rÖ   rÛ   rá   r   r   r   Ú
LongTensorr   ÚFloatTensorÚboolr   ÚTensorr   r{   r‚   rƒ   r„   s   @r   r½   r½   ç   sN  ø† õò&ò òBð ð 15ØEIØ6:Ø59Ø37Ø15Ø59Ø$(Ø,0Ø/3Ø&*ñ^
à˜E×,Ñ,Ñ-ð^
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBð^
ð ! ×!2Ñ!2Ñ3ð	^
ð
 ! ×!1Ñ!1Ñ2ð^
ð ˜u×/Ñ/Ñ0ð^
ð ˜E×-Ñ-Ñ.ð^
ð   × 1Ñ 1Ñ2ð^
ð ˜D‘>ð^
ð $ D™>ð^
ð ' t™nð^
ð ˜d‘^ð^
ð 
ˆuU—\‘\Ñ"Ð$;Ð;Ñ	<ô^
ó ö^
r!   r½   z‡
    The CTRL Model transformer with a language modeling head on top (linear layer with weights tied to the input
    embeddings).
    )Úcustom_introc                   ó4  ^ • \ rS rSrS/rU 4S jrS rS r\            SS\	\
R                     S\	\\\
R                           S\	\
R                     S	\	\
R                     S
\	\
R                     S\	\
R                     S\	\
R                     S\	\
R                     S\	\   S\	\   S\	\   S\	\   S\\\
R                      \4   4S jj5       rSS jr\S\\\
R                         S\
R                   S\\\
R                         4S j5       rSrU =r$ )ÚCTRLLMHeadModeli«  zlm_head.weightc                 óÂ   >• [         TU ]  U5        [        U5      U l        [        R
                  " UR                  UR                  SS9U l        U R                  5         g )NT©r±   )
rQ   rR   r½   r¦   r   rV   rÀ   rÅ   Úlm_headrÐ   ©r]   r¯   r^   s     €r   rR   ÚCTRLLMHeadModel.__init__´  sG   ø€ Ü‰Ñ˜Ô Ü$ VÓ,ˆÔÜ—y’y §¡°×0AÑ0AÈÑMˆŒð 	‰Õr!   c                 ó   • U R                   $ rP   ©r  rÕ   s    r   Úget_output_embeddingsÚ%CTRLLMHeadModel.get_output_embeddings¼  s   € Ø|‰|Ðr!   c                 ó   • Xl         g rP   r  rÙ   s     r   Úset_output_embeddingsÚ%CTRLLMHeadModel.set_output_embeddings¿  s   € Ø%r!   rã   rä   rB   rå   ræ   rC   rç   Úlabelsrr   rs   rè   ré   rê   c                 ó€  • Ub  UOU R                   R                  nU R                  UUUUUUUU	U
UUS9nUS   nU R                  U5      nSnUb*  U R                  " UU4SU R                   R
                  0UD6nU(       d  U4USS -   nUb  U4U-   $ U$ [        UUUR                  UR                  UR                  S9$ )a  
input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
    `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values[0].shape[-2]`
    (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

    If `past_key_values` is used, only input IDs that do not have their past calculated should be passed as
    `input_ids`.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.__call__`] and
    [`PreTrainedTokenizer.encode`] for details.

    [What are input IDs?](../glossary#input-ids)
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for language modeling. Note that the labels **are shifted** inside the model, i.e. you can set
    `labels = input_ids` Indices are selected in `[-100, 0, ..., config.vocab_size]` All labels set to `-100`
    are ignored (masked), the loss is only computed for labels in `[0, ..., config.vocab_size]`

Example:

```python
>>> import torch
>>> from transformers import AutoTokenizer, CTRLLMHeadModel

>>> tokenizer = AutoTokenizer.from_pretrained("Salesforce/ctrl")
>>> model = CTRLLMHeadModel.from_pretrained("Salesforce/ctrl")

>>> # CTRL was trained with control codes as the first token
>>> inputs = tokenizer("Wikipedia The llama is", return_tensors="pt")
>>> assert inputs["input_ids"][0, 0].item() in tokenizer.control_codes.values()

>>> sequence_ids = model.generate(inputs["input_ids"])
>>> sequences = tokenizer.batch_decode(sequence_ids)
>>> sequences
['Wikipedia The llama is a member of the family Bovidae. It is native to the Andes of Peru,']

>>> outputs = model(**inputs, labels=inputs["input_ids"])
>>> round(outputs.loss.item(), 2)
9.21

>>> list(outputs.logits.shape)
[1, 5, 246534]
```N©
rä   rB   rå   ræ   rC   rç   rr   rs   rè   ré   r   rÅ   r   )ÚlossÚlogitsrä   rò   ró   )
r¯   rô   r¦   r  Úloss_functionrÅ   r   rä   rò   ró   )r]   rã   rä   rB   rå   ræ   rC   rç   r  rr   rs   rè   ré   r  Útransformer_outputsrò   Ú	lm_logitsr!  rJ   s                      r   r{   ÚCTRLLMHeadModel.forwardÂ  s	  € ðv &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø)Ø%ØØ'ØØ/Ø!5Ø#ð /ð 
Ðð ,¨AÑ.ˆà—L‘L Ó/ˆ	àˆØÑØ×%Ò%ØØñð  Ÿ;™;×1Ñ1ðð ñ	ˆDö Ø\Ð$7¸¸Ð$;Ñ;ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä%ØØØ/×?Ñ?Ø-×;Ñ;Ø*×5Ñ5ñ
ð 	
r!   c                 ó¢   • UbH  US   S   R                   S   nUR                   S   U:”  a  UnOUR                   S   S-
  nUS S 2US 24   nXUS.$ )Nr   r   r   )rã   rä   rr   )r9   )r]   rã   rä   rr   r  r  Úremove_prefix_lengths          r   Úprepare_inputs_for_generationÚ-CTRLLMHeadModel.prepare_inputs_for_generation&  sr   € ð Ñ&Ø)¨!Ñ,¨QÑ/×5Ñ5°aÑ8ˆKð ‰˜qÑ! KÓ/Ø'2Ñ$ð (1§¡°qÑ'9¸AÑ'=Ð$à!¢!Ð%9Ñ%:Ð":Ñ;ˆIà&ÐYbÑcÐcr!   Úbeam_idxc                 ó.   ^• [        U4S jU  5       5      $ )zò
This function is used to re-order the `past_key_values` cache if [`~PreTrainedModel.beam_search`] or
[`~PreTrainedModel.beam_sample`] is called. This is required to match `past_key_values` with the correct
beam_idx at every generation step.
c              3   óN   >#   • U  H  n[        U4S  jU 5       5      v •  M     g7f)c              3   óx   >#   • U  H/  oR                  S TR                  UR                  5      5      v •  M1     g7f)r   N)Úindex_selectr*   rì   )rî   Ú
past_stater+  s     €r   rï   Ú;CTRLLMHeadModel._reorder_cache.<locals>.<genexpr>.<genexpr>B  s1   øé € ÐjÒ_iÐQ[×)Ñ)¨!¨X¯[©[¸×9JÑ9JÓ-K×LÐLÒ_iùs   ƒ7:N©rø   )rî   rq   r+  s     €r   rï   Ú1CTRLLMHeadModel._reorder_cache.<locals>.<genexpr>A  s'   øé € ð 
â-
ô ÔjÑ_iÓj×jÐjÚ-ùs   ƒ"%r2  )rä   r+  s    `r   Ú_reorder_cacheÚCTRLLMHeadModel._reorder_cache8  s   ø€ ô ô 
á-ó
ó 
ð 	
r!   )r  r¦   ©NNNNNNNNNNNN©NN)r~   r   r€   r   Ú_tied_weights_keysrR   r  r  r   r   r   r  r   r  r  r   r  r   r{   r)  Ústaticmethodr4  r‚   rƒ   r„   s   @r   r  r  «  s¿  ø† ð +Ð+Ðõòò&ð ð 15ØEIØ6:Ø59Ø37Ø15Ø59Ø-1Ø$(Ø,0Ø/3Ø&*ña
à˜E×,Ñ,Ñ-ða
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBða
ð ! ×!2Ñ!2Ñ3ð	a
ð
 ! ×!1Ñ!1Ñ2ða
ð ˜u×/Ñ/Ñ0ða
ð ˜E×-Ñ-Ñ.ða
ð   × 1Ñ 1Ñ2ða
ð ˜×)Ñ)Ñ*ða
ð ˜D‘>ða
ð $ D™>ða
ð ' t™nða
ð ˜d‘^ða
ð 
ˆuU—\‘\Ñ"Ð$:Ð:Ñ	;ôa
ó ða
ôFdð$ ð
Ø˜u U§\¡\Ñ2Ñ3ð
Ø?D¿|¹|ð
à	ˆuU—\‘\Ñ"Ñ	#ó
ó ö
r!   r  aÎ  
    The CTRL Model transformer with a sequence classification head on top (linear layer).
    [`CTRLForSequenceClassification`] uses the last token in order to do the classification, as other causal models
    (e.g. GPT-2) do. Since it does classification on the last token, it requires to know the position of the last
    token. If a `pad_token_id` is defined in the configuration, it finds the last token that is not a padding token in
    each row. If no `pad_token_id` is defined, it simply takes the last value in each row of the batch. Since it cannot
    guess the padding tokens when `inputs_embeds` are passed instead of `input_ids`, it does the same (take the last
    value in each row of the batch).
    c                   ó¤  ^ • \ rS rSrU 4S jr\            SS\\R                     S\\	\	\R                           S\\R                     S\\R                     S\\R                     S\\R                     S	\\R                     S
\\R                     S\\   S\\   S\\   S\\   S\\	\R                     \4   4S jj5       rSrU =r$ )ÚCTRLForSequenceClassificationiG  c                 óä   >• [         TU ]  U5        UR                  U l        [        U5      U l        [
        R                  " UR                  U R                  SS9U l        U R                  5         g )NFr  )
rQ   rR   Ú
num_labelsr½   r¦   r   rV   rÀ   Ú
classifierrÐ   r  s     €r   rR   Ú&CTRLForSequenceClassification.__init__S  sR   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒÜ$ VÓ,ˆÔÜŸ)š) F§M¡M°4·?±?ÈÑOˆŒð 	‰Õr!   rã   rä   rB   rå   ræ   rC   rç   r  rr   rs   rè   ré   rê   c                 óÖ  • Ub  UOU R                   R                  nU R                  UUUUUUUU	U
UUS9nUS   nU R                  U5      nUb  UR                  SS u  nnOUR                  SS u  nnU R                   R
                  c  US:w  a  [        S5      eU R                   R
                  c  SnOÁUb  XR                   R
                  :g  R                  UR                  [        R                  5      n[        R                  " UR                  S   UR                  [        R                  S9nUU-  R                  S5      nO.Sn[        R                  U R                  R                    S	35        U[        R                  " UUR                  S
9U4   nSnUGb  U R                   R"                  c‘  U R$                  S:X  a  SU R                   l        OoU R$                  S:”  aN  UR&                  [        R(                  :X  d  UR&                  [        R*                  :X  a  SU R                   l        OSU R                   l        U R                   R"                  S:X  aJ  [-        5       nU R$                  S:X  a&  U" UR/                  5       UR/                  5       5      nOŽU" UU5      nO„U R                   R"                  S:X  a=  [1        5       nU" UR3                  SU R$                  5      UR3                  S5      5      nO-U R                   R"                  S:X  a  [5        5       nU" UU5      nU(       d  U4USS -   nUb  U4U-   $ U$ [7        UUUR8                  UR:                  S9$ )a"  
input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
    `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values[0].shape[-2]`
    (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

    If `past_key_values` is used, only input IDs that do not have their past calculated should be passed as
    `input_ids`.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.__call__`] and
    [`PreTrainedTokenizer.encode`] for details.

    [What are input IDs?](../glossary#input-ids)
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).

Example of single-label classification:

```python
>>> import torch
>>> from transformers import AutoTokenizer, CTRLForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("Salesforce/ctrl")
>>> model = CTRLForSequenceClassification.from_pretrained("Salesforce/ctrl")

>>> # CTRL was trained with control codes as the first token
>>> inputs = tokenizer("Opinion My dog is cute", return_tensors="pt")
>>> assert inputs["input_ids"][0, 0].item() in tokenizer.control_codes.values()

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
'LABEL_0'
```

```python
>>> import torch

>>> torch.manual_seed(42)  # doctest: +IGNORE_RESULT
>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = CTRLForSequenceClassification.from_pretrained("Salesforce/ctrl", num_labels=num_labels)

>>> labels = torch.tensor(1)
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
0.93
```

Example of multi-label classification:

```python
>>> import torch
>>> from transformers import AutoTokenizer, CTRLForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("Salesforce/ctrl")
>>> model = CTRLForSequenceClassification.from_pretrained(
...     "Salesforce/ctrl", problem_type="multi_label_classification"
... )

>>> # CTRL was trained with control codes as the first token
>>> inputs = tokenizer("Opinion My dog is cute", return_tensors="pt")
>>> assert inputs["input_ids"][0, 0].item() in tokenizer.control_codes.values()

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
'LABEL_0'
```

```python
>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = CTRLForSequenceClassification.from_pretrained("Salesforce/ctrl", num_labels=num_labels)

>>> num_labels = len(model.config.id2label)
>>> labels = torch.nn.functional.one_hot(torch.tensor([predicted_class_id]), num_classes=num_labels).to(
...     torch.float
... )
>>> loss = model(**inputs, labels=labels).loss
>>> loss.backward()  # doctest: +IGNORE_RESULT
```Nr   r   r   r   z=Cannot handle batch sizes > 1 if no padding token is defined.r%   )rì   r$   zŠ will not detect padding tokens in `inputs_embeds`. Results may be unexpected if using padding tokens in conjunction with `inputs_embeds.`)rì   Ú
regressionÚsingle_label_classificationÚmulti_label_classification)r!  r"  rò   ró   )r¯   rô   r¦   r>  r9   Úpad_token_idrõ   r*   rì   r   Úint32r(   ÚargmaxÚloggerÚwarning_oncer^   r~   Úproblem_typer=  r$   rù   rT   r	   Úsqueezer   r÷   r   r   rò   ró   )r]   rã   rä   rB   rå   ræ   rC   rç   r  rr   rs   rè   ré   r$  rò   r"  rl   Úsequence_lengthÚlast_non_pad_tokenÚnon_pad_maskÚtoken_indicesÚpooled_logitsr!  Úloss_fctrJ   s                            r   r{   Ú%CTRLForSequenceClassification.forward\  s  € ðP &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø)Ø%ØØ'ØØ/Ø!5Ø#ð /ð 
Ðð ,¨AÑ.ˆØ—‘ Ó/ˆàÑ Ø*3¯/©/¸"¸1Ð*=Ñ'ˆJ™à*7×*=Ñ*=¸b¸qÐ*AÑ'ˆJ˜à;‰;×#Ñ#Ñ+°
¸a³ÜÐ\Ó]Ð]Ø;‰;×#Ñ#Ñ+Ø!#ÑØÑ"à%¯©×)AÑ)AÑA×EÑEÀfÇmÁmÔUZ×U`ÑU`ÓaˆLÜ!ŸLšL¨¯©¸Ñ)<ÀVÇ]Á]ÔZ_×ZeÑZeÑfˆMØ"/°,Ñ">×!FÑ!FÀrÓ!JÑà!#ÐÜ×ÑØ—>‘>×*Ñ*Ð+ð ,Zð Zôð
 œuŸ|š|¨J¸v¿}¹}ÑMÐOaÐaÑbˆàˆØÒØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# M×$9Ñ$9Ó$;¸V¿^¹^Ó=MÓN‘Dá# M°6Ó:‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù × 2Ñ 2°2°t·±Ó GÈÏÉÐUWËÓY‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù ¨vÓ6ÞØ#Ð%Ð(;¸A¸BÐ(?Ñ?ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä'ØØ Ø-×;Ñ;Ø*×5Ñ5ñ	
ð 	
r!   )r>  r=  r¦   r6  )r~   r   r€   r   rR   r   r   r   r  r   r  r  r   r  r   r{   r‚   rƒ   r„   s   @r   r;  r;  G  sW  ø† õð ð 15ØEIØ6:Ø59Ø37Ø15Ø59Ø-1Ø$(Ø,0Ø/3Ø&*ñp
à˜E×,Ñ,Ñ-ðp
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðp
ð ! ×!2Ñ!2Ñ3ð	p
ð
 ! ×!1Ñ!1Ñ2ðp
ð ˜u×/Ñ/Ñ0ðp
ð ˜E×-Ñ-Ñ.ðp
ð   × 1Ñ 1Ñ2ðp
ð ˜×)Ñ)Ñ*ðp
ð ˜D‘>ðp
ð $ D™>ðp
ð ' t™nðp
ð ˜d‘^ðp
ð 
ˆuU—\‘\Ñ"Ð$<Ð<Ñ	=ôp
ó öp
r!   r;  )r;  r  r½   r¤   r7  )-Ú__doc__Útypingr   r   r   Únumpyr:   r   r   Útorch.nnr   r   r	   Ú
generationr   Úmodeling_outputsr   r   r   Úmodeling_utilsr   Úpytorch_utilsr   r   r   Úutilsr   r   Úconfiguration_ctrlr   Ú
get_loggerr~   rG  r    r4   rK   ÚModulerM   r‰   r‹   r¤   r½   r  r;  Ú__all__r¹   r!   r   Ú<module>r_     s  ðñ  ç )Ñ )ã Û Ý ß AÑ Aå )ß iÑ iÝ -ß YÑ Y÷õ +ð 
×	Ò	˜HÓ	%€òò
ô%ô4L˜Ÿ™ô Lò^`ô&2—9‘9ô &ðR ô*˜/ó *ó ð*ð* ô@
Ð#ó @
ó ð@
ñF ðñôS
Ð)¨?ó S
óðS
ñl ðñ
ô{
Ð$7ó {
ó
ð{
ò| cr!   