ó
    fT–h:3  ã                   ó²  • S r SSKJrJrJr  SSKrSSKrSSKJr  SSKJ	r	  SSK
Jr  SSKJr  SS	KJr  SS
KJr  SSKJr  SSKJrJrJrJrJrJrJr  SSKJr  \R<                  " \5      r Sr!Sr" " S S\RF                  5      r$S"S jr% " S S\RF                  5      r& " S S\5      r' " S S\5      r( " S S\\(5      r) " S S\5      r* " S S \5      r+/ S!Qr,g)#zPyTorch Phi-3 model.é    )ÚCallableÚOptionalÚTupleN)Únné   )ÚACT2FN)ÚCache)ÚFlashAttentionKwargs)ÚALL_ATTENTION_FUNCTIONS)ÚUnpack)Úloggingé   )ÚMistralDecoderLayerÚMistralForCausalLMÚ MistralForSequenceClassificationÚMistralForTokenClassificationÚMistralPreTrainedModelÚeager_attention_forwardÚrotate_halfé   )Ú
Phi3Configz microsoft/Phi-3-mini-4k-instructr   c                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚPhi3MLPé0   c                 ó   >• [         TU ]  5         Xl        [        R                  " UR
                  SUR                  -  SS9U l        [        R                  " UR                  UR
                  SS9U l        [        UR                     U l        g )Nr   F©Úbias)ÚsuperÚ__init__Úconfigr   ÚLinearÚhidden_sizeÚintermediate_sizeÚgate_up_projÚ	down_projr   Ú
hidden_actÚactivation_fn)Úselfr    Ú	__class__s     €Ú]/var/www/auris/envauris/lib/python3.13/site-packages/transformers/models/phi3/modular_phi3.pyr   ÚPhi3MLP.__init__1   sn   ø€ Ü‰ÑÔàŒÜŸIšI f×&8Ñ&8¸!¸f×>VÑ>VÑ:VÐ]bÑcˆÔÜŸš 6×#;Ñ#;¸V×=OÑ=OÐV[Ñ\ˆŒÜ# F×$5Ñ$5Ñ6ˆÕó    Úhidden_statesÚreturnc                 ó   • U R                  U5      nUR                  SSS9u  p2X R                  U5      -  nU R                  U5      $ )Nr   éÿÿÿÿ©Údim)r$   Úchunkr'   r%   )r(   r-   Ú	up_statesÚgates       r*   ÚforwardÚPhi3MLP.forward9   sH   € Ø×%Ñ% mÓ4ˆ	à#Ÿ/™/¨!°˜/Ð4‰ˆØ× 2Ñ 2°4Ó 8Ñ8ˆ	à~‰~˜iÓ(Ð(r,   )r'   r    r%   r$   )
Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__r   ÚtorchÚFloatTensorr6   Ú__static_attributes__Ú__classcell__©r)   s   @r*   r   r   0   s,   ø† õ7ð) U×%6Ñ%6ð )¸5×;LÑ;L÷ )ò )r,   r   c                 óN  • UR                  U5      nUR                  U5      nUR                  S   nU SSU24   U SUS24   p‡USSU24   USUS24   p©[        R                  " Xr-  [	        U5      U-  -   U/SS9n[        R                  " X’-  [	        U	5      U-  -   U
/SS9nX¼4$ )a—  Applies Rotary Position Embedding to the query and key tensors.

Args:
    q (`torch.Tensor`): The query tensor.
    k (`torch.Tensor`): The key tensor.
    cos (`torch.Tensor`): The cosine part of the rotary embedding.
    sin (`torch.Tensor`): The sine part of the rotary embedding.
    position_ids (`torch.Tensor`, *optional*):
        Deprecated and unused.
    unsqueeze_dim (`int`, *optional*, defaults to 1):
        The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
        sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
        that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
        k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
        cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
        the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
Returns:
    `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
r0   .Nr1   )Ú	unsqueezeÚshaper<   Úcatr   )ÚqÚkÚcosÚsinÚposition_idsÚunsqueeze_dimÚ
rotary_dimÚq_rotÚq_passÚk_rotÚk_passÚq_embedÚk_embeds                r*   Úapply_rotary_pos_embrR   B   sÆ   € ð( -‰-˜Ó
&€CØ
-‰-˜Ó
&€Cà—‘˜2‘€JØc˜;˜J˜;Ð&Ñ'¨¨3°
±Ð+;Ñ)<ˆ6Øc˜;˜J˜;Ð&Ñ'¨¨3°
±Ð+;Ñ)<ˆ6äiŠi˜%™+¬+°eÓ*<¸sÑ*BÑCÀVÐLÐRTÑU€GÜiŠi˜%™+¬+°eÓ*<¸sÑ*BÑCÀVÐLÐRTÑU€GØÐÐr,   c                   óP  ^ • \ rS rSrSrSS\S\\   4U 4S jjjr  SS\	R                  S\\	R                  \	R                  4   S\\	R                     S	\\   S
\\	R                     S\\   S\\	R                  \\	R                     \\\	R                        4   4S jjrSrU =r$ )ÚPhi3Attentionéb   z=Multi-headed attention from 'Attention Is All You Need' paperr    Ú	layer_idxc                 óp  >• [         TU ]  5         Xl        X l        [	        USUR
                  UR                  -  5      U l        UR                  UR                  -  U l	        UR                  U l        U R                  S-  U l
        UR                  U l        SU l        UR                  U R                  -  SUR                  U R                  -  -  -   n[        R                  " UR                  U R                  -  UR
                  SS9U l        [        R                  " UR
                  USS9U l        g )NÚhead_dimg      à¿Tr   Fr   )r   r   r    rV   Úgetattrr"   Únum_attention_headsrX   Únum_key_value_headsÚnum_key_value_groupsÚscalingÚattention_dropoutÚ	is_causalr   r!   Úo_projÚqkv_proj)r(   r    rV   Úop_sizer)   s       €r*   r   ÚPhi3Attention.__init__e   sù   ø€ Ü‰ÑÔØŒØ"ŒÜ ¨
°F×4FÑ4FÈ&×JdÑJdÑ4dÓeˆŒØ$*×$>Ñ$>À&×B\ÑB\Ñ$\ˆÔ!Ø#)×#=Ñ#=ˆÔ Ø—}‘} dÑ*ˆŒØ!'×!9Ñ!9ˆÔØˆŒà×,Ñ,¨t¯}©}Ñ<¸qÀF×D^ÑD^Ðae×anÑanÑDnÑ?oÑoˆÜ—i’i × :Ñ :¸T¿]¹]Ñ JÈF×L^ÑL^ÐejÑkˆŒÜŸ	š	 &×"4Ñ"4°gÀEÑJˆr,   r-   Úposition_embeddingsÚattention_maskÚpast_key_valueÚcache_positionÚkwargsr.   c           
      ó–  • UR                   S S n/ UQSPU R                  P7nU R                  U5      n	U R                  R                  U R                  -  n
U	SS U
24   nU	SXªU R
                  U R                  -  -   24   nU	SX R
                  U R                  -  -   S 24   nUR                  U5      R                  SS5      nUR                  U5      R                  SS5      nUR                  U5      R                  SS5      nUu  pï[        X¼Xï5      u  p¼Ub$  XþUS.nUR                  XÍU R                  U5      u  pÍ[        nU R                  R                  S:w  ad  U R                  R                  S:X  a-  UR                  SS	5      (       a  [        R                  S
5        O[         U R                  R                     nU" U UUUU4U R"                  (       d  SOU R$                  U R&                  [)        U R                  SS 5      S.UD6u  nnUR*                  " / UQSP76 R-                  5       nU R/                  U5      nUU4$ )Nr0   .r   r   )rH   rG   rg   ÚeagerÚsdpaÚoutput_attentionsFzã`torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to eager attention. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.g        Úsliding_window)Údropoutr]   rm   )rC   rX   ra   r    rZ   r[   ÚviewÚ	transposerR   ÚupdaterV   r   Ú_attn_implementationÚgetÚloggerÚwarning_oncer   Útrainingr^   r]   rY   ÚreshapeÚ
contiguousr`   )r(   r-   rd   re   rf   rg   rh   Úinput_shapeÚhidden_shapeÚqkvÚ	query_posÚquery_statesÚ
key_statesÚvalue_statesrG   rH   Úcache_kwargsÚattention_interfaceÚattn_outputÚattn_weightss                       r*   r6   ÚPhi3Attention.forwardt   sI  € ð $×)Ñ)¨#¨2Ð.ˆØ8˜Ð8 bÐ8¨$¯-©-Ñ8ˆàm‰m˜MÓ*ˆØ—K‘K×3Ñ3°d·m±mÑCˆ	Ø˜3 
  
˜?Ñ+ˆØ˜˜i°d×6NÑ6NÐQU×Q^ÑQ^Ñ6^Ñ*^Ð^Ð^Ñ_ˆ
Ø˜3 	×,DÑ,DÀtÇ}Á}Ñ,TÑ TÑ VÐVÑWˆà#×(Ñ(¨Ó6×@Ñ@ÀÀAÓFˆØ—_‘_ \Ó2×<Ñ<¸QÀÓBˆ
Ø#×(Ñ(¨Ó6×@Ñ@ÀÀAÓFˆà&‰ˆÜ#7¸ÐRUÓ#[Ñ ˆàÑ%à#&ÀnÑUˆLØ'5×'<Ñ'<¸ZÐW[×WeÑWeÐgsÓ'tÑ$ˆJä(?ÐØ;‰;×+Ñ+¨wÓ6Ø{‰{×/Ñ/°6Ó9¸f¿j¹jÐI\Ð^c×>dÑ>dÜ×#Ñ#ðLõô
 '>¸d¿k¹k×>^Ñ>^Ñ&_Ð#á$7ØØØØØð
%
ð  $Ÿ}Ÿ}‘C°$×2HÑ2HØ—L‘LÜ" 4§;¡;Ð0@À$ÓGñ
%
ð ñ
%
Ñ!ˆ\ð "×)Ò)Ð;¨;Ð;¸Ò;×FÑFÓHˆØ—k‘k +Ó.ˆØ˜LÐ(Ð(r,   )
r^   r    rX   r_   rV   r\   r[   r`   ra   r]   )N)NN)r8   r9   r:   r;   Ú__doc__r   r   Úintr   r<   ÚTensorr   r	   Ú
LongTensorr   r
   r6   r>   r?   r@   s   @r*   rT   rT   b   s×   ø† ÙGñK˜zð K°h¸s±m÷ Kð Kð( +/Ø59ñ6)à—|‘|ð6)ð # 5§<¡<°·±Ð#=Ñ>ð6)ð ! §¡Ñ.ð	6)ð
 ! ™ð6)ð ! ×!1Ñ!1Ñ2ð6)ð Ð-Ñ.ð6)ð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷6)ó 6)r,   rT   c                   ó€  ^ • \ rS rSrS\S\4U 4S jjr       SS\R                  S\	\R                     S\	\R                     S\	\   S	\	\   S
\	\   S\	\R                     S\	\\R                  \R                  4      S\\   S\\R                   \	\\R                   \R                   4      4   4S jjrSrU =r$ )ÚPhi3DecoderLayeré­   r    rV   c                 ó   >• [         TU ]  X5        Xl        [        XS9U l        [        U5      U l        [        R                  " UR                  5      U l
        [        R                  " UR                  5      U l        g )N)r    rV   )r   r   r    rT   Ú	self_attnr   Úmlpr   ÚDropoutÚresid_pdropÚresid_attn_dropoutÚresid_mlp_dropout)r(   r    rV   r)   s      €r*   r   ÚPhi3DecoderLayer.__init__®   sZ   ø€ Ü‰Ñ˜Ô+ØŒÜ&¨fÑJˆŒÜ˜6“?ˆŒÜ"$§*¢*¨V×-?Ñ-?Ó"@ˆÔÜ!#§¢¨F×,>Ñ,>Ó!?ˆÕr,   r-   re   rI   rf   rl   Ú	use_cacherg   rd   rh   r.   c	                 ó  • Un
U R                  U5      nU R                  " SUUUUUUUUS.U	D6u  pX R                  U5      -   nUn
U R                  U5      nU R	                  U5      nX R                  U5      -   nU4nU(       a  XË4-  nU$ )a5  
Args:
    hidden_states (`torch.FloatTensor`):
        input to the layer of shape `(batch, seq_len, embed_dim)`
    attention_mask (`torch.FloatTensor`, *optional*): attention mask of size
        `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
    position_ids (`torch.LongTensor` of shape `({0})`, *optional*):
        Indices of positions of each input sequence tokens in the position embeddings. Selected in the range
        `[0, config.n_positions - 1]`. [What are position IDs?](../glossary#position-ids)
    past_key_value (`Cache`, *optional*): cached past key and value projection states
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    use_cache (`bool`, *optional*):
        If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
        (see `past_key_values`).
    cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
        Indices depicting the position of the input sequence tokens in the sequence
    kwargs (`dict`, *optional*):
        Arbitrary kwargs to be ignored, used for FSDP and other methods that injects code
        into the model
)r-   re   rI   rf   rl   r”   rg   rd   © )Úinput_layernormr   r‘   Úpost_attention_layernormrŽ   r’   )r(   r-   re   rI   rf   rl   r”   rg   rd   rh   ÚresidualÚself_attn_weightsÚoutputss                r*   r6   ÚPhi3DecoderLayer.forward¶   sº   € ðD !ˆà×,Ñ,¨]Ó;ˆð ,0¯>ª>ð 
,
Ø'Ø)Ø%Ø)Ø/ØØ)Ø 3ñ
,
ð ñ
,
Ñ(ˆð !×#:Ñ#:¸=Ó#IÑIˆà ˆØ×5Ñ5°mÓDˆØŸ™ Ó/ˆØ ×#9Ñ#9¸-Ó#HÑHˆà Ð"ˆÞØÐ+Ñ+ˆGàˆr,   )r    rŽ   r‘   r’   r   )NNNFFNN)r8   r9   r:   r;   r   r†   r   r<   r‡   r   rˆ   r	   Úboolr   r   r
   r=   r6   r>   r?   r@   s   @r*   rŠ   rŠ   ­   s  ø† ð@˜zð @°c÷ @ð 26Ø37Ø*.Ø,1Ø$)Ø59ØKOñ=à—|‘|ð=ð ! §¡Ñ.ð=ð ˜u×/Ñ/Ñ0ð	=ð
 ! ™ð=ð $ D™>ð=ð ˜D‘>ð=ð ! ×!1Ñ!1Ñ2ð=ð & e¨E¯L©L¸%¿,¹,Ð,FÑ&GÑHð=ð Ð-Ñ.ð=ð 
ˆu× Ñ  (¨5°×1BÑ1BÀE×DUÑDUÐ1UÑ+VÑ"WÐWÑ	X÷=ó =r,   rŠ   c                   ó   • \ rS rSrSrSrg)ÚPhi3PreTrainedModeléö   z0.0.5r–   N)r8   r9   r:   r;   Ú_versionr>   r–   r,   r*   rŸ   rŸ   ö   s   † ØƒHr,   rŸ   c                   ó,   • \ rS rSr       SS jrSrg)ÚPhi3ForCausalLMéú   Nc	                 ó$  • U(       ae  U R                   R                  (       aJ  UR                  S   U R                   R                  S-   :¼  a   US   n
X R                   R                  ::  a  S n[	        5       R
                  " SUUUUUUUUS.U	D6nU$ )Nr   r   )Ú	input_idsÚpast_key_valuesre   Úinputs_embedsrg   rI   r”   Úlogits_to_keepr–   )r    Úrope_scalingrC   Ú original_max_position_embeddingsrŸ   Úprepare_inputs_for_generation)r(   r¦   r§   re   r¨   rg   rI   r”   r©   rh   Úpast_lengthÚmodel_inputss               r*   r¬   Ú-Phi3ForCausalLM.prepare_inputs_for_generationû   s–   € ö$ Ø—‘×(×(Ø—‘ Ñ" d§k¡k×&RÑ&RÐUVÑ&VÓVà(¨Ñ+ˆKØŸk™k×JÑJÓJØ"&ä*Ó,×JÒJð 

ØØ+Ø)Ø'Ø)Ø%ØØ)ñ

ð ñ

ˆð Ðr,   r–   )NNNNNTN)r8   r9   r:   r;   r¬   r>   r–   r,   r*   r£   r£   ú   s   † ð ØØØØØØ÷%r,   r£   c                   ó   • \ rS rSrSrg)ÚPhi3ForSequenceClassificationi#  r–   N©r8   r9   r:   r;   r>   r–   r,   r*   r±   r±   #  ó   † Úr,   r±   c                   ó   • \ rS rSrSrg)ÚPhi3ForTokenClassificationi'  r–   Nr²   r–   r,   r*   rµ   rµ   '  r³   r,   rµ   )rŸ   Ú	Phi3Modelr£   r±   rµ   )Nr   )-r…   Útypingr   r   r   r<   Útorch.utils.checkpointr   Úactivationsr   Úcache_utilsr	   Úmodeling_flash_attention_utilsr
   Úmodeling_utilsr   Úprocessing_utilsr   Úutilsr   Úmistral.modeling_mistralr   r   r   r   r   r   r   Úconfiguration_phi3r   Ú
get_loggerr8   rt   Ú_CHECKPOINT_FOR_DOCÚ_CONFIG_FOR_DOCÚModuler   rR   rT   rŠ   rŸ   r£   r±   rµ   Ú__all__r–   r,   r*   Ú<module>rÆ      sÔ   ðñ  ç ,Ñ ,ã Û Ý å !Ý  Ý BÝ 5Ý &Ý ÷÷ ñ õ +ð 
×	Ò	˜HÓ	%€à8Ð Ø€ô)ˆbi‰iô )ô$ô@H)B—I‘Iô H)ôVFÐ*ô FôRÐ0ô ô&Ð(Ð*=ô &ôR	Ð$Dô 	ô	Ð!>ô 	òr,   