ó
    fT–hn  ã                   ó¬  • S SK JrJrJrJr  S SKrS SKJr  SSKJ	r	  SSK
Jr  SSKJrJr  SSKJrJr  SSKJr  SS	KJrJrJrJr  S
SKJr  \R6                  " \5      r " S S\R<                  5      r " S S\R<                  5      r  " S S\R<                  5      r! S2S\R<                  S\RD                  S\RD                  S\RD                  S\\RD                     S\#S\#4S jjr$S r%S\RD                  S\&S\RD                  4S jr'S\RD                  S \RD                  S!\RD                  S"\RD                  S\\RD                  \RD                  4   4
S# jr( " S$ S%\R<                  5      r) " S& S'\R<                  5      r* " S( S)\R<                  5      r+ " S* S+\R<                  5      r,\ " S, S-\5      5       r-\" S.S/9 " S0 S1\-5      5       r.S-S1/r/g)3é    )ÚCallableÚOptionalÚTupleÚUnionNé   )ÚACT2FN)ÚFlashAttentionKwargs)ÚBaseModelOutputÚBaseModelOutputWithPooling)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)ÚUnpack)Úauto_docstringÚcan_return_tupleÚloggingÚ	torch_inté   )ÚMLCDVisionConfigc                   ób   ^ • \ rS rSrU 4S jrS\R                  S\R                  4S jrSrU =r	$ )ÚMLCDMLPé&   c                 ó  >• [         TU ]  5         Xl        [        UR                     U l        [        R                  " UR                  UR                  5      U l
        [        R                  " UR                  UR                  5      U l        g ©N)ÚsuperÚ__init__Úconfigr   Ú
hidden_actÚactivation_fnÚnnÚLinearÚhidden_sizeÚintermediate_sizeÚfc1Úfc2©Úselfr   Ú	__class__s     €Ú^/var/www/auris/envauris/lib/python3.13/site-packages/transformers/models/mlcd/modeling_mlcd.pyr   ÚMLCDMLP.__init__'   sb   ø€ Ü‰ÑÔØŒÜ# F×$5Ñ$5Ñ6ˆÔÜ—9’9˜V×/Ñ/°×1IÑ1IÓJˆŒÜ—9’9˜V×5Ñ5°v×7IÑ7IÓJˆó    Úhidden_statesÚreturnc                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ r   )r#   r   r$   )r&   r+   s     r(   ÚforwardÚMLCDMLP.forward.   s4   € ØŸ™ Ó/ˆØ×*Ñ*¨=Ó9ˆØŸ™ Ó/ˆØÐr*   )r   r   r#   r$   )
Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__r   ÚtorchÚTensorr.   Ú__static_attributes__Ú__classcell__©r'   s   @r(   r   r   &   s)   ø† õKð U§\¡\ð °e·l±l÷ ò r*   r   c                   óf   ^ • \ rS rSrSS\S\SS4U 4S jjjrS\S\S\R                  4S	 jr	S
r
U =r$ )ÚMLCDRotaryEmbeddingé5   ÚdimÚthetar,   Nc           	      ó    >• [         TU ]  5         SU[        R                  " SUS[        R                  S9U-  -  -  nU R                  SUSS9  g )Nç      ð?r   é   ©ÚdtypeÚinv_freqF©Ú
persistent)r   r   r4   ÚarangeÚfloatÚregister_buffer)r&   r<   r=   rC   r'   s       €r(   r   ÚMLCDRotaryEmbedding.__init__6   sK   ø€ Ü‰ÑÔØ˜%¤E§L¢L°°C¸Ä%Ç+Á+Ñ$NÐQTÑ$TÑUÑVˆØ×Ñ˜Z¨¸eÐÒDr*   Únum_patches_heightÚnum_patches_widthc                 ó~  • [         R                  " XR                  R                  S9R	                  S5      R                  SU5      n[         R                  " X R                  R                  S9R	                  S5      R                  US5      n[         R                  " UR                  5       UR                  5       /SS9n[        X5      n[         R                  " X`R                  R                  U R                  R                  S9n[         R                  " XpR                  5      nX…   R                  S5      n	U	$ )aE  
Calculate the Rotary Position Embedding (RoPE) for MLCDVisionModel based on the grid size.

Args:
    num_patches_height (int): Number of patches in the height dimension.
    num_patches_width (int): Number of patches in the width dimension.

Returns:
    torch.Tensor: Rotary positional embeddings for the given grid size.
)Údevicer   éÿÿÿÿr   ©r<   )rM   rB   )r4   rF   rC   rM   Ú	unsqueezeÚexpandÚstackÚflattenÚmaxrB   Úouter)
r&   rJ   rK   Úhpos_idsÚwpos_idsÚpos_idsÚmax_grid_sizeÚseqÚrotary_pos_emb_fullÚrotary_pos_embs
             r(   r.   ÚMLCDRotaryEmbedding.forward;   sü   € ô LŠLÐ+·M±M×4HÑ4HÑI×SÑSÐTUÓV×]Ñ]Ð^`ÐbsÓtð 	ô LŠLÐ*·=±=×3GÑ3GÑH×RÑRÐSTÓU×\Ñ\Ð]oÐqsÓtð 	ô
 —+’+˜x×/Ñ/Ó1°8×3CÑ3CÓ3EÐFÈBÑOˆô Ð.ÓBˆÜlŠl˜=·±×1EÑ1EÈTÏ]É]×M`ÑM`ÑaˆÜ#Ÿkšk¨#¯}©}Ó=Ðð -Ñ5×=Ñ=¸aÓ@ˆàÐr*   © )g     ˆÃ@)r0   r1   r2   r3   ÚintrG   r   r4   r5   r.   r6   r7   r8   s   @r(   r:   r:   5   sJ   ø† ñE˜Cð E¨ð E¸D÷ Eð Eð
¨#ð À#ð È%Ï,É,÷ ò r*   r:   c                   ó¬   ^ • \ rS rSrS\4U 4S jjrS\R                  S\S\S\R                  4S jr	S	\R                  S\R                  4S
 jrSrU =r$ )ÚMLCDVisionEmbeddingsé\   r   c                 óv  >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        UR                  U l        [        R                  " [        R                  " U R                  5      5      U l        [        R                  " UR                  U R                  U R                  U R                  SS9U l        U R
                  U R                  -  S-  U l        U R                  S-   U l        U R#                  S[        R$                  " U R                   5      R'                  S5      SS9  g )NF)Úin_channelsÚout_channelsÚkernel_sizeÚstrideÚbiasr@   r   Úposition_ids)r   rN   rD   )r   r   r   r!   Ú	embed_dimÚ
image_sizeÚ
patch_sizer   Ú	Parameterr4   ÚrandnÚclass_embeddingÚConv2dÚnum_channelsÚpatch_embeddingÚnum_patchesÚnum_positionsrH   rF   rQ   r%   s     €r(   r   ÚMLCDVisionEmbeddings.__init__]   sê   ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ ×+Ñ+ˆŒØ ×+Ñ+ˆŒä!Ÿ|š|¬E¯KªK¸¿¹Ó,GÓHˆÔä!ŸyšyØ×+Ñ+ØŸ™ØŸ™Ø—?‘?Øñ 
ˆÔð !ŸO™O¨t¯©Ñ>À1ÑDˆÔØ!×-Ñ-°Ñ1ˆÔØ×Ñ˜^¬U¯\ª\¸$×:LÑ:LÓ-M×-TÑ-TÐU\Ó-]ÐjoÐÒpr*   Ú
embeddingsÚheightÚwidthr,   c                 óÈ  • UR                   S   S-
  nU R                  R                  R                  S5      nUR                   S   S-
  n[        R
                  R                  5       (       d%  XF:X  a   X#:X  a  U R                  U R                  5      $ USS2SS24   nUSS2SS24   nUR                   S   n	X R                  -  n
X0R                  -  n[        US-  5      nUR                  SXÌU	5      nUR                  SSSS5      n[        R                  R                  UX«4SS	S
9nUR                  SSSS5      R                  SSU	5      n[        R                   " Xx4SS9$ )aÐ  
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
images. This method is also adapted to support torch.jit tracing.

Adapted from:
- https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
- https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
r   r   NrN   g      à?r   r@   ÚbicubicF)ÚsizeÚmodeÚalign_cornersrO   )ÚshapeÚposition_embeddingÚweightrP   r4   ÚjitÚ
is_tracingri   rl   r   ÚreshapeÚpermuter   Ú
functionalÚinterpolateÚviewÚcat)r&   rv   rw   rx   rs   r   rt   Úclass_pos_embedÚpatch_pos_embedr<   Ú
new_heightÚ	new_widthÚsqrt_num_positionss                r(   Úinterpolate_pos_encodingÚ-MLCDVisionEmbeddings.interpolate_pos_encodingr   si  € ð !×&Ñ& qÑ)¨AÑ-ˆØ!×4Ñ4×;Ñ;×EÑEÀaÓHÐØ*×0Ñ0°Ñ3°aÑ7ˆô y‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×*Ñ*¨4×+<Ñ+<Ó=Ð=à,ªQ°°°¨UÑ3ˆØ,ªQ°±¨UÑ3ˆà×Ñ˜rÑ"ˆàŸ™Ñ.ˆ
ØŸ_™_Ñ,ˆ	ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆäŸ-™-×3Ñ3ØØÐ(ØØð	 4ð 
ˆð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆäyŠy˜/Ð;ÀÑCÐCr*   Úpixel_valuesc                 óH  • UR                   S   nU R                  R                  R                  nU R                  UR	                  US95      nUR                  S5      R                  SS5      nU R                  R                  USS5      n[        R                  " XT/SS9nU$ )Nr   rA   r@   r   rN   rO   )r~   rr   r€   rB   ÚtorS   Ú	transposero   rQ   r4   rˆ   )r&   r   Ú
batch_sizeÚtarget_dtypeÚpatch_embedsÚclass_embedsrv   s          r(   r.   ÚMLCDVisionEmbeddings.forward›   s”   € Ø!×'Ñ'¨Ñ*ˆ
Ø×+Ñ+×2Ñ2×8Ñ8ˆà×+Ñ+¨L¯O©OÀ,¨OÐ,OÓPˆØ#×+Ñ+¨AÓ.×8Ñ8¸¸AÓ>ˆà×+Ñ+×2Ñ2°:¸qÀ"ÓEˆÜ—Y’Y Ð;ÀÑCˆ
àÐr*   )ro   r   rj   rk   rs   rt   rr   rl   )r0   r1   r2   r3   r   r   r4   r5   r_   rŽ   ÚFloatTensorr.   r6   r7   r8   s   @r(   ra   ra   \   sg   ø† ðqÐ/÷ qð*'D°5·<±<ð 'DÈð 'DÐUXð 'DÐ]b×]iÑ]iô 'DðR
 E×$5Ñ$5ð 
¸%¿,¹,÷ 
ò 
r*   ra   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingÚdropoutc                 ó@  • [        X R                  5      n[        X0R                  5      n	[        R                  " XR	                  SS5      5      U-  n
Ub"  US S 2S S 2S S 2S UR
                  S   24   nX«-   n
[        R                  R                  U
S[        R                  S9R                  UR                  5      n
[        R                  R                  X¦U R                  S9n
[        R                  " X©5      nUR	                  SS5      R                  5       nXÊ4$ )Nr@   r   éþÿÿÿrN   )r<   rB   )ÚpÚtrainingr   )Ú	repeat_kvÚnum_key_value_groupsr4   Úmatmulr“   r~   r   r…   ÚsoftmaxÚfloat32r’   rB   r    r¤   Ú
contiguous)rš   r›   rœ   r   rž   rŸ   r    ÚkwargsÚ
key_statesÚvalue_statesÚattn_weightsÚcausal_maskÚattn_outputs                r(   Úeager_attention_forwardr±   ¨   sö   € ô ˜3× ;Ñ ;Ó<€JÜ˜U×$?Ñ$?Ó@€Lä—<’< ×';Ñ';¸A¸qÓ'AÓBÀWÑL€LØÑ!Ø$¢Qªª1Ð.D°
×0@Ñ0@ÀÑ0DÐ.DÐ%DÑEˆØ#Ñ1ˆä—=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€LÜ—=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€LÜ—,’,˜|Ó:€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r*   c                 ó–   • U SSU R                   S   S-  24   nU SU R                   S   S-  S24   n[        R                  " U* U4SS9$ )z*Rotates half the hidden dims of the input..NrN   r@   rO   )r~   r4   rˆ   )ÚxÚx1Úx2s      r(   Úrotate_halfr¶   Â   sZ   € à	
ˆ3Ð"!—'‘'˜"‘+ Ñ"Ð"Ð"Ñ	#€BØ	
ˆ3—‘˜‘˜qÑ Ñ"Ð"Ñ	#€BÜ9Š9rc˜2Y BÑ'Ð'r*   r+   Ún_repr,   c                 ó    • U R                   u  p#pEUS:X  a  U $ U SS2SS2SSS2SS24   R                  X#XU5      n U R                  X#U-  XE5      $ )zÈ
This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
r   N)r~   rQ   rƒ   )r+   r·   ÚbatchÚnum_key_value_headsÚslenÚhead_dims         r(   r¥   r¥   É   s_   € ð
 2?×1DÑ1DÑ.€E ØƒzØÐØ!¢!¢Q¨ªa²Ð"2Ñ3×:Ñ:¸5ÐW\ÐdlÓm€MØ× Ñ  ¸eÑ(CÀTÓTÐTr*   ÚqÚkÚcosÚsinc                 ó€  • U R                   nUR                   nU R                  5       UR                  5       pUR                  S5      R                  5       UR                  S5      R                  5       p2X-  [        U 5      U-  -   nX-  [        U5      U-  -   nUR	                  U5      nUR	                  U5      nXg4$ )Nr¢   )rB   rG   rP   r¶   r’   )r½   r¾   r¿   rÀ   Úorig_q_dtypeÚorig_k_dtypeÚq_embedÚk_embeds           r(   Úapply_rotary_pos_emb_visionrÆ   Õ   s£   € ð —7‘7€LØ—7‘7€LØ7‰7‹9a—g‘g“i€qØ}‰}˜RÓ ×&Ñ&Ó(¨#¯-©-¸Ó*;×*AÑ*AÓ*CˆØ‰wœ; q›>¨CÑ/Ñ0€GØ‰wœ; q›>¨CÑ/Ñ0€GØj‰j˜Ó&€GØj‰j˜Ó&€GØÐÐr*   c                   óö   ^ • \ rS rSrSrS\4U 4S jjr SS\R                  S\	\R                  \R                  4   S\
\R                     S\\   S	\	\R                  \
\R                     4   4
S
 jjrSrU =r$ )ÚMLCDAttentionéã   a)  Multi-headed attention from 'Attention Is All You Need' paper
Multi-headed attention with RoPE. Refer to papers:
    - Attention is all you need:
        https://arxiv.org/abs/1706.03762
    - RoFormer: Enhanced Transformer with Rotary Position Embedding:
        https://arxiv.org/abs/2104.09864
r   c                 óB  >• [         TU ]  5         Xl        UR                  U l        UR
                  U l        U R                  U R                  -  U l        U R                  U R                  -  U R                  :w  a&  [        SU R                   SU R                   S35      eU R                  S-  U l	        UR                  U l        SU l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        [        R                  " U R                  U R                  5      U l        UR&                  U l        g )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).ç      à¿F)r   r   r   r!   rj   Únum_attention_headsÚ	num_headsr¼   Ú
ValueErrorÚscaleÚattention_dropoutr    Ú	is_causalr   r    Úk_projÚv_projÚq_projÚout_projr¦   r%   s     €r(   r   ÚMLCDAttention.__init__ì   s&  ø€ Ü‰ÑÔØŒØ×+Ñ+ˆŒØ×3Ñ3ˆŒØŸ™¨$¯.©.Ñ8ˆŒØ=‰=˜4Ÿ>™>Ñ)¨T¯^©^Ó;ÜØMÈdÏnÉnÐM]ð ^Ø—N‘NÐ# 2ð'óð ð —]‘] DÑ(ˆŒ
Ø×/Ñ/ˆŒØˆŒä—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜ—i’i §¡°·±Ó?ˆŒÜŸ	š	 $§.¡.°$·.±.ÓAˆŒØ$*×$?Ñ$?ˆÕ!r*   r+   Úposition_embeddingsrž   r«   r,   c                 ó@  • UR                   SS u  pVU R                  U5      R                  XVU R                  U R                  45      nU R                  U5      R                  XVU R                  U R                  45      nU R                  U5      R                  XVU R                  U R                  45      n	US   R                  S5      R                  5       n
US   R                  S5      R                  5       n[        XxX«5      u  pxUR                  SSSS5      R                  5       nUR                  SSSS5      R                  5       nU	R                  SSSS5      R                  5       n	[        nU R                  R                  S:w  ad  U R                  R                  S:X  a-  UR                  S	S
5      (       a  [         R#                  S5        O[$        U R                  R                     nU" U UUU	U4U R&                  (       d  SOU R(                  U R*                  U R,                  S.UD6u  pÞUR                  SSSS5      R                  5       nUR/                  XeS5      nU R1                  U5      nUR                  SSS5      R                  5       nXÞ4$ )z#Input shape: Batch x Time x ChannelNrN   r   r   r@   r   ÚeagerÚsdpaÚoutput_attentionsFzã`torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to eager attention. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.ç        )r    rŸ   rÑ   )r~   rÔ   rƒ   rÍ   r¼   rÒ   rÓ   rP   rG   rÆ   r„   rª   r±   r   Ú_attn_implementationÚgetÚloggerÚwarning_oncer   r¤   r    rÏ   rÑ   r‡   rÕ   )r&   r+   r×   rž   r«   r”   Ú
seq_lengthÚquery_statesr¬   r­   r¿   rÀ   Úattention_interfacer°   r®   s                  r(   r.   ÚMLCDAttention.forward  sj  € ð "/×!4Ñ!4°S°bÐ!9Ñˆ
ð —{‘{ =Ó1×9Ñ9¸:ÐSW×SaÑSaÐcg×cpÑcpÐ:qÓrˆØ—[‘[ Ó/×7Ñ7¸ÐQU×Q_ÑQ_Ðae×anÑanÐ8oÓpˆ
Ø—{‘{ =Ó1×9Ñ9¸:ÐSW×SaÑSaÐcg×cpÑcpÐ:qÓrˆð " !Ñ$×.Ñ.¨qÓ1×7Ñ7Ó9ˆØ! !Ñ$×.Ñ.¨qÓ1×7Ñ7Ó9ˆÜ#>¸|ÐY\Ó#bÑ ˆð $×+Ñ+¨A¨q°!°QÓ7×BÑBÓDˆØ×'Ñ'¨¨1¨a°Ó3×>Ñ>Ó@ˆ
Ø#×+Ñ+¨A¨q°!°QÓ7×BÑBÓDˆä(?ÐØ;‰;×+Ñ+¨wÓ6Ø{‰{×/Ñ/°6Ó9¸f¿j¹jÐI\Ð^c×>dÑ>dÜ×#Ñ#ðLõô
 '>¸d¿k¹k×>^Ñ>^Ñ&_Ð#á$7ØØØØØð
%
ð  $Ÿ}Ÿ}‘C°$·,±,Ø—J‘JØ—n‘nñ
%
ð ñ
%
Ñ!ˆð "×)Ñ)¨!¨Q°°1Ó5×@Ñ@ÓBˆØ!×&Ñ& z¸rÓBˆØ—m‘m KÓ0ˆØ!×)Ñ)¨!¨Q°Ó2×=Ñ=Ó?ˆØÐ(Ð(r*   )r   r    rj   r¼   rÑ   rÒ   rÍ   r¦   rÕ   rÔ   rÏ   rÓ   r   )r0   r1   r2   r3   Ú__doc__r   r   r4   r5   r   r   r   r	   r.   r6   r7   r8   s   @r(   rÈ   rÈ   ã   s’   ø† ñð@Ð/÷ @ð2 26ñ	3)à—|‘|ð3)ð # 5§<¡<°·±Ð#=Ñ>ð3)ð ! §¡Ñ.ð	3)ð
 Ð-Ñ.ð3)ð 
ˆu|‰|˜X e§l¡lÑ3Ð3Ñ	4÷3)ó 3)r*   rÈ   c                   óÖ   ^ • \ rS rSrS\4U 4S jjr  SS\R                  S\\R                  \R                  4   S\	\R                     S\	\
   S\\R                     4
S	 jjrS
rU =r$ )ÚMLCDEncoderLayeri7  r   c                 ó<  >• [         TU ]  5         UR                  U l        [	        U5      U l        [        R                  " U R                  UR                  S9U l	        [        U5      U l        [        R                  " U R                  UR                  S9U l        g )N©Úeps)r   r   r!   rj   rÈ   Ú	self_attnr   Ú	LayerNormÚlayer_norm_epsÚlayer_norm1r   ÚmlpÚlayer_norm2r%   s     €r(   r   ÚMLCDEncoderLayer.__init__8  sl   ø€ Ü‰ÑÔØ×+Ñ+ˆŒÜ& vÓ.ˆŒÜŸ<š<¨¯©¸F×<QÑ<QÑRˆÔÜ˜6“?ˆŒÜŸ<š<¨¯©¸F×<QÑ<QÑRˆÕr*   r+   r×   rž   rÛ   r,   c                 óÊ   • UnU R                  U5      nU R                  UUUUS9u  pXQ-   nUnU R                  U5      nU R                  U5      nXQ-   nU4nU(       a  Xv4-  nU$ )a;  
Args:
    hidden_states (`torch.FloatTensor`):
        Input to the layer of shape `(batch, seq_len, embed_dim)`.
        Represents the hidden states from the previous layer or the input embeddings.
    position_embeddings (`Tuple[torch.Tensor, torch.Tensor]`):
        A tuple of two tensors, each of shape `(batch, seq_len, embed_dim)`.
        Represents absolute positional embeddings for the query and key in the attention mechanism.
    attention_mask (`torch.FloatTensor`):
        Attention mask of shape `(batch, 1, q_len, k_v_seq_len)` where padding elements are indicated by very large negative values.
    output_attentions (`bool`, *optional*, defaults to `False`):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
©r+   r×   rž   rÛ   )rî   rë   rð   rï   )r&   r+   r×   rž   rÛ   Úresidualr®   Úoutputss           r(   r.   ÚMLCDEncoderLayer.forward@  sŠ   € ð* !ˆà×(Ñ(¨Ó7ˆØ&*§n¡nØ'Ø 3Ø)Ø/ð	 '5ð '
Ñ#ˆð !Ñ0ˆà ˆØ×(Ñ(¨Ó7ˆØŸ™ Ó/ˆØ Ñ0ˆà Ð"ˆæØÑ&ˆGàˆr*   )rj   rî   rð   rï   rë   )NF)r0   r1   r2   r3   r   r   r4   r5   r   r   Úboolr™   r.   r6   r7   r8   s   @r(   rç   rç   7  s‚   ø† ðSÐ/÷ Sð 26Ø,1ñ*à—|‘|ð*ð # 5§<¡<°·±Ð#=Ñ>ð*ð ! §¡Ñ.ð	*ð
 $ D™>ð*ð 
ˆu× Ñ Ñ	!÷*ó *r*   rç   c                   óì   ^ • \ rS rSrSrS\4U 4S jjr\    SS\R                  S\
\R                  \R                  4   S\\R                     S\\   S	\\   S
\\   S\\
\4   4S jj5       rSrU =r$ )ÚMLCDEncoderim  zŸ
Transformer encoder consisting of `config.num_hidden_layers` self attention layers. Each layer is a
[`MLCDEncoderLayer`].

Args:
    config: MLCDVisionConfig
r   c                 óÖ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ s H  n[        U5      PM     sn5      U l        SU l	        gs  snf )z3Overwrite dummy `MLCDConfig` to `MLCDVisionConfig`.FN)
r   r   r   r   Ú
ModuleListÚrangeÚnum_hidden_layersrç   ÚlayersÚgradient_checkpointing)r&   r   Ú_r'   s      €r(   r   ÚMLCDEncoder.__init__v  sS   ø€ ä‰ÑÔØŒÜ—m’mÄuÈV×MeÑMeÔGfÓ$gÒGfÀ!Ô%5°fÖ%=ÑGfÑ$gÓhˆŒØ&+ˆÕ#ùò %hs   ½A&Úinputs_embedsr×   rž   rÛ   Úoutput_hidden_statesÚreturn_dictr,   c                 óN  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU(       a  SOSnU(       a  SOSnUn	[	        U R
                  5       Hr  u  p«U(       a  Xy4-   nU R                  (       a1  U R                  (       a   U R                  UR                  U	UUU5      nO	U" U	UUUS9nUS   n	U(       d  Mj  XŒS   4-   nMt     U(       a  Xy4-   nU(       d  [        S X—U4 5       5      $ [        U	UUS9$ )aº  
Args:
    inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`):
        Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation.
        This is useful if you want more control over how to convert `input_ids` indices into associated vectors
        than the model's internal embedding lookup matrix.
    position_embeddings (`Tuple[torch.Tensor, torch.Tensor]`):
        A tuple of two tensors, each of shape `(batch, seq_len, embed_dim)`.
        Represents absolute positional embeddings for the query and key in the attention mechanism.
    attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
        Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:
        - 1 for tokens that are **not masked**,
        - 0 for tokens that are **masked**.
        [What are attention masks?](../glossary#attention-mask)
    output_attentions (`bool`, *optional*):
        Whether or not to return the attentions tensors of all attention layers. See `attentions` under
        returned tensors for more detail.
    output_hidden_states (`bool`, *optional*):
        Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors
        for more detail.
    return_dict (`bool`, *optional*):
        Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
Nr^   ró   r   r   c              3   ó.   #   • U  H  oc  M  Uv •  M     g 7fr   r^   )Ú.0Úvs     r(   Ú	<genexpr>Ú&MLCDEncoder.forward.<locals>.<genexpr>Å  s   é € ÐeÒ$S˜qŸ™Ò$Sùs   ‚Œ	)Úlast_hidden_stater+   Ú
attentions)r   r  Úuse_return_dictrÛ   Ú	enumeraterþ   rÿ   r¤   Ú_gradient_checkpointing_funcÚ__call__Útupler
   )r&   r  r×   rž   rÛ   r  r  Úencoder_statesÚall_attentionsr+   ÚidxÚencoder_layerÚlayer_outputss                r(   r.   ÚMLCDEncoder.forward}  s:  € ðF %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐæ3™¸ˆÞ0™°dˆà%ˆÜ"+¨D¯K©KÖ"8ÑˆCÞ#Ø!/Ð2BÑ!BØ×*×*¨t¯}¯}Ø $× AÑ AØ!×*Ñ*Ø!Ø'Ø"Ø%ó!‘ñ !.Ø"/Ø(;Ø#1Ø&7ñ	!ð *¨!Ñ,ˆMç Ð Ø!/ÀÑ3CÐ2EÑ!E’ñ- #9ö0  Ø+Ð.>Ñ>ˆNæÜÑe ]ÀNÑ$SÓeÓeÐeÜØ+Ø(Ø%ñ
ð 	
r*   )r   rÿ   rþ   ©NNNN)r0   r1   r2   r3   rå   r   r   r   r4   r™   r   r5   r   r÷   r   r
   r.   r6   r7   r8   s   @r(   rù   rù   m  s»   ø† ñð,Ð/÷ ,ð ð
 26Ø,0Ø/3Ø&*ñL
à×(Ñ(ðL
ð # 5§<¡<°·±Ð#=Ñ>ðL
ð ! §¡Ñ.ð	L
ð
 $ D™>ðL
ð ' t™nðL
ð ˜d‘^ðL
ð 
ˆuoÐ%Ñ	&ôL
ó öL
r*   rù   c                   óš   ^ • \ rS rSrS\4U 4S jjr\    SS\\R                     S\\
   S\\
   S\\
   S\\\4   4
S	 jj5       rS
rU =r$ )ÚMLCDVisionTransformeriÍ  r   c                 óú  >• [         TU ]  5         Xl        UR                  n[	        U5      U l        [        R                  " X!R                  S9U l	        [        U5      U l        [        R                  " X!R                  S9U l        [        UR                  UR                  -  S-  5      U l        [        R                   " ["        R$                  " SUR                  UR                  -  S-  5      5      U l        g )Nré   r@   r   )r   r   r   r!   ra   rv   r   rì   rí   Úpre_layrnormrù   ÚencoderÚpost_layernormr:   rÌ   Úvision_rotary_embeddingrm   r4   rn   Úclass_pos_emb)r&   r   rj   r'   s      €r(   r   ÚMLCDVisionTransformer.__init__Î  s¼   ø€ Ü‰ÑÔØŒØ×&Ñ&ˆ	ä.¨vÓ6ˆŒÜŸLšL¨×8MÑ8MÑNˆÔÜ" 6Ó*ˆŒÜ Ÿlšl¨9×:OÑ:OÑPˆÔÜ':¸6×;MÑ;MÐQW×QkÑQkÑ;kÐopÑ;pÓ'qˆÔ$ÜŸ\š\¬%¯+ª+°a¸×9KÑ9KÈv×OiÑOiÑ9iÐmnÑ9nÓ*oÓpˆÕr*   r   rÛ   r  r  r,   c                 ó€  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  [	        S5      eUR
                  S   U R                   R                  -  nUR
                  S   U R                   R                  -  nU R                  XV5      nUR                  U R                  R                  5      n[        R                  " U R                  U/SS9n[        R                  " Xw4SS9nUR                  5       UR                  5       4n	U R                  U5      n
U R!                  U
5      n
U R#                  U
U	UUUS9nUS   nUS S 2SS S 24   nU R%                  U5      nU(       d	  XÍ4USS  -   $ ['        UUUR(                  UR*                  S9$ )	Nz You have to specify pixel_valuesr¢   rN   r   rO   )r  r×   rÛ   r  r  r   )r  Úpooler_outputr+   r  )r   r  r  rÛ   rÎ   r~   rl   r  r’   r   rM   r4   rˆ   r¿   rÀ   rv   r  r  r  r   r+   r  )r&   r   rÛ   r  r  rJ   rK   r\   Úembr×   r+   Úencoder_outputsr  Úpooled_outputs                 r(   r.   ÚMLCDVisionTransformer.forwardÚ  s¿  € ð %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐàÑÜÐ?Ó@Ð@à)×/Ñ/°Ñ3°t·{±{×7MÑ7MÑMÐØ(×.Ñ.¨rÑ2°d·k±k×6LÑ6LÑLÐØ×5Ñ5Ð6HÓ\ˆØ'×*Ñ*¨4×+=Ñ+=×+DÑ+DÓEˆÜŸš D×$6Ñ$6¸Ð#GÈQÑOˆÜiŠi˜Ð8¸bÑAˆØ"Ÿw™w›y¨#¯'©'«)Ð4ÐàŸ™¨Ó5ˆØ×)Ñ)¨-Ó8ˆàŸ,™,Ø'Ø 3Ø/Ø!5Ø#ð 'ð 
ˆð ,¨AÑ.ÐØ)ª!¨Q²¨'Ñ2ˆØ×+Ñ+¨MÓ:ˆæØ%Ð5¸ÈÈÐ8KÑKÐKä)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r*   )r   r   rv   r  r  r  r  r  )r0   r1   r2   r3   r   r   r   r   r4   r™   r÷   r   r   r   r.   r6   r7   r8   s   @r(   r  r  Í  s†   ø† ð
qÐ/÷ 
qð ð 59Ø,0Ø/3Ø&*ñ/
à˜u×0Ñ0Ñ1ð/
ð $ D™>ð/
ð ' t™nð	/
ð
 ˜d‘^ð/
ð 
ˆuÐ0Ð0Ñ	1ô/
ó ö/
r*   r  c                   ó.   • \ rS rSr\rSrSrSrSr	S r
Srg)ÚMLCDPreTrainedModeli  ÚmlcdTc                 óT  • U R                   R                  n[        U[        5      (       a™  U R                   R                  n[        R
                  R                  UR                  SUR                  S-  U-  S9  [        R
                  R                  UR                  R                  UR                   R                  U-  S9  g[        U[        5      (       Ga   U R                   R                  nUR                  S-  SUR                   R                  -  S-  -  U-  nUR                  S-  U-  n[        R
                  R                  UR                  R                  US9  [        R
                  R                  UR                  R                  US9  [        R
                  R                  UR                   R                  US9  [        R
                  R                  UR"                  R                  US9  g[        U[$        5      (       aÓ  U R                   R                  nUR                   R&                  S-  SUR                   R                  -  S-  -  U-  nSUR                   R&                  -  S-  U-  n[        R
                  R                  UR(                  R                  US9  [        R
                  R                  UR*                  R                  US9  g[        U[,        5      (       av  U R                   R                  nUR                   R&                  UR                   R.                  -  S-  S-  U-  n[        R
                  R                  UR0                  SUS9  g[        U[        R2                  5      (       aJ  UR4                  R6                  R9                  5         UR                  R6                  R;                  S5        g[        U[        R<                  5      (       a3  UR4                  b%  UR4                  R6                  R9                  5         ggg)zInitialize the weightsrÜ   rË   )ÚmeanÚstd)r-  r@   r?   N)r   Úinitializer_factorÚ
isinstancera   r   ÚinitÚnormal_ro   rj   rr   r€   Úinitializer_rangerÈ   rý   rÔ   rÒ   rÓ   rÕ   r   r!   r#   r$   r  rÌ   r   rì   rh   ÚdataÚzero_Úfill_r    )r&   rš   ÚfactorÚin_proj_stdÚout_proj_stdÚfc_stdÚpos_emb_stds          r(   Ú_init_weightsÚ!MLCDPreTrainedModel._init_weights  sð  € à—‘×/Ñ/ˆÜfÔ2×3Ñ3Ø—[‘[×3Ñ3ˆFÜG‰GO‰O˜F×2Ñ2¸À&×BRÑBRÐTXÑBXÐ[aÑBaˆOÑbÜG‰GO‰O˜F×2Ñ2×9Ñ9¸v¿}¹}×?^Ñ?^ÐagÑ?gˆOÒhÜ˜¤×.Ò.Ø—[‘[×3Ñ3ˆFØ!×+Ñ+¨TÑ1°q¸6¿=¹=×;ZÑ;ZÑ7ZÐ_cÑ6cÑdÐgmÑmˆKØ"×,Ñ,¨dÑ2°fÑ<ˆLÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸM™M×0Ñ0°kˆOÑBÜG‰GO‰O˜FŸO™O×2Ñ2¸ˆOÒEÜ˜¤×(Ñ(Ø—[‘[×3Ñ3ˆFØ!Ÿ=™=×4Ñ4°dÑ:ÀÀFÇMÁM×DcÑDcÑ@cÐhlÑ?lÑmÐpvÑvˆKØ˜&Ÿ-™-×3Ñ3Ñ3¸Ñ<¸vÑEˆFÜG‰GO‰O˜FŸJ™J×-Ñ-°6ˆOÑ:ÜG‰GO‰O˜FŸJ™J×-Ñ-°;ˆOÒ?Ü˜Ô 5×6Ñ6Ø—[‘[×3Ñ3ˆFØ!Ÿ=™=×4Ñ4¸¿¹×8YÑ8YÑYÐ]^Ñ^ÐcgÑgÐjpÑpˆKÜG‰GO‰O˜F×0Ñ0°sÀˆOÒLÜ˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜¤§	¡	×*Ñ*¨v¯{©{Ñ/FØK‰K×Ñ×"Ñ"Õ$ð 0GÐ*r*   r^   N)r0   r1   r2   r3   r   Úconfig_classÚbase_model_prefixÚsupports_gradient_checkpointingÚ_supports_flash_attn_2Ú_supports_sdpar;  r6   r^   r*   r(   r)  r)    s#   † à#€LØÐØ&*Ð#Ø!ÐØ€Nõ%r*   r)  zN
    The vision model from M_L_C_D without any head or projection on top.
    )Úcustom_introc                   óÊ   ^ • \ rS rSr\rSrS/rS\4U 4S jjrS\	R                  4S jr\    SS\\R                     S\\   S	\\   S
\\   S\\\4   4
S jj5       rSrU =r$ )ÚMLCDVisionModeli5  r   rç   r   c                 ód   >• [         TU ]  U5        [        U5      U l        U R	                  5         g r   )r   r   r  Úvision_modelÚ	post_initr%   s     €r(   r   ÚMLCDVisionModel.__init__?  s'   ø€ Ü‰Ñ˜Ô Ü1°&Ó9ˆÔà‰Õr*   r,   c                 óB   • U R                   R                  R                  $ r   )rF  rv   rr   )r&   s    r(   Úget_input_embeddingsÚ$MLCDVisionModel.get_input_embeddingsE  s   € Ø× Ñ ×+Ñ+×;Ñ;Ð;r*   rÛ   r  r  c                 óÈ   • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  UUUUS9$ )a"  
Example:

```python
>>> import requests
>>> from PIL import Image
>>> from transformers import AutoProcessor, MLCDVisionModel
>>> model = MLCDVisionModel.from_pretrained("DeepGlint-AI/mlcd-vit-bigG-patch14-448")
>>> processor = AutoProcessor.from_pretrained("DeepGlint-AI/mlcd-vit-bigG-patch14-448")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = processor(images=image, return_tensors="pt")

>>> with torch.no_grad():
...     outputs = model(**inputs, output_attentions=True)

>>> features = outputs.last_hidden_state
>>> print(f"Extracted features shape: {features.shape}")
>>> print(f"Number of attention layers: {len(outputs.attentions)}")
>>> print(f"Attention shape: {outputs.attentions[0].shape}")
```)r   rÛ   r  r  )r   r  r  rÛ   rF  )r&   r   rÛ   r  r  s        r(   r.   ÚMLCDVisionModel.forwardH  su   € ð> %9Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆØ1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà× Ñ Ø%Ø/Ø!5Ø#ð	 !ð 
ð 	
r*   )rF  r  )r0   r1   r2   r3   r   r=  Úmain_input_nameÚ_no_split_modulesr   r   ÚModulerJ  r   r   r4   r™   r÷   r   r   r   r.   r6   r7   r8   s   @r(   rD  rD  5  s©   ø† ð $€LØ$€OØ+Ð,ÐðÐ/÷ ð< b§i¡iô <ð ð 59Ø,0Ø/3Ø&*ñ(
à˜u×0Ñ0Ñ1ð(
ð $ D™>ð(
ð ' t™nð	(
ð
 ˜d‘^ð(
ð 
ˆuÐ0Ð0Ñ	1ô(
ó ö(
r*   rD  )rÜ   )0Útypingr   r   r   r   r4   Útorch.nnr   Úactivationsr   Úmodeling_flash_attention_utilsr	   Úmodeling_outputsr
   r   Úmodeling_utilsr   r   Úprocessing_utilsr   Úutilsr   r   r   r   Úconfiguration_mlcdr   Ú
get_loggerr0   rß   rP  r   r:   ra   r5   rG   r±   r¶   r_   r¥   rÆ   rÈ   rç   rù   r  r)  rD  Ú__all__r^   r*   r(   Ú<module>r\     sè  ð÷* 4Ó 3ã Ý å !Ý Bß Kß FÝ &ß IÓ IÝ 0ð 
×	Ò	˜HÓ	%€ôˆbi‰iô ô$˜"Ÿ)™)ô $ôNI˜2Ÿ9™9ô Iðf ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ò4(ð	U˜UŸ\™\ð 	U°#ð 	U¸%¿,¹,ô 	UðØ‡||ðØŸ™ðØ+0¯<©<ðØ>C¿l¹lðà
ˆ5<‰<˜Ÿ™Ð%Ñ&ôôQ)B—I‘Iô Q)ôh3r—y‘yô 3ôl]
"—)‘)ô ]
ô@=
˜BŸI™Iô =
ð@ ô$%˜/ó $%ó ð$%ñN ðñô
7
Ð)ó 7
óð
7
ðt !Ð"3Ð
4r*   