ó
    fT–h|ƒ  ã                   ó<  • S r SSKrSSKJrJrJrJrJrJ	r	J
r
  SSKrSSKrSSKJr  SSKJrJrJr  SSKJr  SSKJrJrJrJr  SS	KJrJr  SS
KJrJr  SSKJ r J!r!J"r"  SSK#J$r$  SSK%J&r&  \!RN                  " \(5      r) " S S\RT                  5      r+ " S S\RT                  5      r, S>S\RT                  S\RZ                  S\RZ                  S\RZ                  S\\RZ                     S\.S\.4S jjr/ " S S\RT                  5      r0 " S S\RT                  5      r1 " S S \RT                  5      r2 " S! S"\RT                  5      r3S?S#\RZ                  S$\.S%\4S&\RZ                  4S' jjr5 " S( S)\RT                  5      r6 " S* S+\RT                  5      r7 " S, S-\RT                  5      r8 " S. S/\RT                  5      r9 " S0 S1\RT                  5      r:\  " S2 S3\5      5       r;\  " S4 S5\;5      5       r<\ " S6S79 " S8 S9\;5      5       r=\ " S:S79 " S; S<\;\$5      5       r>/ S=Qr?g)@zPyTorch DINOv2 model.é    N)ÚCallableÚDictÚListÚOptionalÚSetÚTupleÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚACT2FN)ÚBackboneOutputÚBaseModelOutputÚBaseModelOutputWithPoolingÚImageClassifierOutput)ÚALL_ATTENTION_FUNCTIONSÚPreTrainedModel)Ú find_pruneable_heads_and_indicesÚprune_linear_layer)Úauto_docstringÚloggingÚ	torch_int)ÚBackboneMixiné   )ÚDinov2Configc                   óÖ   ^ • \ rS rSrSrS\SS4U 4S jjrS\R                  S\	S	\	S\R                  4S
 jr
SS\R                  S\\R                     S\R                  4S jjrSrU =r$ )ÚDinov2Embeddingsé%   zE
Construct the CLS token, mask token, position and patch embeddings.
ÚconfigÚreturnNc                 ó  >• [         TU ]  5         [        R                  " [        R
                  " SSUR                  5      5      U l        UR                  (       a:  [        R                  " [        R                  " SUR                  5      5      U l
        [        U5      U l        U R                  R                  n[        R                  " [        R
                  " SUS-   UR                  5      5      U l        [        R                  " UR                   5      U l        UR$                  U l        UR                  U l        Xl        g )Nr   )ÚsuperÚ__init__r
   Ú	ParameterÚtorchÚrandnÚhidden_sizeÚ	cls_tokenÚuse_mask_tokenÚzerosÚ
mask_tokenÚDinov2PatchEmbeddingsÚpatch_embeddingsÚnum_patchesÚposition_embeddingsÚDropoutÚhidden_dropout_probÚdropoutÚ
patch_sizer!   )Úselfr!   r0   Ú	__class__s      €Úb/var/www/auris/envauris/lib/python3.13/site-packages/transformers/models/dinov2/modeling_dinov2.pyr%   ÚDinov2Embeddings.__init__*   sØ   ø€ Ü‰ÑÔäŸš¤e§k¢k°!°Q¸×8JÑ8JÓ&KÓLˆŒØ× × Ü Ÿlšl¬5¯;ª;°q¸&×:LÑ:LÓ+MÓNˆDŒOÜ 5°fÓ =ˆÔØ×+Ñ+×7Ñ7ˆÜ#%§<¢<´·²¸A¸{ÈQ¹ÐPV×PbÑPbÓ0cÓ#dˆÔ Ü—z’z &×"<Ñ"<Ó=ˆŒØ ×+Ñ+ˆŒØ$×3Ñ3ˆÔØó    Ú
embeddingsÚheightÚwidthc                 ó  • UR                   S   S-
  nU R                  R                   S   S-
  n[        R                  R	                  5       (       d  XE:X  a  X#:X  a  U R                  $ U R                  SS2SS24   nU R                  SS2SS24   nUR                   S   nX R
                  -  n	X0R
                  -  n
[        US-  5      nUR                  SX»U5      nUR                  SSSS5      nUR                  n[        R                  R                  UR                  [        R                  5      Xš4SS	S
9R                  US9nUR                  SSSS5      R                  SSU5      n[        R                   " Xg4SS9$ )aý  
This method allows to interpolate the pre-trained position encodings, to be able to use the model on higher resolution
images. This method is also adapted to support torch.jit tracing and interpolation at torch.float32 precision.

Adapted from:
- https://github.com/facebookresearch/dino/blob/de9ee3df6cf39fac952ab558447af1fa1365362a/vision_transformer.py#L174-L194, and
- https://github.com/facebookresearch/dinov2/blob/e1277af2ba9496fbadf7aec6eba56e8d882d1e35/dinov2/models/vision_transformer.py#L179-L211
r   Néÿÿÿÿg      à?r   r   é   ÚbicubicF)ÚsizeÚmodeÚalign_corners©Údtype©Údim)Úshaper1   r'   ÚjitÚ
is_tracingr5   r   ÚreshapeÚpermuterF   r
   Ú
functionalÚinterpolateÚtoÚfloat32ÚviewÚcat)r6   r;   r<   r=   r0   Únum_positionsÚclass_pos_embedÚpatch_pos_embedrH   Ú
new_heightÚ	new_widthÚsqrt_num_positionsÚtarget_dtypes                r8   Úinterpolate_pos_encodingÚ)Dinov2Embeddings.interpolate_pos_encoding8   s~  € ð !×&Ñ& qÑ)¨AÑ-ˆØ×0Ñ0×6Ñ6°qÑ9¸AÑ=ˆô y‰y×#Ñ#×%Ñ%¨+Ó*FÈ6Ë?Ø×+Ñ+Ð+à×2Ñ2²1°b°q°b°5Ñ9ˆØ×2Ñ2²1°a±b°5Ñ9ˆà×Ñ˜rÑ"ˆàŸ™Ñ.ˆ
ØŸ_™_Ñ,ˆ	ä& }°cÑ'9Ó:ÐØ)×1Ñ1°!Ð5GÐ]`ÓaˆØ)×1Ñ1°!°Q¸¸1Ó=ˆØ&×,Ñ,ˆÜŸ-™-×3Ñ3Ø×ÑœuŸ}™}Ó-ØÐ(ØØð	 4ð 
÷
 ‰"<ˆ"Ð
 ð 	ð *×1Ñ1°!°Q¸¸1Ó=×BÑBÀ1ÀbÈ#ÓNˆäyŠy˜/Ð;ÀÑCÐCr:   Úpixel_valuesÚbool_masked_posc                 ó>  • UR                   u  p4pVU R                  R                  R                  R                  nU R                  UR                  US95      nUbj  U R                  (       aY  [        R                  " UR                  S5      U R                  R                  UR                  5      R                  S5      U5      nU R                  R                  USS5      n	[        R                  " X˜4SS9nX€R                  X…U5      -   nU R                  U5      nU$ )NrE   r?   r   r   rG   )rI   r/   Ú
projectionÚweightrF   rP   r+   r'   ÚwhereÚ	unsqueezer-   r*   ÚexpandrS   r[   r4   )
r6   r]   r^   Ú
batch_sizeÚ_r<   r=   rZ   r;   Ú
cls_tokenss
             r8   ÚforwardÚDinov2Embeddings.forward`   só   € Ø'3×'9Ñ'9Ñ$ˆ
vØ×,Ñ,×7Ñ7×>Ñ>×DÑDˆØ×*Ñ*¨<¯?©?À¨?Ð+NÓOˆ
àÑ&¨4×+>×+>ÜŸšØ×)Ñ)¨"Ó-¨t¯©×/AÑ/AÀ*×BRÑBRÓ/S×/]Ñ/]Ð^_Ó/`ÐblóˆJð
 —^‘^×*Ñ*¨:°r¸2Ó>ˆ
Ü—Y’Y 
Ð7¸QÑ?ˆ
ð  ×"?Ñ"?À
ÐTYÓ"ZÑZˆ
à—\‘\ *Ó-ˆ
àÐr:   )r*   r!   r4   r-   r/   r5   r1   r+   ©N)Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r   r%   r'   ÚTensorÚintr[   r   rh   Ú__static_attributes__Ú__classcell__©r7   s   @r8   r   r   %   s   ø† ñð˜|ð °÷ ð&D°5·<±<ð &DÈð &DÐUXð &DÐ]b×]iÑ]iô &DñP E§L¡Lð À8ÈEÏLÉLÑCYð Ðej×eqÑeq÷ ó r:   r   c                   óf   ^ • \ rS rSrSrU 4S jrS\R                  S\R                  4S jrSr	U =r
$ )r.   év   zÜ
This class turns `pixel_values` of shape `(batch_size, num_channels, height, width)` into the initial
`hidden_states` (patch embeddings) of shape `(batch_size, seq_length, hidden_size)` to be consumed by a
Transformer.
c                 óÈ  >• [         TU ]  5         UR                  UR                  p2UR                  UR
                  pT[        U[        R                  R                  5      (       a  UOX"4n[        U[        R                  R                  5      (       a  UOX34nUS   US   -  US   US   -  -  nX l        X0l        X@l        X`l
        [        R                  " XEX3S9U l        g )Nr   r   )Úkernel_sizeÚstride)r$   r%   Ú
image_sizer5   Únum_channelsr)   Ú
isinstanceÚcollectionsÚabcÚIterabler0   r
   ÚConv2dr`   )r6   r!   rz   r5   r{   r)   r0   r7   s          €r8   r%   ÚDinov2PatchEmbeddings.__init__}   sÃ   ø€ Ü‰ÑÔØ!'×!2Ñ!2°F×4EÑ4EJØ$*×$7Ñ$7¸×9KÑ9Kkä#-¨j¼+¿/¹/×:RÑ:R×#SÑ#S‘ZÐZdÐYqˆ
Ü#-¨j¼+¿/¹/×:RÑ:R×#SÑ#S‘ZÐZdÐYqˆ
Ø! !‘}¨
°1©Ñ5¸*ÀQ¹-È:ÐVWÉ=Ñ:XÑYˆØ$ŒØ$ŒØ(ÔØ&ÔäŸ)š) LÈ:Ñiˆr:   r]   r"   c                 óÚ   • UR                   S   nX R                  :w  a  [        SU R                   SU S35      eU R                  U5      R	                  S5      R                  SS5      nU$ )Nr   zoMake sure that the channel dimension of the pixel values match with the one set in the configuration. Expected z	 but got Ú.r@   )rI   r{   Ú
ValueErrorr`   ÚflattenÚ	transpose)r6   r]   r{   r;   s       r8   rh   ÚDinov2PatchEmbeddings.forwardŒ   sx   € Ø#×)Ñ)¨!Ñ,ˆØ×,Ñ,Ó,ÜðØ!×.Ñ.Ð/¨y¸¸ÀaðIóð ð —_‘_ \Ó2×:Ñ:¸1Ó=×GÑGÈÈ1ÓMˆ
ØÐr:   )rz   r{   r0   r5   r`   )rk   rl   rm   rn   ro   r%   r'   rp   rh   rr   rs   rt   s   @r8   r.   r.   v   s.   ø† ñõjð E§L¡Lð °U·\±\÷ ò r:   r.   ÚmoduleÚqueryÚkeyÚvalueÚattention_maskÚscalingr4   c                 ó°  • [         R                  " XR                  SS5      5      U-  n[        R                  R                  US[         R                  S9R                  UR                  5      n[        R                  R                  X†U R                  S9nUb  X„-  n[         R                  " Xƒ5      n	U	R                  SS5      R                  5       n	X˜4$ )Nr?   éþÿÿÿ)rH   rF   )ÚpÚtrainingr   r@   )r'   Úmatmulr†   r
   rN   ÚsoftmaxrQ   rP   rF   r4   r‘   Ú
contiguous)
rˆ   r‰   rŠ   r‹   rŒ   r   r4   ÚkwargsÚattn_weightsÚattn_outputs
             r8   Úeager_attention_forwardr˜   ˜   s¶   € ô —<’< §}¡}°R¸Ó'<Ó=ÀÑG€Lô —=‘=×(Ñ(¨¸2ÄUÇ]Á]Ð(ÐS×VÑVÐW\×WbÑWbÓc€Lô —=‘=×(Ñ(¨È6Ï?É?Ð(Ð[€Lð Ñ!Ø#Ñ4ˆä—,’,˜|Ó3€KØ×'Ñ'¨¨1Ó-×8Ñ8Ó:€KàÐ$Ð$r:   c            
       óú   ^ • \ rS rSrS\SS4U 4S jjrS\R                  S\R                  4S jr SS\	\R                     S	\
S\\\R                  \R                  4   \\R                     4   4S
 jjrSrU =r$ )ÚDinov2SelfAttentioné·   r!   r"   Nc                 ó0  >• [         TU ]  5         UR                  UR                  -  S:w  a7  [	        US5      (       d&  [        SUR                   SUR                   S35      eXl        UR                  U l        [        UR                  UR                  -  5      U l        U R                  U R                  -  U l	        UR                  U l        U R                  S-  U l        SU l        [        R                  " UR                  U R                  UR                   S9U l        [        R                  " UR                  U R                  UR                   S9U l        [        R                  " UR                  U R                  UR                   S9U l        g )	Nr   Úembedding_sizezThe hidden size z4 is not a multiple of the number of attention heads rƒ   g      à¿F©Úbias)r$   r%   r)   Únum_attention_headsÚhasattrr„   r!   rq   Úattention_head_sizeÚall_head_sizeÚattention_probs_dropout_probÚdropout_probr   Ú	is_causalr
   ÚLinearÚqkv_biasr‰   rŠ   r‹   ©r6   r!   r7   s     €r8   r%   ÚDinov2SelfAttention.__init__¸   sG  ø€ Ü‰ÑÔØ×Ñ × :Ñ :Ñ:¸aÓ?ÌÐPVÐXh×HiÑHiÜØ" 6×#5Ñ#5Ð"6ð 7Ø×3Ñ3Ð4°Að7óð ð
 ŒØ#)×#=Ñ#=ˆÔ Ü#& v×'9Ñ'9¸F×<VÑ<VÑ'VÓ#WˆÔ Ø!×5Ñ5¸×8PÑ8PÑPˆÔØ"×?Ñ?ˆÔØ×/Ñ/°Ñ5ˆŒØˆŒä—Y’Y˜v×1Ñ1°4×3EÑ3EÈFÏOÉOÑ\ˆŒ
Ü—9’9˜V×/Ñ/°×1CÑ1CÈ&Ï/É/ÑZˆŒÜ—Y’Y˜v×1Ñ1°4×3EÑ3EÈFÏOÉOÑ\ˆ
r:   Úxc                 ó¤   • UR                  5       S S U R                  U R                  4-   nUR                  U5      nUR	                  SSSS5      $ )Nr?   r   r@   r   r   )rB   r    r¢   rR   rM   )r6   r«   Únew_x_shapes      r8   Útranspose_for_scoresÚ(Dinov2SelfAttention.transpose_for_scoresÌ   sL   € Ø—f‘f“h˜s m t×'?Ñ'?À×AYÑAYÐ&ZÑZˆØF‰F;ÓˆØy‰y˜˜A˜q !Ó$Ð$r:   Ú	head_maskÚoutput_attentionsc                 ó°  • U R                  U R                  U5      5      nU R                  U R                  U5      5      nU R                  U R                  U5      5      n[        nU R
                  R                  S:w  aT  U R
                  R                  S:X  a  U(       a  [        R                  S5        O[        U R
                  R                     nU" U UUUUU R                  U R                  U R                  (       d  SOU R                  S9u  p‰UR                  5       S S U R                  4-   n
UR!                  U
5      nU(       a  X‰4nU$ U4nU$ )NÚeagerÚsdpazã`torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to eager attention. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.ç        )r¦   r   r4   r   )r®   rŠ   r‹   r‰   r˜   r!   Ú_attn_implementationÚloggerÚwarning_oncer   r¦   r   r‘   r¥   rB   r£   rL   )r6   Úhidden_statesr°   r±   Ú	key_layerÚvalue_layerÚquery_layerÚattention_interfaceÚcontext_layerÚattention_probsÚnew_context_layer_shapeÚoutputss               r8   rh   ÚDinov2SelfAttention.forwardÑ   s9  € ð ×-Ñ-¨d¯h©h°}Ó.EÓFˆ	Ø×/Ñ/°·
±
¸=Ó0IÓJˆØ×/Ñ/°·
±
¸=Ó0IÓJˆä(?ÐØ;‰;×+Ñ+¨wÓ6Ø{‰{×/Ñ/°6Ó9Ö>OÜ×#Ñ#ðLõô
 '>¸d¿k¹k×>^Ñ>^Ñ&_Ð#á)<ØØØØØØ—n‘nØ—L‘LØ#Ÿ}Ÿ}‘C°$×2CÑ2Cñ	*
Ñ&ˆð #0×"4Ñ"4Ó"6°s¸Ð";¸t×?QÑ?QÐ>SÑ"SÐØ%×-Ñ-Ð.EÓFˆæ6G=Ð2ˆàˆð O\ÐM]ˆàˆr:   )
r£   r¢   r!   r¥   r¦   rŠ   r    r‰   r   r‹   ©NF)rk   rl   rm   rn   r   r%   r'   rp   r®   r   Úboolr	   r   rh   rr   rs   rt   s   @r8   rš   rš   ·   s‹   ø† ð]˜|ð ]°÷ ]ð(% e§l¡lð %°u·|±|ô %ð bgñ!Ø(0°·±Ñ(>ð!ØZ^ð!à	ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷!ó !r:   rš   c                   óŠ   ^ • \ rS rSrSrS\SS4U 4S jjrS\R                  S\R                  S\R                  4S	 jr	S
r
U =r$ )ÚDinov2SelfOutputéö   z—
The residual connection is defined in Dinov2Layer instead of here (as is the case with other models), due to the
layernorm applied before each block.
r!   r"   Nc                 óÌ   >• [         TU ]  5         [        R                  " UR                  UR                  5      U l        [        R                  " UR                  5      U l        g rj   )	r$   r%   r
   r§   r)   Údenser2   r3   r4   r©   s     €r8   r%   ÚDinov2SelfOutput.__init__ü   sB   ø€ Ü‰ÑÔÜ—Y’Y˜v×1Ñ1°6×3EÑ3EÓFˆŒ
Ü—z’z &×"<Ñ"<Ó=ˆr:   r¹   Úinput_tensorc                 óJ   • U R                  U5      nU R                  U5      nU$ rj   ©rÉ   r4   )r6   r¹   rË   s      r8   rh   ÚDinov2SelfOutput.forward  s$   € ØŸ
™
 =Ó1ˆØŸ™ ]Ó3ˆàÐr:   rÍ   )rk   rl   rm   rn   ro   r   r%   r'   rp   rh   rr   rs   rt   s   @r8   rÆ   rÆ   ö   sI   ø† ñð
>˜|ð >°÷ >ð
 U§\¡\ð ÀÇÁð ÐRW×R^ÑR^÷ ò r:   rÆ   c                   óò   ^ • \ rS rSrS\SS4U 4S jjrS\\   SS4S jr  SS\	R                  S	\\	R                     S
\S\\\	R                  \	R                  4   \\	R                     4   4S jjrSrU =r$ )ÚDinov2Attentioni	  r!   r"   Nc                 ó€   >• [         TU ]  5         [        U5      U l        [	        U5      U l        [        5       U l        g rj   )r$   r%   rš   Ú	attentionrÆ   ÚoutputÚsetÚpruned_headsr©   s     €r8   r%   ÚDinov2Attention.__init__
  s0   ø€ Ü‰ÑÔÜ,¨VÓ4ˆŒÜ& vÓ.ˆŒÜ›EˆÕr:   Úheadsc                 ó6  • [        U5      S:X  a  g [        XR                  R                  U R                  R                  U R
                  5      u  p[        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l        [        U R                  R                  U5      U R                  l	        [        U R                  R                  USS9U R                  l        U R                  R                  [        U5      -
  U R                  l        U R                  R                  U R                  R                  -  U R                  l        U R
                  R                  U5      U l        g )Nr   r   rG   )Úlenr   rÒ   r    r¢   rÕ   r   r‰   rŠ   r‹   rÓ   rÉ   r£   Úunion)r6   r×   Úindexs      r8   Úprune_headsÚDinov2Attention.prune_heads  s  € Üˆu‹:˜‹?ØÜ7Ø—>‘>×5Ñ5°t·~±~×7YÑ7YÐ[_×[lÑ[ló
‰ˆô
  2°$·.±.×2FÑ2FÈÓNˆ‰ÔÜ/°·±×0BÑ0BÀEÓJˆ‰ÔÜ1°$·.±.×2FÑ2FÈÓNˆ‰ÔÜ.¨t¯{©{×/@Ñ/@À%ÈQÑOˆ‰Ôð .2¯^©^×-OÑ-OÔRUÐV[ÓR\Ñ-\ˆ‰Ô*Ø'+§~¡~×'IÑ'IÈDÏNÉN×LnÑLnÑ'nˆ‰Ô$Ø ×-Ñ-×3Ñ3°EÓ:ˆÕr:   r¹   r°   r±   c                 óf   • U R                  XU5      nU R                  US   U5      nU4USS  -   nU$ )Nr   r   )rÒ   rÓ   )r6   r¹   r°   r±   Úself_outputsÚattention_outputrÁ   s          r8   rh   ÚDinov2Attention.forward"  sC   € ð —~‘~ mÐ@QÓRˆàŸ;™; |°A¡¸ÓFÐà#Ð%¨°Q°RÐ(8Ñ8ˆØˆr:   )rÒ   rÓ   rÕ   rÃ   )rk   rl   rm   rn   r   r%   r   rq   rÜ   r'   rp   r   rÄ   r	   r   rh   rr   rs   rt   s   @r8   rÐ   rÐ   	  s—   ø† ð"˜|ð "°÷ "ð;  S¡ð ;¨dô ;ð* -1Ø"'ñ	à—|‘|ðð ˜EŸL™LÑ)ðð  ð	ð
 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷ó r:   rÐ   c                   óf   ^ • \ rS rSrSU 4S jjrS\R                  S\R                  4S jrSrU =r	$ )ÚDinov2LayerScalei0  r"   c                 ó®   >• [         TU ]  5         [        R                  " UR                  [
        R                  " UR                  5      -  5      U l        g rj   )	r$   r%   r
   r&   Úlayerscale_valuer'   Úonesr)   Úlambda1r©   s     €r8   r%   ÚDinov2LayerScale.__init__1  s8   ø€ Ü‰ÑÔÜ—|’| F×$;Ñ$;¼e¿jºjÈ×I[ÑI[Ó>\Ñ$\Ó]ˆr:   Úhidden_statec                 ó   • XR                   -  $ rj   ©rç   ©r6   ré   s     r8   rh   ÚDinov2LayerScale.forward5  s   € ØŸl™lÑ*Ð*r:   rë   ©r"   N©
rk   rl   rm   rn   r%   r'   rp   rh   rr   rs   rt   s   @r8   rã   rã   0  s)   ø† ÷^ð+ E§L¡Lð +°U·\±\÷ +ò +r:   rã   ÚinputÚ	drop_probr‘   r"   c                 ó  • US:X  d  U(       d  U $ SU-
  nU R                   S   4SU R                  S-
  -  -   nU[        R                  " X@R                  U R
                  S9-   nUR                  5         U R                  U5      U-  nU$ )a*  
Drop paths (Stochastic Depth) per sample (when applied in main path of residual blocks).

Comment by Ross Wightman: This is the same as the DropConnect impl I created for EfficientNet, etc networks,
however, the original name is misleading as 'Drop Connect' is a different form of dropout in a separate paper...
See discussion: https://github.com/tensorflow/tpu/issues/494#issuecomment-532968956 ... I've opted for changing the
layer and argument names to 'drop path' rather than mix DropConnect as a layer name and use 'survival rate' as the
argument.
rµ   r   r   )r   )rF   Údevice)rI   Úndimr'   ÚrandrF   ró   Úfloor_Údiv)rð   rñ   r‘   Ú	keep_probrI   Úrandom_tensorrÓ   s          r8   Ú	drop_pathrú   :  s   € ð CÓžxØˆØI‘€IØ[‰[˜‰^Ð ¨¯
©
°Q©Ñ 7Ñ7€EØ¤§
¢
¨5¿¹ÈEÏLÉLÑ YÑY€MØ×ÑÔØY‰YyÓ! MÑ1€FØ€Mr:   c                   óŠ   ^ • \ rS rSrSrSS\\   SS4U 4S jjjrS\R                  S\R                  4S jr
S\4S	 jrS
rU =r$ )ÚDinov2DropPathiO  zXDrop paths (Stochastic Depth) per sample (when applied in main path of residual blocks).Nrñ   r"   c                 ó.   >• [         TU ]  5         Xl        g rj   )r$   r%   rñ   )r6   rñ   r7   s     €r8   r%   ÚDinov2DropPath.__init__R  s   ø€ Ü‰ÑÔØ"r:   r¹   c                 óB   • [        XR                  U R                  5      $ rj   )rú   rñ   r‘   )r6   r¹   s     r8   rh   ÚDinov2DropPath.forwardV  s   € Ü˜¯©¸¿¹ÓFÐFr:   c                 ó8   • SR                  U R                  5      $ )Nzp={})Úformatrñ   ©r6   s    r8   Ú
extra_reprÚDinov2DropPath.extra_reprY  s   € Ø}‰}˜TŸ^™^Ó,Ð,r:   )rñ   rj   )rk   rl   rm   rn   ro   r   Úfloatr%   r'   rp   rh   Ústrr  rr   rs   rt   s   @r8   rü   rü   O  sQ   ø† Ùbñ# (¨5¡/ð #¸T÷ #ð #ðG U§\¡\ð G°e·l±lô Gð-˜C÷ -ò -r:   rü   c                   óf   ^ • \ rS rSrSU 4S jjrS\R                  S\R                  4S jrSrU =r	$ )Ú	Dinov2MLPi]  r"   c                 óz  >• [         TU ]  5         UR                  =p#[        UR                  UR                  -  5      n[
        R                  " X$SS9U l        [        UR                  [        5      (       a  [        UR                     U l        OUR                  U l        [
        R                  " XCSS9U l        g )NTrž   )r$   r%   r)   rq   Ú	mlp_ratior
   r§   Úfc1r|   Ú
hidden_actr  r   Ú
activationÚfc2©r6   r!   Úin_featuresÚout_featuresÚhidden_featuresr7   s        €r8   r%   ÚDinov2MLP.__init__^  s   ø€ Ü‰ÑÔØ%+×%7Ñ%7Ð7ˆÜ˜f×0Ñ0°6×3CÑ3CÑCÓDˆÜ—9’9˜[ÀÑEˆŒÜf×'Ñ'¬×-Ñ-Ü$ V×%6Ñ%6Ñ7ˆDOà$×/Ñ/ˆDŒOÜ—9’9˜_ÀÑFˆr:   ré   c                 ól   • U R                  U5      nU R                  U5      nU R                  U5      nU$ rj   )r  r  r  rì   s     r8   rh   ÚDinov2MLP.forwardi  s2   € Ø—x‘x Ó-ˆØ—‘ |Ó4ˆØ—x‘x Ó-ˆØÐr:   )r  r  r  rî   rï   rt   s   @r8   r	  r	  ]  s)   ø† ÷	Gð E§L¡Lð °U·\±\÷ ò r:   r	  c                   óf   ^ • \ rS rSrSU 4S jjrS\R                  S\R                  4S jrSrU =r	$ )ÚDinov2SwiGLUFFNip  r"   c                 ó$  >• [         TU ]  5         UR                  =p#[        UR                  UR                  -  5      n[        US-  S-  5      S-   S-  S-  n[
        R                  " USU-  SS9U l        [
        R                  " XCSS9U l        g )Nr@   r   é   é   Trž   )	r$   r%   r)   rq   r  r
   r§   Ú
weights_inÚweights_outr  s        €r8   r%   ÚDinov2SwiGLUFFN.__init__q  s†   ø€ Ü‰ÑÔØ%+×%7Ñ%7Ð7ˆÜ˜f×0Ñ0°6×3CÑ3CÑCÓDˆÜ˜°Ñ2°QÑ6Ó7¸!Ñ;ÀÑAÀAÑEˆäŸ)š) K°°_Ñ1DÈ4ÑPˆŒÜŸ9š9 _ÈÑNˆÕr:   ré   c                 ó®   • U R                  U5      nUR                  SSS9u  p#[        R                  R	                  U5      U-  nU R                  U5      $ )Nr@   r?   rG   )r  Úchunkr
   rN   Úsilur  )r6   ré   Úx1Úx2Úhiddens        r8   rh   ÚDinov2SwiGLUFFN.forwardz  sQ   € Ø—‘ |Ó4ˆØ×#Ñ# A¨2Ð#Ð.‰ˆÜ—‘×#Ñ# BÓ'¨"Ñ,ˆØ×Ñ Ó'Ð'r:   )r  r  rî   rï   rt   s   @r8   r  r  p  s)   ø† ÷Oð( E§L¡Lð (°U·\±\÷ (ò (r:   r  c                   óÞ   ^ • \ rS rSrSrS\SS4U 4S jjr  SS\R                  S\	\R                     S	\
S\\\R                  \R                  4   \\R                     4   4S
 jjrSrU =r$ )ÚDinov2Layeri  zCThis corresponds to the Block class in the original implementation.r!   r"   Nc                 ó  >• [         TU ]  5         [        R                  " UR                  UR
                  S9U l        [        U5      U l        [        U5      U l
        UR                  S:”  a  [        UR                  5      O[        R                  " 5       U l        [        R                  " UR                  UR
                  S9U l        UR                   (       a  [#        U5      U l        O['        U5      U l        [        U5      U l        g )N©Úepsrµ   )r$   r%   r
   Ú	LayerNormr)   Úlayer_norm_epsÚnorm1rÐ   rÒ   rã   Úlayer_scale1Údrop_path_raterü   ÚIdentityrú   Únorm2Úuse_swiglu_ffnr  Úmlpr	  Úlayer_scale2r©   s     €r8   r%   ÚDinov2Layer.__init__„  s½   ø€ Ü‰ÑÔä—\’\ &×"4Ñ"4¸&×:OÑ:OÑPˆŒ
Ü(¨Ó0ˆŒÜ,¨VÓ4ˆÔØBH×BWÑBWÐZ]ÓB]œ¨×(=Ñ(=Ô>Ôce×cnÒcnÓcpˆŒä—\’\ &×"4Ñ"4¸&×:OÑ:OÑPˆŒ
à× × Ü& vÓ.ˆDHä  Ó(ˆDŒHÜ,¨VÓ4ˆÕr:   r¹   r°   r±   c                 ó>  • U R                  U R                  U5      UUS9nUS   nU R                  U5      nUSS  nU R                  U5      U-   nU R	                  U5      nU R                  U5      nU R                  U5      nU R                  U5      U-   nU4U-   nU$ )N)r±   r   r   )rÒ   r-  r.  rú   r1  r3  r4  )r6   r¹   r°   r±   Úself_attention_outputsrà   rÁ   Úlayer_outputs           r8   rh   ÚDinov2Layer.forward”  s¿   € ð "&§¡ØJ‰J}Ó%ØØ/ð "0ð "
Ðð
 2°!Ñ4Ðà×,Ñ,Ð-=Ó>ÐØ(¨¨Ð,ˆð Ÿ™Ð'7Ó8¸=ÑHˆð —z‘z -Ó0ˆØ—x‘x Ó-ˆØ×(Ñ(¨Ó6ˆð —~‘~ lÓ3°mÑCˆà/ GÑ+ˆàˆr:   )rÒ   rú   r.  r4  r3  r-  r1  rÃ   )rk   rl   rm   rn   ro   r   r%   r'   rp   r   rÄ   r	   r   rh   rr   rs   rt   s   @r8   r'  r'    sƒ   ø† ÙMð5˜|ð 5°÷ 5ð& -1Ø"'ñ	à—|‘|ðð ˜EŸL™LÑ)ðð  ð	ð
 
ˆuU—\‘\ 5§<¡<Ð/Ñ0°%¸¿¹Ñ2EÐEÑ	F÷ó r:   r'  c                   óš   ^ • \ rS rSrS\SS4U 4S jjr    SS\R                  S\\R                     S\	S	\	S
\	S\
\\4   4S jjrSrU =r$ )ÚDinov2Encoderiµ  r!   r"   Nc                 óÖ   >• [         TU ]  5         Xl        [        R                  " [        UR                  5       Vs/ s H  n[        U5      PM     sn5      U l        SU l	        g s  snf rÃ   )
r$   r%   r!   r
   Ú
ModuleListÚrangeÚnum_hidden_layersr'  ÚlayerÚgradient_checkpointing©r6   r!   rf   r7   s      €r8   r%   ÚDinov2Encoder.__init__¶  sR   ø€ Ü‰ÑÔØŒÜ—]’]ÄÀv×G_ÑG_ÔA`Ó#aÒA`¸A¤K°Ö$7ÑA`Ñ#aÓbˆŒ
Ø&+ˆÕ#ùò $bs   ½A&r¹   r°   r±   Úoutput_hidden_statesÚreturn_dictc                 ó¸  • U(       a  SOS nU(       a  SOS n[        U R                  5       Hz  u  p‰U(       a  Xa4-   nUb  X(   OS n
U R                  (       a0  U R                  (       a  U R	                  U	R
                  UU
U5      nO	U	" XU5      nUS   nU(       d  Mr  X{S   4-   nM|     U(       a  Xa4-   nU(       d  [        S XU4 5       5      $ [        UUUS9$ )N© r   r   c              3   ó.   #   • U  H  oc  M  Uv •  M     g 7frj   rG  )Ú.0Úvs     r8   Ú	<genexpr>Ú(Dinov2Encoder.forward.<locals>.<genexpr>à  s   é € ÐmÒ$[˜qŸ™Ò$[ùs   ‚Œ	)Úlast_hidden_stater¹   Ú
attentions)Ú	enumerater@  rA  r‘   Ú_gradient_checkpointing_funcÚ__call__Útupler   )r6   r¹   r°   r±   rD  rE  Úall_hidden_statesÚall_self_attentionsÚiÚlayer_moduleÚlayer_head_maskÚlayer_outputss               r8   rh   ÚDinov2Encoder.forward¼  sì   € ö #7™B¸DÐÞ$5™b¸4Ðä(¨¯©Ö4‰OˆAÞ#Ø$5Ð8HÑ$HÐ!à.7Ñ.C˜išlÈˆOà×*×*¨t¯}¯}Ø $× AÑ AØ ×)Ñ)Ø!Ø#Ø%ó	!‘ñ !-¨]ÐM^Ó _à)¨!Ñ,ˆMç Ð Ø&9È1Ñ=MÐ<OÑ&OÒ#ñ'  5ö*  Ø 1Ð4DÑ DÐæÜÑm ]ÐGZÑ$[ÓmÓmÐmÜØ+Ø+Ø*ñ
ð 	
r:   )r!   rA  r@  )NFFT)rk   rl   rm   rn   r   r%   r'   rp   r   rÄ   r	   rR  r   rh   rr   rs   rt   s   @r8   r;  r;  µ  s   ø† ð,˜|ð ,°÷ ,ð -1Ø"'Ø%*Ø ñ)
à—|‘|ð)
ð ˜EŸL™LÑ)ð)
ð  ð	)
ð
 #ð)
ð ð)
ð 
ˆuoÐ%Ñ	&÷)
ó )
r:   r;  c                   óŒ   • \ rS rSr\rSrSrSrS/r	Sr
SrS\\R                  \R                  \R                   4   SS4S	 jrS
rg)ÚDinov2PreTrainedModeliè  Údinov2r]   Tr  rˆ   r"   Nc                 ój  • [        U[        R                  [        R                  45      (       aÉ  [        R                  R                  UR                  R                  R                  [        R                  5      SU R                  R                  S9R                  UR                  R                  5      UR                  l        UR                  b%  UR                  R                  R                  5         gg[        U[        R                   5      (       aJ  UR                  R                  R                  5         UR                  R                  R#                  S5        g[        U[$        5      (       Gam  [        R                  R                  UR&                  R                  R                  [        R                  5      SU R                  R                  S9R                  UR&                  R                  5      UR&                  l        [        R                  R                  UR(                  R                  R                  [        R                  5      SU R                  R                  S9R                  UR(                  R                  5      UR(                  l        U R                  R*                  (       a%  UR,                  R                  R                  5         gg[        U[.        5      (       a:  UR0                  R                  R#                  U R                  R2                  5        gg)zInitialize the weightsrµ   )ÚmeanÚstdNg      ð?)r|   r
   r§   r€   ÚinitÚtrunc_normal_ra   ÚdatarP   r'   rQ   r!   Úinitializer_rangerF   rŸ   Úzero_r+  Úfill_r   r1   r*   r+   r-   rã   rç   rå   )r6   rˆ   s     r8   Ú_init_weightsÚ#Dinov2PreTrainedModel._init_weightsò  s-  € äfœrŸy™y¬"¯)©)Ð4×5Ñ5ô "$§¡×!6Ñ!6Ø—‘×"Ñ"×%Ñ%¤e§m¡mÓ4¸3ÀDÇKÁK×DaÑDað "7ð "ç‰b—‘×$Ñ$Ó%ð M‰MÔð {‰{Ñ&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡×-Ñ-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)Ü˜Ô 0×1Ò1Ü.0¯g©g×.CÑ.CØ×*Ñ*×/Ñ/×2Ñ2´5·=±=ÓAØØ—K‘K×1Ñ1ð /Dð /÷ ‰b×+Ñ+×1Ñ1Ó2ð	 ×&Ñ&Ô+ô %'§G¡G×$9Ñ$9Ø× Ñ ×%Ñ%×(Ñ(¬¯©Ó7ØØ—K‘K×1Ñ1ð %:ð %÷ ‰b×!Ñ!×'Ñ'Ó(ð	 ×ÑÔ!ð {‰{×)×)Ø×!Ñ!×&Ñ&×,Ñ,Õ.ð *ä˜Ô 0×1Ñ1ØN‰N×Ñ×%Ñ% d§k¡k×&BÑ&BÕCð 2r:   rG  )rk   rl   rm   rn   r   Úconfig_classÚbase_model_prefixÚmain_input_nameÚsupports_gradient_checkpointingÚ_no_split_modulesÚ_supports_sdpaÚ_supports_flash_attn_2r	   r
   r§   r€   r+  rf  rr   rG  r:   r8   r[  r[  è  s[   † à€LØ ÐØ$€OØ&*Ð#Ø*Ð+ÐØ€NØ!ÐðD E¨"¯)©)°R·Y±YÀÇÁÐ*LÑ$Mð DÐRV÷ Dr:   r[  c                   ó
  ^ • \ rS rSrS\4U 4S jjrS\4S jrS\\	\
\	   4   SS4S jr\      SS	\\R                     S
\\R                     S\\R                     S\\   S\\   S\\   S\\\4   4S jj5       rSrU =r$ )ÚDinov2Modeli  r!   c                 óì   >• [         TU ]  U5        Xl        [        U5      U l        [        U5      U l        [        R                  " UR                  UR                  S9U l        U R                  5         g )Nr)  )r$   r%   r!   r   r;   r;  Úencoderr
   r+  r)   r,  Ú	layernormÚ	post_initr©   s     €r8   r%   ÚDinov2Model.__init__  sW   ø€ Ü‰Ñ˜Ô ØŒä*¨6Ó2ˆŒÜ$ VÓ,ˆŒäŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒð 	‰Õr:   r"   c                 ó.   • U R                   R                  $ rj   ©r;   r/   r  s    r8   Úget_input_embeddingsÚ Dinov2Model.get_input_embeddings   ó   € Ø‰×/Ñ/Ð/r:   Úheads_to_pruneNc                 óš   • UR                  5        H7  u  p#U R                  R                  U   R                  R	                  U5        M9     g)z…
Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
class PreTrainedModel
N)Úitemsrr  r@  rÒ   rÜ   )r6   r{  r@  r×   s       r8   Ú_prune_headsÚDinov2Model._prune_heads#  s<   € ð
 +×0Ñ0Ö2‰LˆEØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÖBò 3r:   r]   r^   r°   r±   rD  rE  c                 óô  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  [	        S5      eU R                  X0R                   R                  5      nU R                  XS9nU R                  UUUUUS9nUS   n	U R                  U	5      n	U	SS2SSS24   n
U(       d
  Xš4nX¸SS -   $ [        U	U
UR                  UR                  S9$ )zÏ
bool_masked_pos (`torch.BoolTensor` of shape `(batch_size, sequence_length)`):
    Boolean masked positions. Indicates which patches are masked (1) and which aren't (0). Only relevant for
    pre-training.
Nz You have to specify pixel_values)r^   ©r°   r±   rD  rE  r   r   )rM  Úpooler_outputr¹   rN  )r!   r±   rD  Úuse_return_dictr„   Úget_head_maskr?  r;   rr  rs  r   r¹   rN  )r6   r]   r^   r°   r±   rD  rE  Úembedding_outputÚencoder_outputsÚsequence_outputÚpooled_outputÚhead_outputss               r8   rh   ÚDinov2Model.forward+  s  € ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆàÑÜÐ?Ó@Ð@ð ×&Ñ& y·+±+×2OÑ2OÓPˆ	àŸ?™?¨<˜?ÐYÐàŸ,™,ØØØ/Ø!5Ø#ð 'ð 
ˆð *¨!Ñ,ˆØŸ.™.¨Ó9ˆØ'ª¨1ªa¨Ñ0ˆæØ+Ð;ˆLØ°!°"Ð"5Ñ5Ð5ä)Ø-Ø'Ø)×7Ñ7Ø&×1Ñ1ñ	
ð 	
r:   )r!   r;   rr  rs  ©NNNNNN)rk   rl   rm   rn   r   r%   r.   rx  r   rq   r   r~  r   r   r'   rp   rÄ   r	   r   r   rh   rr   rs   rt   s   @r8   rp  rp    sÝ   ø† ð
˜|÷ 
ð0Ð&;ô 0ðC¨4°°T¸#±Y°Ñ+?ð CÀDô Cð ð 04Ø26Ø,0Ø,0Ø/3Ø&*ñ4
à˜uŸ|™|Ñ,ð4
ð " %§,¡,Ñ/ð4
ð ˜EŸL™LÑ)ð	4
ð
 $ D™>ð4
ð ' t™nð4
ð ˜d‘^ð4
ð 
ˆuÐ0Ð0Ñ	1ô4
ó ö4
r:   rp  z§
    Dinov2 Model transformer with an image classification head on top (a linear layer on top of the final hidden state
    of the [CLS] token) e.g. for ImageNet.
    )Úcustom_introc                   óÞ   ^ • \ rS rSrS\SS4U 4S jjr\      SS\\R                     S\\R                     S\\R                     S	\\
   S
\\
   S\\
   S\\\4   4S jj5       rSrU =r$ )ÚDinov2ForImageClassificationic  r!   r"   Nc                 ó6  >• [         TU ]  U5        UR                  U l        [        U5      U l        UR                  S:”  a.  [
        R                  " UR                  S-  UR                  5      O[
        R                  " 5       U l	        U R                  5         g )Nr   r@   )r$   r%   Ú
num_labelsrp  r\  r
   r§   r)   r0  Ú
classifierrt  r©   s     €r8   r%   Ú%Dinov2ForImageClassification.__init__j  sy   ø€ Ü‰Ñ˜Ô à ×+Ñ+ˆŒÜ! &Ó)ˆŒð EK×DUÑDUÐXYÓDYŒBIŠIf×(Ñ(¨1Ñ,¨f×.?Ñ.?Ô@Ô_a×_jÒ_jÓ_lð 	Œð
 	‰Õr:   r]   r°   Úlabelsr±   rD  rE  c                 óÌ  • Ub  UOU R                   R                  nU R                  UUUUUS9nUS   nUSS2S4   n	USS2SS24   n
[        R                  " XšR                  SS9/SS9nU R                  U5      nSnUGb©  UR                  UR                  5      nU R                   R                  c‘  U R                  S:X  a  SU R                   l	        OoU R                  S:”  aN  UR                  [        R                  :X  d  UR                  [        R                  :X  a  SU R                   l	        OSU R                   l	        U R                   R                  S:X  aI  [        5       nU R                  S:X  a&  U" UR                  5       UR                  5       5      nOŒU" XÃ5      nOƒU R                   R                  S:X  a=  [!        5       nU" UR#                  S	U R                  5      UR#                  S	5      5      nO,U R                   R                  S:X  a  [%        5       nU" XÃ5      nU(       d  U4US
S -   nUb  U4U-   $ U$ ['        UUUR(                  UR*                  S9$ )ab  
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the image classification/regression loss. Indices should be in `[0, ...,
    config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
    `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
Nr  r   r   rG   Ú
regressionÚsingle_label_classificationÚmulti_label_classificationr?   r@   )ÚlossÚlogitsr¹   rN  )r!   rƒ  r\  r'   rS   r^  r‘  rP   ró   Úproblem_typer  rF   Úlongrq   r   Úsqueezer   rR   r   r   r¹   rN  )r6   r]   r°   r“  r±   rD  rE  rÁ   r‡  r*   Úpatch_tokensÚlinear_inputr™  r˜  Úloss_fctrÓ   s                   r8   rh   Ú$Dinov2ForImageClassification.forwardx  s  € ð  &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà—+‘+ØØØ/Ø!5Ø#ð ð 
ˆð " !™*ˆà#¢A q DÑ)ˆ	Ø&¢q¨!©" uÑ-ˆä—y’y )×->Ñ->À1Ð->Ð-EÐ!FÈAÑNˆà—‘ Ó.ˆàˆØÒà—Y‘Y˜vŸ}™}Ó-ˆFØ{‰{×'Ñ'Ñ/Ø—?‘? aÓ'Ø/;D—K‘KÕ,Ø—_‘_ qÓ(¨f¯l©l¼e¿j¹jÓ.HÈFÏLÉLÔ\a×\eÑ\eÓLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ó7Ü"›9Ø—?‘? aÓ'Ù# F§N¡NÓ$4°f·n±nÓ6FÓG‘Dá# FÓ3‘DØ—‘×)Ñ)Ð-JÓJÜ+Ó-Ù §¡¨B°·±Ó @À&Ç+Á+ÈbÃ/ÓR‘Ø—‘×)Ñ)Ð-IÓIÜ,Ó.Ù Ó/æØY ¨¨ Ñ,ˆFØ)-Ñ)9TG˜fÑ$ÐE¸vÐEä$ØØØ!×/Ñ/Ø×)Ñ)ñ	
ð 	
r:   )r‘  r\  r  r‹  )rk   rl   rm   rn   r   r%   r   r   r'   rp   rÄ   r	   rR  r   rh   rr   rs   rt   s   @r8   rŽ  rŽ  c  s½   ø† ð˜|ð °÷ ð ð 04Ø,0Ø)-Ø,0Ø/3Ø&*ñD
à˜uŸ|™|Ñ,ðD
ð ˜EŸL™LÑ)ðD
ð ˜Ÿ™Ñ&ð	D
ð
 $ D™>ðD
ð ' t™nðD
ð ˜d‘^ðD
ð 
ˆuÐ+Ð+Ñ	,ôD
ó öD
r:   rŽ  zO
    Dinov2 backbone, to be used with frameworks like DETR and MaskFormer.
    c                   óŽ   ^ • \ rS rSrU 4S jrS\4S jr\   SS\R                  S\
\   S\
\   S\
\   S\4
S	 jj5       rS
rU =r$ )ÚDinov2BackboneiÀ  c                 óv  >• [         TU ]  U5        [         TU ]	  U5        [        UR                  S-   5       Vs/ s H  o!R
                  PM     snU l        [        U5      U l        [        U5      U l
        [        R                  " UR
                  UR                  S9U l        U R                  5         g s  snf )Nr   r)  )r$   r%   Ú_init_backboner>  r?  r)   Únum_featuresr   r;   r;  rr  r
   r+  r,  rs  rt  rB  s      €r8   r%   ÚDinov2Backbone.__init__Æ  s“   ø€ Ü‰Ñ˜Ô Ü‰Ñ˜vÔ&ä9>¸v×?WÑ?WÐZ[Ñ?[Ô9\Ó]Ò9\°A×/Ô/Ñ9\Ñ]ˆÔÜ*¨6Ó2ˆŒÜ$ VÓ,ˆŒäŸš f×&8Ñ&8¸f×>SÑ>SÑTˆŒð 	‰Õùò ^s   ºB6r"   c                 ó.   • U R                   R                  $ rj   rw  r  s    r8   rx  Ú#Dinov2Backbone.get_input_embeddingsÓ  rz  r:   r]   rD  r±   rE  c                 ó–  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nU R	                  U5      nU R                  USX4S9nU(       a  UR                  OUS   nSn[        U R                  U5       HÌ  u  pšXR                  ;   d  M  U R                   R                  (       a  U R                  U
5      n
U R                   R                  (       aj  U
SS2SS24   n
UR                  u  p¼pÞU R                   R                  nU
R                  X½U-  Xï-  S5      n
U
R!                  SSSS	5      R#                  5       n
XŠ4-  nMÎ     U(       d  U(       a  U4USS -   nU$ U4US	S -   nU$ [%        UU(       a  UR                  OSU(       a  UR&                  S
9$ SS
9$ )a•  
Examples:

```python
>>> from transformers import AutoImageProcessor, AutoBackbone
>>> import torch
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> processor = AutoImageProcessor.from_pretrained("facebook/dinov2-base")
>>> model = AutoBackbone.from_pretrained(
...     "facebook/dinov2-base", out_features=["stage2", "stage5", "stage8", "stage11"]
... )

>>> inputs = processor(image, return_tensors="pt")

>>> outputs = model(**inputs)
>>> feature_maps = outputs.feature_maps
>>> list(feature_maps[-1].shape)
[1, 768, 16, 16]
```NT)rD  r±   rE  r   rG  r?   r   r   r@   )Úfeature_mapsr¹   rN  )r!   rƒ  rD  r±   r;   rr  r¹   ÚzipÚstage_namesr  Úapply_layernormrs  Úreshape_hidden_statesrI   r5   rL   rM   r”   r   rN  )r6   r]   rD  r±   rE  r…  rÁ   r¹   rª  Ústageré   re   rf   r<   r=   r5   rÓ   s                    r8   rh   ÚDinov2Backbone.forwardÖ  sÒ  € ð@ &1Ñ%<‘kÀ$Ç+Á+×B]ÑB]ˆà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐàŸ?™?¨<Ó8Ðà—,‘,Ø°4ÐK\ð ð 
ˆö 2=˜×-Ò-À'È!Á*ˆàˆÜ#& t×'7Ñ'7¸Ö#GÑˆEØ×)Ñ)Õ)Ø—;‘;×.×.Ø#'§>¡>°,Ó#?LØ—;‘;×4×4Ø#/²°1±2°Ñ#6Lð 4@×3EÑ3EÑ0J 6Ø!%§¡×!7Ñ!7JØ#/×#7Ñ#7¸
ÈjÑDXÐZ_ÑZmÐoqÓ#rLØ#/×#7Ñ#7¸¸1¸aÀÓ#C×#NÑ#NÓ#PLØ Ñ/’ñ $Hö Þ#Ø&˜¨7°1°2¨;Ñ6ð ˆMð '˜¨7°1°2¨;Ñ6ØˆMäØ%Þ3G˜'×/Ò/ÈTÞ->w×)Ñ)ñ
ð 	
ð EIñ
ð 	
r:   )r;   rr  rs  r¥  )NNN)rk   rl   rm   rn   r%   r.   rx  r   r'   rp   r   rÄ   r   rh   rr   rs   rt   s   @r8   r¢  r¢  À  s{   ø† õð0Ð&;ô 0ð ð 04Ø,0Ø&*ñG
à—l‘lðG
ð ' t™nðG
ð $ D™>ð	G
ð
 ˜d‘^ðG
ð 
ôG
ó öG
r:   r¢  )rŽ  rp  r[  r¢  )rµ   )rµ   F)@ro   Úcollections.abcr}   Útypingr   r   r   r   r   r   r	   r'   Útorch.utils.checkpointr
   Útorch.nnr   r   r   Úactivationsr   Úmodeling_outputsr   r   r   r   Úmodeling_utilsr   r   Úpytorch_utilsr   r   Úutilsr   r   r   Úutils.backbone_utilsr   Úconfiguration_dinov2r   Ú
get_loggerrk   r·   ÚModuler   r.   rp   r  r˜   rš   rÆ   rÐ   rã   rÄ   rú   rü   r	  r  r'  r;  r[  rp  rŽ  r¢  Ú__all__rG  r:   r8   Ú<module>r¿     s8  ðñ ã ß D× DÑ Dã Û Ý ß AÑ Aå !ß rÓ rß Fß Qß 7Ñ 7Ý 1Ý .ð 
×	Ò	˜HÓ	%€ôNr—y‘yô Nôb˜BŸI™Iô ðR ñ%ØI‰Ið%à<‰<ð%ð 
‰ð%ð <‰<ð	%ð
 ˜UŸ\™\Ñ*ð%ð ð%ð õ%ô>;˜"Ÿ)™)ô ;ô~r—y‘yô ô&$b—i‘iô $ôN+r—y‘yô +ñU—\‘\ð ¨eð ÀTð ÐV[×VbÑVbõ ô*-R—Y‘Yô -ô—	‘	ô ô&(b—i‘iô (ô"0"—)‘)ô 0ôh0
B—I‘Iô 0
ðf ô&D˜Oó &Dó ð&DðR ôM
Ð'ó M
ó ðM
ñ` ðñôT
Ð#8ó T
óðT
ñn ðñô
Y
Ð*¨Mó Y
óð
Y
òx er:   