o
    ZŽh~g  ã                	   @   s$  d Z ddlZddlmZ ddlmZmZmZ ddl	Z	ddl
Z	ddl	mZ ddlmZmZmZ ddlmZmZ dd	lmZmZmZ dd
lmZmZ ddlmZ e e¡ZeG dd„ deƒƒZd<de	j de!de"de	j fdd„Z#G dd„ dej$ƒZ%G dd„ dej$ƒZ&G dd„ dej$ƒZ'G dd„ dej$ƒZ(G dd „ d ej$ƒZ)G d!d"„ d"ej$ƒZ*G d#d$„ d$ej$ƒZ+G d%d&„ d&ej$ƒZ,G d'd(„ d(ej$ƒZ-G d)d*„ d*ej$ƒZ.G d+d,„ d,ej$ƒZ/G d-d.„ d.ej$ƒZ0G d/d0„ d0ej$ƒZ1G d1d2„ d2ej$ƒZ2eG d3d4„ d4eƒƒZ3eG d5d6„ d6e3ƒƒZ4ed7d8G d9d:„ d:e3ƒƒZ5g d;¢Z6dS )=zPyTorch CvT model.é    N)Ú	dataclass)ÚOptionalÚTupleÚUnion)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )Ú$ImageClassifierOutputWithNoAttentionÚModelOutput)ÚPreTrainedModelÚ find_pruneable_heads_and_indicesÚprune_linear_layer)Úauto_docstringÚloggingé   )Ú	CvtConfigc                   @   sP   e Zd ZU dZdZeej ed< dZ	eej ed< dZ
eeejdf  ed< dS )ÚBaseModelOutputWithCLSTokena  
    Base class for model's outputs, with potential hidden states and attentions.

    Args:
        last_hidden_state (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`):
            Sequence of hidden-states at the output of the last layer of the model.
        cls_token_value (`torch.FloatTensor` of shape `(batch_size, 1, hidden_size)`):
            Classification token at the output of the last layer of the model.
        hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
            Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each layer) of
            shape `(batch_size, sequence_length, hidden_size)`. Hidden-states of the model at the output of each layer
            plus the initial embedding outputs.
    NÚlast_hidden_stateÚcls_token_value.Úhidden_states)Ú__name__Ú
__module__Ú__qualname__Ú__doc__r   r   ÚtorchZFloatTensorÚ__annotations__r   r   r   © r   r   úS/var/www/auris/lib/python3.10/site-packages/transformers/models/cvt/modeling_cvt.pyr   #   s
   
 r   ç        FÚinputÚ	drop_probÚtrainingÚreturnc                 C   sd   |dks|s| S d| }| j d fd| jd   }|tj|| j| jd }| ¡  |  |¡| }|S )aF  
    Drop paths (Stochastic Depth) per sample (when applied in main path of residual blocks).

    Comment by Ross Wightman: This is the same as the DropConnect impl I created for EfficientNet, etc networks,
    however, the original name is misleading as 'Drop Connect' is a different form of dropout in a separate paper...
    See discussion: https://github.com/tensorflow/tpu/issues/494#issuecomment-532968956 ... I've opted for changing the
    layer and argument names to 'drop path' rather than mix DropConnect as a layer name and use 'survival rate' as the
    argument.
    r    r   r   )r   )ÚdtypeÚdevice)ÚshapeÚndimr   Zrandr%   r&   Zfloor_Údiv)r!   r"   r#   Z	keep_probr'   Zrandom_tensorÚoutputr   r   r   Ú	drop_path9   s   
r+   c                       sT   e Zd ZdZddee ddf‡ fdd„Zdejdejfdd	„Z	de
fd
d„Z‡  ZS )ÚCvtDropPathzXDrop paths (Stochastic Depth) per sample (when applied in main path of residual blocks).Nr"   r$   c                    s   t ƒ  ¡  || _d S ©N)ÚsuperÚ__init__r"   )Úselfr"   ©Ú	__class__r   r   r/   Q   s   

zCvtDropPath.__init__r   c                 C   s   t || j| jƒS r-   )r+   r"   r#   )r0   r   r   r   r   ÚforwardU   s   zCvtDropPath.forwardc                 C   s   d  | j¡S )Nzp={})Úformatr"   )r0   r   r   r   Ú
extra_reprX   s   zCvtDropPath.extra_reprr-   )r   r   r   r   r   Úfloatr/   r   ÚTensorr3   Ústrr5   Ú__classcell__r   r   r1   r   r,   N   s
    r,   c                       ó(   e Zd ZdZ‡ fdd„Zdd„ Z‡  ZS )ÚCvtEmbeddingsz'
    Construct the CvT embeddings.
    c                    s.   t ƒ  ¡  t|||||d| _t |¡| _d S )N)Ú
patch_sizeÚnum_channelsÚ	embed_dimÚstrideÚpadding)r.   r/   ÚCvtConvEmbeddingsÚconvolution_embeddingsr   ÚDropoutÚdropout)r0   r<   r=   r>   r?   r@   Údropout_rater1   r   r   r/   a   s
   

ÿzCvtEmbeddings.__init__c                 C   s   |   |¡}|  |¡}|S r-   )rB   rD   )r0   Úpixel_valuesÚhidden_stater   r   r   r3   h   ó   

zCvtEmbeddings.forward©r   r   r   r   r/   r3   r9   r   r   r1   r   r;   \   ó    r;   c                       r:   )rA   z"
    Image to Conv Embedding.
    c                    sP   t ƒ  ¡  t|tjjƒr|n||f}|| _tj|||||d| _	t 
|¡| _d S )N)Úkernel_sizer?   r@   )r.   r/   Ú
isinstanceÚcollectionsÚabcÚIterabler<   r   ÚConv2dÚ
projectionÚ	LayerNormÚnormalization)r0   r<   r=   r>   r?   r@   r1   r   r   r/   s   s
   
zCvtConvEmbeddings.__init__c                 C   sf   |   |¡}|j\}}}}|| }| |||¡ ddd¡}| jr$|  |¡}| ddd¡ ||||¡}|S ©Nr   é   r   )rQ   r'   ÚviewÚpermuterS   )r0   rF   Ú
batch_sizer=   ÚheightÚwidthÚhidden_sizer   r   r   r3   z   s   

zCvtConvEmbeddings.forwardrI   r   r   r1   r   rA   n   rJ   rA   c                       ó$   e Zd Z‡ fdd„Zdd„ Z‡  ZS )ÚCvtSelfAttentionConvProjectionc              	      s4   t ƒ  ¡  tj|||||d|d| _t |¡| _d S )NF)rK   r@   r?   ÚbiasÚgroups)r.   r/   r   rP   ÚconvolutionZBatchNorm2drS   )r0   r>   rK   r@   r?   r1   r   r   r/   ˆ   s   
ù	z'CvtSelfAttentionConvProjection.__init__c                 C   ó   |   |¡}|  |¡}|S r-   )r`   rS   ©r0   rG   r   r   r   r3   •   rH   z&CvtSelfAttentionConvProjection.forward©r   r   r   r/   r3   r9   r   r   r1   r   r]   ‡   s    r]   c                   @   s   e Zd Zdd„ ZdS )Ú CvtSelfAttentionLinearProjectionc                 C   s2   |j \}}}}|| }| |||¡ ddd¡}|S rT   )r'   rV   rW   )r0   rG   rX   r=   rY   rZ   r[   r   r   r   r3   œ   s   z(CvtSelfAttentionLinearProjection.forwardN)r   r   r   r3   r   r   r   r   rd   ›   s    rd   c                       s&   e Zd Zd‡ fdd„	Zdd„ Z‡  ZS )ÚCvtSelfAttentionProjectionÚdw_bnc                    s.   t ƒ  ¡  |dkrt||||ƒ| _tƒ | _d S )Nrf   )r.   r/   r]   Úconvolution_projectionrd   Úlinear_projection)r0   r>   rK   r@   r?   Úprojection_methodr1   r   r   r/   ¥   s   
z#CvtSelfAttentionProjection.__init__c                 C   ra   r-   )rg   rh   rb   r   r   r   r3   «   rH   z"CvtSelfAttentionProjection.forward)rf   rc   r   r   r1   r   re   ¤   s    re   c                       ó0   e Zd Z	d‡ fdd„	Zdd„ Zdd„ Z‡  ZS )	ÚCvtSelfAttentionTc                    s´   t ƒ  ¡  |d | _|| _|| _|| _t|||||dkrdn|d| _t|||||d| _t|||||d| _	t
j|||	d| _t
j|||	d| _t
j|||	d| _t
 |
¡| _d S )Ng      à¿ZavgZlinear)ri   )r^   )r.   r/   ÚscaleÚwith_cls_tokenr>   Ú	num_headsre   Úconvolution_projection_queryÚconvolution_projection_keyÚconvolution_projection_valuer   ÚLinearÚprojection_queryÚprojection_keyÚprojection_valuerC   rD   )r0   rn   r>   rK   Ú	padding_qÚ
padding_kvÚstride_qÚ	stride_kvÚqkv_projection_methodÚqkv_biasÚattention_drop_raterm   Úkwargsr1   r   r   r/   ²   s,   

û
ÿ
ÿzCvtSelfAttention.__init__c                 C   s6   |j \}}}| j| j }| ||| j|¡ dddd¡S )Nr   rU   r   r
   )r'   r>   rn   rV   rW   )r0   rG   rX   r[   Ú_Úhead_dimr   r   r   Ú"rearrange_for_multi_head_attentionÛ   s   z3CvtSelfAttention.rearrange_for_multi_head_attentionc                 C   sT  | j rt |d|| gd¡\}}|j\}}}| ddd¡ ||||¡}|  |¡}|  |¡}	|  |¡}
| j rPtj	||	fdd}	tj	||fdd}tj	||
fdd}
| j
| j }|  |  |	¡¡}	|  |  |¡¡}|  |  |
¡¡}
t d|	|g¡| j }tjjj|dd}|  |¡}t d||
g¡}|j\}}}}| dddd¡ ¡  ||| j| ¡}|S )	Nr   r   rU   ©Údimzbhlk,bhtk->bhltéÿÿÿÿzbhlt,bhtv->bhlvr
   )rm   r   Úsplitr'   rW   rV   rp   ro   rq   Úcatr>   rn   r€   rs   rt   ru   Zeinsumrl   r   Z
functionalZsoftmaxrD   Ú
contiguous)r0   rG   rY   rZ   Ú	cls_tokenrX   r[   r=   ÚkeyÚqueryÚvaluer   Zattention_scoreZattention_probsÚcontextr~   r   r   r   r3   á   s,   



$zCvtSelfAttention.forward©T)r   r   r   r/   r€   r3   r9   r   r   r1   r   rk   ±   s
    ô)rk   c                       r:   )ÚCvtSelfOutputz 
    The residual connection is defined in CvtLayer instead of here (as is the case with other models), due to the
    layernorm applied before each block.
    c                    s(   t ƒ  ¡  t ||¡| _t |¡| _d S r-   )r.   r/   r   rr   ÚdenserC   rD   )r0   r>   Ú	drop_rater1   r   r   r/     s   
zCvtSelfOutput.__init__c                 C   ra   r-   ©rŽ   rD   ©r0   rG   Zinput_tensorr   r   r   r3     rH   zCvtSelfOutput.forwardrI   r   r   r1   r   r     s    r   c                       rj   )	ÚCvtAttentionTc                    s@   t ƒ  ¡  t|||||||||	|
|ƒ| _t||ƒ| _tƒ | _d S r-   )r.   r/   rk   Ú	attentionr   r*   ÚsetÚpruned_heads)r0   rn   r>   rK   rv   rw   rx   ry   rz   r{   r|   r   rm   r1   r   r   r/     s    
õzCvtAttention.__init__c                 C   s²   t |ƒdkrd S t|| jj| jj| jƒ\}}t| jj|ƒ| j_t| jj|ƒ| j_t| jj	|ƒ| j_	t| j
j|dd| j
_| jjt |ƒ | j_| jj| jj | j_| j |¡| _d S )Nr   r   r   )Úlenr   r“   Znum_attention_headsZattention_head_sizer•   r   r‰   rˆ   rŠ   r*   rŽ   Zall_head_sizeÚunion)r0   ÚheadsÚindexr   r   r   Úprune_heads4  s   ÿzCvtAttention.prune_headsc                 C   s   |   |||¡}|  ||¡}|S r-   )r“   r*   )r0   rG   rY   rZ   Zself_outputÚattention_outputr   r   r   r3   F  s   zCvtAttention.forwardrŒ   )r   r   r   r/   rš   r3   r9   r   r   r1   r   r’     s
    ó r’   c                       r\   )ÚCvtIntermediatec                    s.   t ƒ  ¡  t |t|| ƒ¡| _t ¡ | _d S r-   )r.   r/   r   rr   ÚintrŽ   ZGELUÚ
activation)r0   r>   Ú	mlp_ratior1   r   r   r/   M  s   
zCvtIntermediate.__init__c                 C   ra   r-   )rŽ   rž   rb   r   r   r   r3   R  rH   zCvtIntermediate.forwardrc   r   r   r1   r   rœ   L  ó    rœ   c                       r\   )Ú	CvtOutputc                    s0   t ƒ  ¡  t t|| ƒ|¡| _t |¡| _d S r-   )r.   r/   r   rr   r   rŽ   rC   rD   )r0   r>   rŸ   r   r1   r   r   r/   Y  s   
zCvtOutput.__init__c                 C   s    |   |¡}|  |¡}|| }|S r-   r   r‘   r   r   r   r3   ^  s   

zCvtOutput.forwardrc   r   r   r1   r   r¡   X  r    r¡   c                       s,   e Zd ZdZ	d‡ fdd„	Zdd„ Z‡  ZS )ÚCvtLayerzb
    CvtLayer composed by attention layers, normalization and multi-layer perceptrons (mlps).
    Tc                    s|   t ƒ  ¡  t|||||||||	|
||ƒ| _t||ƒ| _t|||ƒ| _|dkr+t|dnt	 
¡ | _t	 |¡| _t	 |¡| _d S )Nr    )r"   )r.   r/   r’   r“   rœ   Úintermediater¡   r*   r,   r   ÚIdentityr+   rR   Úlayernorm_beforeÚlayernorm_after)r0   rn   r>   rK   rv   rw   rx   ry   rz   r{   r|   r   rŸ   Údrop_path_raterm   r1   r   r   r/   j  s(   
ôzCvtLayer.__init__c                 C   sX   |   |  |¡||¡}|}|  |¡}|| }|  |¡}|  |¡}|  ||¡}|  |¡}|S r-   )r“   r¥   r+   r¦   r£   r*   )r0   rG   rY   rZ   Zself_attention_outputr›   Zlayer_outputr   r   r   r3   ‘  s   ý



zCvtLayer.forwardrŒ   rI   r   r   r1   r   r¢   e  s
    ñ'r¢   c                       r\   )ÚCvtStagec                    sô   t ƒ  ¡  ˆ ˆ_|ˆ_ˆjjˆj r!t t ddˆjj	d ¡¡ˆ_t
ˆ jˆj ˆ jˆj ˆjdkr4ˆ jnˆ j	ˆjd  ˆ j	ˆj ˆ jˆj ˆ jˆj dˆ_dd„ tjdˆ jˆj ˆ j| ddD ƒ‰tj‡ ‡‡fd	d„tˆ jˆj ƒD ƒŽ ˆ_d S )
Nr   rƒ   r   )r<   r?   r=   r>   r@   rE   c                 S   s   g | ]}|  ¡ ‘qS r   )Úitem)Ú.0Úxr   r   r   Ú
<listcomp>¸  s    ÿz%CvtStage.__init__.<locals>.<listcomp>Úcpu)r&   c                    sž   g | ]K}t ˆ jˆj ˆ jˆj ˆ jˆj ˆ jˆj ˆ jˆj ˆ jˆj ˆ jˆj ˆ j	ˆj ˆ j
ˆj ˆ jˆj ˆ jˆj ˆˆj ˆ jˆj ˆ jˆj d ‘qS ))rn   r>   rK   rv   rw   ry   rx   rz   r{   r|   r   r§   rŸ   rm   )r¢   rn   Ústager>   Z
kernel_qkvrv   rw   ry   rx   rz   r{   r|   r   rŸ   r‡   )rª   r~   ©ÚconfigZdrop_path_ratesr0   r   r   r¬   ½  s&    ð




òÿ)r.   r/   r°   r®   r‡   r   Ú	Parameterr   Zrandnr>   r;   Zpatch_sizesZpatch_strider=   Zpatch_paddingr   Ú	embeddingZlinspacer§   ÚdepthZ
SequentialÚrangeÚlayers)r0   r°   r®   r1   r¯   r   r/   ¨  s*   





ú	ÿï
ÿzCvtStage.__init__c           	      C   sÎ   d }|   |¡}|j\}}}}| |||| ¡ ddd¡}| jj| j r4| j |dd¡}tj	||fdd}| j
D ]
}||||ƒ}|}q7| jj| j rVt |d|| gd¡\}}| ddd¡ ||||¡}||fS )Nr   rU   r   rƒ   r   )r²   r'   rV   rW   r°   r‡   r®   Úexpandr   r…   rµ   r„   )	r0   rG   r‡   rX   r=   rY   rZ   ÚlayerZlayer_outputsr   r   r   r3   Ò  s   

zCvtStage.forwardrc   r   r   r1   r   r¨   §  s    *r¨   c                       s&   e Zd Z‡ fdd„Zddd„Z‡  ZS )Ú
CvtEncoderc                    sF   t ƒ  ¡  || _t g ¡| _tt|jƒƒD ]}| j 	t
||ƒ¡ qd S r-   )r.   r/   r°   r   Z
ModuleListÚstagesr´   r–   r³   Úappendr¨   )r0   r°   Z	stage_idxr1   r   r   r/   ç  s   
ÿzCvtEncoder.__init__FTc           	      C   sl   |rdnd }|}d }t | jƒD ]\}}||ƒ\}}|r ||f }q|s/tdd„ |||fD ƒƒS t|||dS )Nr   c                 s   s    | ]	}|d ur|V  qd S r-   r   )rª   Úvr   r   r   Ú	<genexpr>ù  s   € z%CvtEncoder.forward.<locals>.<genexpr>©r   r   r   )Ú	enumerater¹   Útupler   )	r0   rF   Úoutput_hidden_statesÚreturn_dictZall_hidden_statesrG   r‡   r~   Zstage_moduler   r   r   r3   î  s   
€ýzCvtEncoder.forward)FTrc   r   r   r1   r   r¸   æ  s    r¸   c                   @   s&   e Zd ZeZdZdZdgZdd„ ZdS )ÚCvtPreTrainedModelÚcvtrF   r¢   c                 C   sº   t |tjtjfƒr'tjj|jjd| jj	d|j_|j
dur%|j
j ¡  dS dS t |tjƒr<|j
j ¡  |jj d¡ dS t |tƒrY| jj|j r[tjj|jjd| jj	d|j_dS dS dS )zInitialize the weightsr    )ÚmeanZstdNg      ð?)rL   r   rr   rP   ÚinitZtrunc_normal_ÚweightÚdatar°   Zinitializer_ranger^   Zzero_rR   Zfill_r¨   r‡   r®   )r0   Úmoduler   r   r   Ú_init_weights	  s   
ÿ
ÿþz CvtPreTrainedModel._init_weightsN)	r   r   r   r   Zconfig_classZbase_model_prefixZmain_input_nameZ_no_split_modulesrÉ   r   r   r   r   rÂ     s    rÂ   c                       sb   e Zd Zd‡ fdd„	Zdd„ Ze			ddeej dee	 d	ee	 d
e
eef fdd„ƒZ‡  ZS )ÚCvtModelTc                    s(   t ƒ  |¡ || _t|ƒ| _|  ¡  dS )zv
        add_pooling_layer (bool, *optional*, defaults to `True`):
            Whether to add a pooling layer
        N)r.   r/   r°   r¸   ÚencoderÚ	post_init)r0   r°   Úadd_pooling_layerr1   r   r   r/     s   
zCvtModel.__init__c                 C   s*   |  ¡ D ]\}}| jj| j |¡ qdS )z
        Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
        class PreTrainedModel
        N)ÚitemsrË   r·   r“   rš   )r0   Zheads_to_pruner·   r˜   r   r   r   Ú_prune_heads%  s   ÿzCvtModel._prune_headsNrF   rÀ   rÁ   r$   c                 C   sx   |d ur|n| j j}|d ur|n| j j}|d u rtdƒ‚| j|||d}|d }|s3|f|dd …  S t||j|jdS )Nz You have to specify pixel_values©rÀ   rÁ   r   r   r½   )r°   rÀ   Úuse_return_dictÚ
ValueErrorrË   r   r   r   )r0   rF   rÀ   rÁ   Zencoder_outputsÚsequence_outputr   r   r   r3   -  s$   ÿýýzCvtModel.forwardrŒ   )NNN)r   r   r   r/   rÏ   r   r   r   r7   Úboolr   r   r   r3   r9   r   r   r1   r   rÊ     s     
üþýü
ûrÊ   z¤
    Cvt Model transformer with an image classification head on top (a linear layer on top of the final hidden state of
    the [CLS] token) e.g. for ImageNet.
    )Zcustom_introc                       sd   e Zd Z‡ fdd„Ze				ddeej deej dee dee de	e
ef f
d	d
„ƒZ‡  ZS )ÚCvtForImageClassificationc                    sh   t ƒ  |¡ |j| _t|dd| _t |jd ¡| _|jdkr)t 	|jd |j¡nt 
¡ | _|  ¡  d S )NF)rÍ   rƒ   r   )r.   r/   Ú
num_labelsrÊ   rÃ   r   rR   r>   Ú	layernormrr   r¤   Ú
classifierrÌ   )r0   r°   r1   r   r   r/   T  s   $ÿz"CvtForImageClassification.__init__NrF   ÚlabelsrÀ   rÁ   r$   c                 C   sÀ  |dur|n| j j}| j|||d}|d }|d }| j jd r&|  |¡}n|j\}}	}
}| ||	|
| ¡ ddd¡}|  |¡}|jdd}|  	|¡}d}|durÂ| j j
du r}| j jdkrbd| j _
n| j jdkry|jtjkst|jtjkryd	| j _
nd
| j _
| j j
dkrœtƒ }| j jdkr–|| ¡ | ¡ ƒ}n,|||ƒ}n&| j j
d	kr´tƒ }|| d| j j¡| d¡ƒ}n| j j
d
krÂtƒ }|||ƒ}|sØ|f|dd…  }|durÖ|f| S |S t|||jdS )aŠ  
        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
            Labels for computing the image classification/regression loss. Indices should be in `[0, ...,
            config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
            `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
        NrÐ   r   r   rƒ   rU   r   Z
regressionZsingle_label_classificationZmulti_label_classification)ÚlossÚlogitsr   )r°   rÑ   rÃ   r‡   r×   r'   rV   rW   rÄ   rØ   Zproblem_typerÖ   r%   r   Úlongr   r	   Zsqueezer   r   r   r   )r0   rF   rÙ   rÀ   rÁ   ZoutputsrÓ   r‡   rX   r=   rY   rZ   Zsequence_output_meanrÛ   rÚ   Zloss_fctr*   r   r   r   r3   b  sL   ý


$

z!CvtForImageClassification.forward)NNNN)r   r   r   r/   r   r   r   r7   rÔ   r   r   r   r3   r9   r   r   r1   r   rÕ   M  s$    ûþýüû
úrÕ   )rÕ   rÊ   rÂ   )r    F)7r   Úcollections.abcrM   Údataclassesr   Útypingr   r   r   r   Ztorch.utils.checkpointr   Ztorch.nnr   r   r	   Zmodeling_outputsr   r   Zmodeling_utilsr   r   r   Úutilsr   r   Zconfiguration_cvtr   Z
get_loggerr   Úloggerr   r7   r6   rÔ   r+   ÚModuler,   r;   rA   r]   rd   re   rk   r   r’   rœ   r¡   r¢   r¨   r¸   rÂ   rÊ   rÕ   Ú__all__r   r   r   r   Ú<module>   sN   
 	Q9B?3ÿO