ai-edge-torch/ai_edge_torch/generative/layers at main · google-ai-edge/ai-edge-torch · GitHub

 def scaled_dot_product_attention_with_hlfb(
     q: torch.Tensor,
     k: torch.Tensor,
     v: torch.Tensor,
     head_size: int,
     mask: Optional[torch.Tensor] = None,
     scale: Optional[float] = None,
 ):
   """Scaled dot product attention with high-level function boundary enabled.

   Args:
     q (torch.Tensor): Query tensor, with shape [B, T, N, H].
     k (torch.Tensor): Key tensor, with shape [B, T, KV_LEN, H].
     v (torch.Tensor): Value tensor, with shape [B, T, KV_LEN, H].
     head_size (int): head dimension.
     mask (torch.Tensor): the optional mask tensor.

   Returns:
     The output tensor of scaled_dot_product_attention.
   """

   if scale is None:
     scale = 1.0 / math.sqrt(head_size)

   builder = StableHLOCompositeBuilder(
       name="odml.scaled_dot_product_attention", attr={"scale": scale}
   )
   q, k, v, mask = builder.mark_inputs(q, k, v, mask)

   q = q.transpose(1, 2)
   k = k.transpose(1, 2)
   v = v.transpose(1, 2)
   if q.size() != k.size():
     # Handle the GQA case, where q.shape[1] % k.shape[1] == 0.
     k = k.repeat_interleave(q.shape[1] // k.shape[1], dim=1)
     v = v.repeat_interleave(q.shape[1] // v.shape[1], dim=1)
   y = F.scaled_dot_product_attention(
       q,
       k,
       v,
       attn_mask=mask,
       dropout_p=0.0,
       is_causal=mask is None,
       scale=scale,
   )

   result = y.transpose(1, 2)
   result = builder.mark_outputs(result)
   return result
Name		Name	Last commit message	Last commit date
parent directory ..
unet		unet
README.md		README.md
__init__.py		__init__.py
attention.py		attention.py
attention_test.py		attention_test.py
attention_utils.py		attention_utils.py
attention_utils_test.py		attention_utils_test.py
builder.py		builder.py
feed_forward.py		feed_forward.py
kv_cache.py		kv_cache.py
lora.py		lora.py
model_config.py		model_config.py
normalization.py		normalization.py
rotary_position_embedding.py		rotary_position_embedding.py
scaled_dot_product_attention.py		scaled_dot_product_attention.py
sdpa_with_kv_update.py		sdpa_with_kv_update.py
	def scaled_dot_product_attention_with_hlfb(
	q: torch.Tensor,
	k: torch.Tensor,
	v: torch.Tensor,
	head_size: int,
	mask: Optional[torch.Tensor] = None,
	scale: Optional[float] = None,
	):
	"""Scaled dot product attention with high-level function boundary enabled.

	Args:
	q (torch.Tensor): Query tensor, with shape [B, T, N, H].
	k (torch.Tensor): Key tensor, with shape [B, T, KV_LEN, H].
	v (torch.Tensor): Value tensor, with shape [B, T, KV_LEN, H].
	head_size (int): head dimension.
	mask (torch.Tensor): the optional mask tensor.

	Returns:
	The output tensor of scaled_dot_product_attention.
	"""

	if scale is None:
	scale = 1.0 / math.sqrt(head_size)

	builder = StableHLOCompositeBuilder(
	name="odml.scaled_dot_product_attention", attr={"scale": scale}
	)
	q, k, v, mask = builder.mark_inputs(q, k, v, mask)

	q = q.transpose(1, 2)
	k = k.transpose(1, 2)
	v = v.transpose(1, 2)
	if q.size() != k.size():
	# Handle the GQA case, where q.shape[1] % k.shape[1] == 0.
	k = k.repeat_interleave(q.shape[1] // k.shape[1], dim=1)
	v = v.repeat_interleave(q.shape[1] // v.shape[1], dim=1)
	y = F.scaled_dot_product_attention(
	q,
	k,
	v,
	attn_mask=mask,
	dropout_p=0.0,
	is_causal=mask is None,
	scale=scale,
	)

	result = y.transpose(1, 2)
	result = builder.mark_outputs(result)
	return result