fix: add case for setting lastCheckTime in first iteration callGetRecordsAPI

Signed-off-by: Shiva Pentakota <spentakota@vmware.com>
fix: added callGetRecordsAPI tests
2023-01-24 09:19:47 -08:00 · 2023-01-23 20:50:53 -08:00 · 2023-01-23 18:56:30 -08:00 · 2023-01-23 18:56:12 -08:00 · 2023-01-23 18:55:45 -08:00 · 2023-01-23 18:54:54 -08:00
3 changed files with 241 additions and 5 deletions
--- a/clientlibrary/config/config.go
+++ b/clientlibrary/config/config.go
@ -283,6 +283,9 @@ type (

 		// LeaseSyncingTimeInterval The number of milliseconds to wait before syncing with lease table (dynamoDB)
 		LeaseSyncingTimeIntervalMillis int
+
+		// MaxRetryCount The maximum number of retries in case of error
+		MaxRetryCount int
 	}
 )

--- a/clientlibrary/worker/polling-shard-consumer.go
+++ b/clientlibrary/worker/polling-shard-consumer.go
@ -44,14 +44,34 @@ import (
 	"github.com/vmware/vmware-go-kcl-v2/clientlibrary/metrics"
 )

+const (
+	kinesisReadTPSLimit = 5
+	MaxBytes            = 10000000.0
+	MaxBytesPerSecond   = 2000000.0
+	BytesToMbConversion = 1000000.0
+)
+
+var (
+	rateLimitTimeNow   = time.Now
+	rateLimitTimeSince = time.Since
+	rateLimitSleep     = time.Sleep
+
+	localTPSExceededError = errors.New("Error GetRecords TPS Exceeded")
+)
+
 // PollingShardConsumer is responsible for polling data records from a (specified) shard.
 // Note: PollingShardConsumer only deal with one shard.
 type PollingShardConsumer struct {
 	commonShardConsumer
-	streamName string
-	stop       *chan struct{}
-	consumerID string
-	mService   metrics.MonitoringService
+	streamName    string
+	stop          *chan struct{}
+	consumerID    string
+	mService      metrics.MonitoringService
+	currTime      time.Time
+	callsLeft     int
+	remBytes      float64
+	lastCheckTime time.Time
+	bytesRead     float64
 }

 func (sc *PollingShardConsumer) getShardIterator() (*string, error) {
@ -108,6 +128,12 @@ func (sc *PollingShardConsumer) getRecords() error {
 	recordCheckpointer := NewRecordProcessorCheckpoint(sc.shard, sc.checkpointer)
 	retriedErrors := 0

+	// define API call rate limit starting window
+	sc.currTime = rateLimitTimeNow()
+	sc.callsLeft = kinesisReadTPSLimit
+	sc.bytesRead = 0
+	sc.remBytes = MaxBytes
+
 	for {
 		if time.Now().UTC().After(sc.shard.GetLeaseTimeout().Add(-time.Duration(sc.kclConfig.LeaseRefreshPeriodMillis) * time.Millisecond)) {
 			log.Debugf("Refreshing lease on shard: %s for worker: %s", sc.shard.ID, sc.consumerID)
@ -140,14 +166,38 @@ func (sc *PollingShardConsumer) getRecords() error {
 			//aws-sdk-go-v2 https://github.com/aws/aws-sdk-go-v2/blob/main/CHANGELOG.md#error-handling
 			var throughputExceededErr *types.ProvisionedThroughputExceededException
 			var kmsThrottlingErr *types.KMSThrottlingException
-			if errors.As(err, &throughputExceededErr) || errors.As(err, &kmsThrottlingErr) {
+			if errors.As(err, &throughputExceededErr) || err == localTPSExceededError {
+				retriedErrors++
+				if retriedErrors > sc.kclConfig.MaxRetryCount {
+					log.Errorf("message", "reached max retry count getting records from shard",
+						"shardId", sc.shard.ID,
+						"retryCount", retriedErrors,
+						"error", err)
+					return err
+				}
+				// If there is insufficient provisioned throughput on the stream,
+				// subsequent calls made within the next 1 second throw ProvisionedThroughputExceededException.
+				// ref: https://docs.aws.amazon.com/streams/latest/dev/service-sizes-and-limits.html
+				sc.waitASecond(sc.currTime)
+				continue
+			}
+			if errors.As(err, &kmsThrottlingErr) {
 				log.Errorf("Error getting records from shard %v: %+v", sc.shard.ID, err)
 				retriedErrors++
+				// Greater than MaxRetryCount so we get the last retry
+				if retriedErrors > sc.kclConfig.MaxRetryCount {
+					log.Errorf("message", "reached max retry count getting records from shard",
+						"shardId", sc.shard.ID,
+						"retryCount", retriedErrors,
+						"error", err)
+					return err
+				}
 				// exponential backoff
 				// https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/Programming.Errors.html#Programming.Errors.RetryAndBackoff
 				time.Sleep(time.Duration(math.Exp2(float64(retriedErrors))*100) * time.Millisecond)
 				continue
 			}
+
 			log.Errorf("Error getting records from Kinesis that cannot be retried: %+v Request: %s", err, getRecordsArgs)
 			return err
 		}
@ -182,7 +232,62 @@ func (sc *PollingShardConsumer) getRecords() error {
 	}
 }

+func (sc *PollingShardConsumer) waitASecond(timePassed time.Time) {
+	waitTime := time.Since(timePassed)
+	if waitTime < time.Second {
+		time.Sleep(time.Second - waitTime)
+	}
+}
+
+func (sc *PollingShardConsumer) checkCoolOffPeriod() {
+	// Each shard can support up to a maximum total data read rate of 2 MB per second via GetRecords.
+	// If a call to GetRecords returns 10 MB, subsequent calls made within the next 5 seconds throw an exception.
+	// ref: https://docs.aws.amazon.com/streams/latest/dev/service-sizes-and-limits.html
+	// check for overspending of byte budget from getRecords call
+	currentTime := rateLimitTimeNow()
+	timePassed := currentTime.Sub(sc.lastCheckTime)
+	sc.lastCheckTime = currentTime
+	sc.remBytes += timePassed.Seconds() * MaxBytesPerSecond
+	transactionReadRate := sc.bytesRead / (timePassed.Seconds() * BytesToMbConversion)
+	if sc.remBytes > MaxBytes {
+		sc.remBytes = MaxBytes
+	}
+	if sc.remBytes <= sc.bytesRead || transactionReadRate > 2 {
+		// Wait until cool down period has passed to prevent ProvisionedThroughputExceededException
+		coolDown := sc.bytesRead / MaxBytesPerSecond
+		rateLimitSleep(time.Duration(coolDown * float64(time.Second)))
+	} else {
+		sc.remBytes -= sc.bytesRead
+	}
+}
+
 func (sc *PollingShardConsumer) callGetRecordsAPI(gri *kinesis.GetRecordsInput) (*kinesis.GetRecordsOutput, error) {
+
+	if sc.bytesRead != 0 {
+		sc.checkCoolOffPeriod()
+	}
+
+	// every new second, we get a fresh set of calls
+	if rateLimitTimeSince(sc.currTime) > time.Second {
+		sc.callsLeft = kinesisReadTPSLimit
+		sc.currTime = rateLimitTimeNow()
+	}
+
+	if sc.callsLeft < 1 {
+		return nil, localTPSExceededError
+	}
+
 	getResp, err := sc.kc.GetRecords(context.TODO(), gri)
+
+	sc.callsLeft--
+	// Calculate size of records from read transaction
+	sc.bytesRead = 0
+	for _, record := range getResp.Records {
+		sc.bytesRead += float64(len(record.Data))
+	}
+	if sc.lastCheckTime.IsZero() {
+		sc.lastCheckTime = rateLimitTimeNow()
+	}
+
 	return getResp, err
 }
--- a/clientlibrary/worker/polling-shard-consumer_test.go
+++ b/clientlibrary/worker/polling-shard-consumer_test.go
@ -22,6 +22,7 @@ package worker
 import (
 	"context"
 	"testing"
+	"time"

 	"github.com/aws/aws-sdk-go-v2/aws"
 	"github.com/aws/aws-sdk-go-v2/service/kinesis"
@ -44,6 +45,133 @@ func TestCallGetRecordsAPI(t *testing.T) {
 	assert.Nil(t, err)
 	assert.Equal(t, &ret, out)
 	m1.AssertExpectations(t)
+
+	// check that localTPSExceededError is thrown when trying more than 5 TPS
+	m2 := MockKinesisSubscriberGetter{}
+	psc2 := PollingShardConsumer{
+		commonShardConsumer: commonShardConsumer{kc: &m2},
+		callsLeft:           0,
+	}
+	rateLimitTimeSince = func(t time.Time) time.Duration {
+		return 500 * time.Millisecond
+	}
+	out2, err2 := psc2.callGetRecordsAPI(&gri)
+	assert.Nil(t, out2)
+	assert.ErrorIs(t, err2, localTPSExceededError)
+	m2.AssertExpectations(t)
+
+	// check that getRecords is called normally in bytesRead = 0 case
+	m3 := MockKinesisSubscriberGetter{}
+	ret3 := kinesis.GetRecordsOutput{}
+	m3.On("GetRecords", mock.Anything, mock.Anything, mock.Anything).Return(&ret3, nil)
+	psc3 := PollingShardConsumer{
+		commonShardConsumer: commonShardConsumer{kc: &m3},
+		callsLeft:           2,
+		bytesRead:           0,
+	}
+	rateLimitTimeSince = func(t time.Time) time.Duration {
+		return 2 * time.Second
+	}
+	out3, err3 := psc3.callGetRecordsAPI(&gri)
+	assert.Nil(t, err3)
+	assert.Equal(t, &ret3, out3)
+	m3.AssertExpectations(t)
+
+	// check that correct cool off period is taken for 10mb in 1 second
+	testTime := time.Now()
+	m4 := MockKinesisSubscriberGetter{}
+	ret4 := kinesis.GetRecordsOutput{}
+	m4.On("GetRecords", mock.Anything, mock.Anything, mock.Anything).Return(&ret4, nil)
+	psc4 := PollingShardConsumer{
+		commonShardConsumer: commonShardConsumer{kc: &m4},
+		callsLeft:           2,
+		bytesRead:           MaxBytes,
+		lastCheckTime:       testTime,
+		remBytes:            MaxBytes,
+	}
+	rateLimitTimeSince = func(t time.Time) time.Duration {
+		return 2 * time.Second
+	}
+	rateLimitTimeNow = func() time.Time {
+		return testTime.Add(time.Second)
+	}
+	checkSleepVal := 0.0
+	rateLimitSleep = func(d time.Duration) {
+		checkSleepVal = d.Seconds()
+	}
+	out4, err4 := psc4.callGetRecordsAPI(&gri)
+	assert.Nil(t, err4)
+	assert.Equal(t, &ret4, out4)
+	m4.AssertExpectations(t)
+	if checkSleepVal != 5 {
+		t.Errorf("Incorrect Cool Off Period: %v", checkSleepVal)
+	}
+
+	// check that no cool off period is taken for 6mb in 3 seconds
+	testTime2 := time.Now()
+	m5 := MockKinesisSubscriberGetter{}
+	ret5 := kinesis.GetRecordsOutput{}
+	m5.On("GetRecords", mock.Anything, mock.Anything, mock.Anything).Return(&ret5, nil)
+	psc5 := PollingShardConsumer{
+		commonShardConsumer: commonShardConsumer{kc: &m5},
+		callsLeft:           2,
+		bytesRead:           MaxBytesPerSecond * 3,
+		lastCheckTime:       testTime2,
+		remBytes:            MaxBytes,
+	}
+	rateLimitTimeSince = func(t time.Time) time.Duration {
+		return 3 * time.Second
+	}
+	rateLimitTimeNow = func() time.Time {
+		return testTime2.Add(time.Second * 3)
+	}
+	checkSleepVal2 := 0.0
+	rateLimitSleep = func(d time.Duration) {
+		checkSleepVal2 = d.Seconds()
+	}
+	out5, err5 := psc5.callGetRecordsAPI(&gri)
+	assert.Nil(t, err5)
+	assert.Equal(t, &ret5, out5)
+	m5.AssertExpectations(t)
+	if checkSleepVal2 != 0 {
+		t.Errorf("Incorrect Cool Off Period: %v", checkSleepVal2)
+	}
+
+	// check for correct cool off period with 8mb in .2 seconds with 6mb remaining
+	testTime3 := time.Now()
+	m6 := MockKinesisSubscriberGetter{}
+	ret6 := kinesis.GetRecordsOutput{}
+	m6.On("GetRecords", mock.Anything, mock.Anything, mock.Anything).Return(&ret6, nil)
+	psc6 := PollingShardConsumer{
+		commonShardConsumer: commonShardConsumer{kc: &m6},
+		callsLeft:           2,
+		bytesRead:           MaxBytesPerSecond * 4,
+		lastCheckTime:       testTime3,
+		remBytes:            MaxBytes * 3,
+	}
+	rateLimitTimeSince = func(t time.Time) time.Duration {
+		return 3 * time.Second
+	}
+	rateLimitTimeNow = func() time.Time {
+		return testTime3.Add(time.Second / 5)
+	}
+	checkSleepVal3 := 0.0
+	rateLimitSleep = func(d time.Duration) {
+		checkSleepVal3 = d.Seconds()
+	}
+	out6, err6 := psc6.callGetRecordsAPI(&gri)
+	assert.Nil(t, err6)
+	assert.Equal(t, &ret6, out6)
+	m5.AssertExpectations(t)
+	if checkSleepVal3 != 4 {
+		t.Errorf("Incorrect Cool Off Period: %v", checkSleepVal3)
+	}
+
+	// restore original func
+	rateLimitTimeNow = time.Now
+	rateLimitTimeSince = time.Since
+	rateLimitSleep = time.Sleep
+
 }

 type MockKinesisSubscriberGetter struct {
Author	SHA1	Message	Date
Shiva Pentakota	706e803d27	fix: add case for setting lastCheckTime in first iteration callGetRecordsAPI Signed-off-by: Shiva Pentakota <spentakota@vmware.com>	2023-01-24 09:19:47 -08:00
Shiva Pentakota	ae3763e478	fix: added callGetRecordsAPI tests Signed-off-by: Shiva Pentakota <spentakota@vmware.com>	2023-01-23 20:50:53 -08:00
Shiva Pentakota	adcff0b7bb	fix: created seperate rate limit check method callGetRecordsAPI Signed-off-by: Shiva Pentakota <spentakota@vmware.com>	2023-01-23 18:56:30 -08:00
Shiva Pentakota	cd1f34e489	fix: max bytes per second getRecords check Signed-off-by: Shiva Pentakota <spentakota@vmware.com>	2023-01-23 18:56:12 -08:00
Shiva Pentakota	b49cbdf4fc	fix: rate limiting getRecords tps Signed-off-by: Shiva Pentakota <spentakota@vmware.com>	2023-01-23 18:55:45 -08:00
Shiva Pentakota	9fcd1a8293	fix: adding MaxRetryCount for capped num of retries Signed-off-by: Shiva Pentakota <spentakota@vmware.com>	2023-01-23 18:54:54 -08:00