amazon-kinesis-client-go/batchconsumer/writer.go

package batchconsumer

import (
	"context"
	"encoding/base64"
	"fmt"
	"math/big"

	"golang.org/x/time/rate"
	kv "gopkg.in/Clever/kayvee-go.v6/logger"

	"github.com/Clever/amazon-kinesis-client-go/kcl"
	"github.com/Clever/amazon-kinesis-client-go/splitter"
)

type batchedWriter struct {
	config Config
	sender Sender
	log    kv.KayveeLogger

	shardID string

	chkpntManager  *checkpointManager
	batcherManager *batcherManager

	// Limits the number of records read from the stream
	rateLimiter *rate.Limiter

	lastProcessedSeq kcl.SequencePair
}

func NewBatchedWriter(config Config, sender Sender, log kv.KayveeLogger) *batchedWriter {
	return &batchedWriter{
		config: config,
		sender: sender,
		log:    log,

		rateLimiter: rate.NewLimiter(rate.Limit(config.ReadRateLimit), config.ReadBurstLimit),
	}
}

func (b *batchedWriter) Initialize(shardID string, checkpointer kcl.Checkpointer) error {
	b.shardID = shardID

	b.chkpntManager = NewCheckpointManager(checkpointer, b.config, b.log)
	b.batcherManager = NewBatcherManager(b.sender, b.chkpntManager, b.config, b.log)

	return nil
}

func (b *batchedWriter) splitMessageIfNecessary(record []byte) ([][]byte, error) {
	// We handle two types of records:
	// - records emitted from CWLogs Subscription
	// - records emiited from KPL
	if !splitter.IsGzipped(record) {
		// Process a single message, from KPL
		return [][]byte{record}, nil
	}

	// Process a batch of messages from a CWLogs Subscription
	return splitter.GetMessagesFromGzippedInput(record, b.config.DeployEnv == "production")
}

func (b *batchedWriter) ProcessRecords(records []kcl.Record) error {
	var pair kcl.SequencePair
	prevPair := b.lastProcessedSeq

	for _, record := range records {
		// Wait until rate limiter permits one more record to be processed
		b.rateLimiter.Wait(context.Background())

		seq := new(big.Int)
		if _, ok := seq.SetString(record.SequenceNumber, 10); !ok { // Validating sequence
			return fmt.Errorf("could not parse sequence number '%s'", record.SequenceNumber)
		}

		pair = kcl.SequencePair{seq, record.SubSequenceNumber}
		if prevPair.IsEmpty() { // Handles on-start edge case where b.lastProcessSeq is empty
			prevPair = pair
		}

		data, err := base64.StdEncoding.DecodeString(record.Data)
		if err != nil {
			return err
		}

		messages, err := b.splitMessageIfNecessary(data)
		if err != nil {
			return err
		}
		wasPairIgnored := true
		for _, rawmsg := range messages {
			msg, tags, err := b.sender.ProcessMessage(rawmsg)

			if err == ErrMessageIgnored {
				continue // Skip message
			} else if err != nil {
				b.log.ErrorD("process-message", kv.M{"msg": err.Error(), "rawmsg": string(rawmsg)})
				continue // Don't stop processing messages because of one bad message
			}

			if len(tags) == 0 {
				b.log.ErrorD("no-tags", kv.M{"rawmsg": string(rawmsg)})
				return fmt.Errorf("No tags provided by consumer for log: %s", string(rawmsg))
			}

			for _, tag := range tags {
				if tag == "" {
					b.log.ErrorD("blank-tag", kv.M{"rawmsg": string(rawmsg)})
					return fmt.Errorf("Blank tag provided by consumer for log: %s", string(rawmsg))
				}

				// Use second to last sequence number to ensure we don't checkpoint a message before
				// it's been sent.  When batches are sent, conceptually we first find the smallest
				// sequence number amount all the batch (let's call it A).  We then checkpoint at
				// the A-1 sequence number.
				b.batcherManager.BatchMessage(tag, msg, prevPair)
				wasPairIgnored = false
			}
		}

		prevPair = pair
		if wasPairIgnored {
			b.batcherManager.LatestIgnored(pair)
		}
		b.batcherManager.LatestProcessed(pair)
	}
	b.lastProcessedSeq = pair

	return nil
}

func (b *batchedWriter) Shutdown(reason string) error {
	if reason == "TERMINATE" {
		b.log.InfoD("terminate-signal", kv.M{"shard-id": b.shardID})
	} else {
		b.log.ErrorD("shutdown-failover", kv.M{"shard-id": b.shardID, "reason": reason})
	}

	b.batcherManager.Shutdown()

	return nil
}
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`package batchconsumer`

			`import (`
			`"context"`
			`"encoding/base64"`
			`"fmt"`
			`"math/big"`

			`"golang.org/x/time/rate"`
			`kv "gopkg.in/Clever/kayvee-go.v6/logger"`

			`"github.com/Clever/amazon-kinesis-client-go/kcl"`
			`"github.com/Clever/amazon-kinesis-client-go/splitter"`
			`)`

Fixed and added unit tests 2017-07-18 19:19:40 +00:00			`type batchedWriter struct {`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`config Config`
			`sender Sender`
			`log kv.KayveeLogger`

Added writter unit tests and fixed a slew of concurrency bugs 2017-07-21 01:35:54 +00:00			`shardID string`

Huge refactor. Batchers no longer run in their own go-routines, which allowed us to a lot of concurrency and simplify model. 2017-08-04 09:36:42 +00:00			`chkpntManager *checkpointManager`
			`batcherManager *batcherManager`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00
			`// Limits the number of records read from the stream`
			`rateLimiter *rate.Limiter`

Moved SequencePair to kcl package 2017-08-02 19:45:23 +00:00			`lastProcessedSeq kcl.SequencePair`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`}`

Added writter unit tests and fixed a slew of concurrency bugs 2017-07-21 01:35:54 +00:00			`func NewBatchedWriter(config Config, sender Sender, log kv.KayveeLogger) *batchedWriter {`
			`return &batchedWriter{`
			`config: config,`
			`sender: sender,`
			`log: log,`

			`rateLimiter: rate.NewLimiter(rate.Limit(config.ReadRateLimit), config.ReadBurstLimit),`
			`}`
			`}`

			`func (b *batchedWriter) Initialize(shardID string, checkpointer kcl.Checkpointer) error {`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`b.shardID = shardID`

Huge refactor. Batchers no longer run in their own go-routines, which allowed us to a lot of concurrency and simplify model. 2017-08-04 09:36:42 +00:00			`b.chkpntManager = NewCheckpointManager(checkpointer, b.config, b.log)`
			`b.batcherManager = NewBatcherManager(b.sender, b.chkpntManager, b.config, b.log)`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00
			`return nil`
			`}`

Fixed and added unit tests 2017-07-18 19:19:40 +00:00			`func (b *batchedWriter) splitMessageIfNecessary(record []byte) ([][]byte, error) {`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`// We handle two types of records:`
			`// - records emitted from CWLogs Subscription`
			`// - records emiited from KPL`
			`if !splitter.IsGzipped(record) {`
			`// Process a single message, from KPL`
			`return [][]byte{record}, nil`
			`}`

			`// Process a batch of messages from a CWLogs Subscription`
			`return splitter.GetMessagesFromGzippedInput(record, b.config.DeployEnv == "production")`
			`}`

Fixed and added unit tests 2017-07-18 19:19:40 +00:00			`func (b *batchedWriter) ProcessRecords(records []kcl.Record) error {`
Moved SequencePair to kcl package 2017-08-02 19:45:23 +00:00			`var pair kcl.SequencePair`
Added writter unit tests and fixed a slew of concurrency bugs 2017-07-21 01:35:54 +00:00			`prevPair := b.lastProcessedSeq`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00
			`for _, record := range records {`
			`// Wait until rate limiter permits one more record to be processed`
			`b.rateLimiter.Wait(context.Background())`

			`seq := new(big.Int)`
			`if _, ok := seq.SetString(record.SequenceNumber, 10); !ok { // Validating sequence`
			`return fmt.Errorf("could not parse sequence number '%s'", record.SequenceNumber)`
			`}`

Moved SequencePair to kcl package 2017-08-02 19:45:23 +00:00			`pair = kcl.SequencePair{seq, record.SubSequenceNumber}`
Added writter unit tests and fixed a slew of concurrency bugs 2017-07-21 01:35:54 +00:00			`if prevPair.IsEmpty() { // Handles on-start edge case where b.lastProcessSeq is empty`
			`prevPair = pair`
			`}`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00
			`data, err := base64.StdEncoding.DecodeString(record.Data)`
			`if err != nil {`
			`return err`
			`}`

Added writter unit tests and fixed a slew of concurrency bugs 2017-07-21 01:35:54 +00:00			`messages, err := b.splitMessageIfNecessary(data)`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`if err != nil {`
			`return err`
			`}`
Refactor to fix dead locks and race conditions. 2017-08-03 21:22:52 +00:00			`wasPairIgnored := true`
Added writter unit tests and fixed a slew of concurrency bugs 2017-07-21 01:35:54 +00:00			`for _, rawmsg := range messages {`
			`msg, tags, err := b.sender.ProcessMessage(rawmsg)`

Renamed methods to be more generic and to remove reference to logs 2017-07-19 00:21:31 +00:00			`if err == ErrMessageIgnored {`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`continue // Skip message`
			`} else if err != nil {`
Added writter unit tests and fixed a slew of concurrency bugs 2017-07-21 01:35:54 +00:00			`b.log.ErrorD("process-message", kv.M{"msg": err.Error(), "rawmsg": string(rawmsg)})`
			`continue // Don't stop processing messages because of one bad message`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`}`

			`if len(tags) == 0 {`
Added writter unit tests and fixed a slew of concurrency bugs 2017-07-21 01:35:54 +00:00			`b.log.ErrorD("no-tags", kv.M{"rawmsg": string(rawmsg)})`
			`return fmt.Errorf("No tags provided by consumer for log: %s", string(rawmsg))`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`}`

			`for _, tag := range tags {`
Added writter unit tests and fixed a slew of concurrency bugs 2017-07-21 01:35:54 +00:00			`if tag == "" {`
			`b.log.ErrorD("blank-tag", kv.M{"rawmsg": string(rawmsg)})`
			`return fmt.Errorf("Blank tag provided by consumer for log: %s", string(rawmsg))`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`}`

			`// Use second to last sequence number to ensure we don't checkpoint a message before`
			`// it's been sent. When batches are sent, conceptually we first find the smallest`
			`// sequence number amount all the batch (let's call it A). We then checkpoint at`
			`// the A-1 sequence number.`
Huge refactor. Batchers no longer run in their own go-routines, which allowed us to a lot of concurrency and simplify model. 2017-08-04 09:36:42 +00:00			`b.batcherManager.BatchMessage(tag, msg, prevPair)`
Refactor to fix dead locks and race conditions. 2017-08-03 21:22:52 +00:00			`wasPairIgnored = false`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`}`
			`}`

Added writter unit tests and fixed a slew of concurrency bugs 2017-07-21 01:35:54 +00:00			`prevPair = pair`
Refactor to fix dead locks and race conditions. 2017-08-03 21:22:52 +00:00			`if wasPairIgnored {`
Huge refactor. Batchers no longer run in their own go-routines, which allowed us to a lot of concurrency and simplify model. 2017-08-04 09:36:42 +00:00			`b.batcherManager.LatestIgnored(pair)`
Refactor to fix dead locks and race conditions. 2017-08-03 21:22:52 +00:00			`}`
Huge refactor. Batchers no longer run in their own go-routines, which allowed us to a lot of concurrency and simplify model. 2017-08-04 09:36:42 +00:00			`b.batcherManager.LatestProcessed(pair)`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`}`
Added writter unit tests and fixed a slew of concurrency bugs 2017-07-21 01:35:54 +00:00			`b.lastProcessedSeq = pair`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00
Added writter unit tests and fixed a slew of concurrency bugs 2017-07-21 01:35:54 +00:00			`return nil`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`}`

Fixed and added unit tests 2017-07-18 19:19:40 +00:00			`func (b *batchedWriter) Shutdown(reason string) error {`
Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`if reason == "TERMINATE" {`
			`b.log.InfoD("terminate-signal", kv.M{"shard-id": b.shardID})`
			`} else {`
			`b.log.ErrorD("shutdown-failover", kv.M{"shard-id": b.shardID, "reason": reason})`
			`}`
Huge refactor. Batchers no longer run in their own go-routines, which allowed us to a lot of concurrency and simplify model. 2017-08-04 09:36:42 +00:00
			`b.batcherManager.Shutdown()`

Implemented new consumer interface as well as example consumer: 'batchconsumer' 2017-07-18 02:03:15 +00:00			`return nil`
			`}`