tile38/vendor/github.com/cespare/xxhash/xxhash_amd64.s

// +build !appengine
// +build gc
// +build !purego

#include "textflag.h"

// Register allocation:
// AX	h
// CX	pointer to advance through b
// DX	n
// BX	loop end
// R8	v1, k1
// R9	v2
// R10	v3
// R11	v4
// R12	tmp
// R13	prime1v
// R14	prime2v
// R15	prime4v

// round reads from and advances the buffer pointer in CX.
// It assumes that R13 has prime1v and R14 has prime2v.
#define round(r) \
	MOVQ  (CX), R12 \
	ADDQ  $8, CX    \
	IMULQ R14, R12  \
	ADDQ  R12, r    \
	ROLQ  $31, r    \
	IMULQ R13, r

// mergeRound applies a merge round on the two registers acc and val.
// It assumes that R13 has prime1v, R14 has prime2v, and R15 has prime4v.
#define mergeRound(acc, val) \
	IMULQ R14, val \
	ROLQ  $31, val \
	IMULQ R13, val \
	XORQ  val, acc \
	IMULQ R13, acc \
	ADDQ  R15, acc

// func Sum64(b []byte) uint64
TEXT ·Sum64(SB), NOSPLIT, $0-32
	// Load fixed primes.
	MOVQ ·prime1v(SB), R13
	MOVQ ·prime2v(SB), R14
	MOVQ ·prime4v(SB), R15

	// Load slice.
	MOVQ b_base+0(FP), CX
	MOVQ b_len+8(FP), DX
	LEAQ (CX)(DX*1), BX

	// The first loop limit will be len(b)-32.
	SUBQ $32, BX

	// Check whether we have at least one block.
	CMPQ DX, $32
	JLT  noBlocks

	// Set up initial state (v1, v2, v3, v4).
	MOVQ R13, R8
	ADDQ R14, R8
	MOVQ R14, R9
	XORQ R10, R10
	XORQ R11, R11
	SUBQ R13, R11

	// Loop until CX > BX.
blockLoop:
	round(R8)
	round(R9)
	round(R10)
	round(R11)

	CMPQ CX, BX
	JLE  blockLoop

	MOVQ R8, AX
	ROLQ $1, AX
	MOVQ R9, R12
	ROLQ $7, R12
	ADDQ R12, AX
	MOVQ R10, R12
	ROLQ $12, R12
	ADDQ R12, AX
	MOVQ R11, R12
	ROLQ $18, R12
	ADDQ R12, AX

	mergeRound(AX, R8)
	mergeRound(AX, R9)
	mergeRound(AX, R10)
	mergeRound(AX, R11)

	JMP afterBlocks

noBlocks:
	MOVQ ·prime5v(SB), AX

afterBlocks:
	ADDQ DX, AX

	// Right now BX has len(b)-32, and we want to loop until CX > len(b)-8.
	ADDQ $24, BX

	CMPQ CX, BX
	JG   fourByte

wordLoop:
	// Calculate k1.
	MOVQ  (CX), R8
	ADDQ  $8, CX
	IMULQ R14, R8
	ROLQ  $31, R8
	IMULQ R13, R8

	XORQ  R8, AX
	ROLQ  $27, AX
	IMULQ R13, AX
	ADDQ  R15, AX

	CMPQ CX, BX
	JLE  wordLoop

fourByte:
	ADDQ $4, BX
	CMPQ CX, BX
	JG   singles

	MOVL  (CX), R8
	ADDQ  $4, CX
	IMULQ R13, R8
	XORQ  R8, AX

	ROLQ  $23, AX
	IMULQ R14, AX
	ADDQ  ·prime3v(SB), AX

singles:
	ADDQ $4, BX
	CMPQ CX, BX
	JGE  finalize

singlesLoop:
	MOVBQZX (CX), R12
	ADDQ    $1, CX
	IMULQ   ·prime5v(SB), R12
	XORQ    R12, AX

	ROLQ  $11, AX
	IMULQ R13, AX

	CMPQ CX, BX
	JL   singlesLoop

finalize:
	MOVQ  AX, R12
	SHRQ  $33, R12
	XORQ  R12, AX
	IMULQ R14, AX
	MOVQ  AX, R12
	SHRQ  $29, R12
	XORQ  R12, AX
	IMULQ ·prime3v(SB), AX
	MOVQ  AX, R12
	SHRQ  $32, R12
	XORQ  R12, AX

	MOVQ AX, ret+24(FP)
	RET

// writeBlocks uses the same registers as above except that it uses AX to store
// the d pointer.

// func writeBlocks(d *Digest, b []byte) int
TEXT ·writeBlocks(SB), NOSPLIT, $0-40
	// Load fixed primes needed for round.
	MOVQ ·prime1v(SB), R13
	MOVQ ·prime2v(SB), R14

	// Load slice.
	MOVQ b_base+8(FP), CX
	MOVQ b_len+16(FP), DX
	LEAQ (CX)(DX*1), BX
	SUBQ $32, BX

	// Load vN from d.
	MOVQ d+0(FP), AX
	MOVQ 0(AX), R8   // v1
	MOVQ 8(AX), R9   // v2
	MOVQ 16(AX), R10 // v3
	MOVQ 24(AX), R11 // v4

	// We don't need to check the loop condition here; this function is
	// always called with at least one block of data to process.
blockLoop:
	round(R8)
	round(R9)
	round(R10)
	round(R11)

	CMPQ CX, BX
	JLE  blockLoop

	// Copy vN back to d.
	MOVQ R8, 0(AX)
	MOVQ R9, 8(AX)
	MOVQ R10, 16(AX)
	MOVQ R11, 24(AX)

	// The number of bytes written is CX minus the old base pointer.
	SUBQ b_base+8(FP), CX
	MOVQ CX, ret+32(FP)

	RET
Fix excessive memory usage for objects with TTLs This commit fixes an issue where Tile38 was using lots of extra memory to track objects that are marked to expire. This was creating problems with applications that set big TTLs. How it worked before: Every collection had a unique hashmap that stores expiration timestamps for every object in that collection. Along with the hashmaps, there's also one big server-wide list that gets appended every time a new SET+EX is performed. From a background routine, this list is looped over at least 10 times per second and is randomly searched for potential candidates that might need expiring. The routine then removes those entries from the list and tests if the objects matching the entries have actually expired. If so, these objects are deleted them from the database. When at least 25% of the 20 candidates are deleted the loop is immediately continued, otherwise the loop backs off with a 100ms pause. Why this was a problem. The list grows one entry for every SET+EX. When TTLs are long, like 24-hours or more, it would take at least that much time before the entry is removed. So for databased that have objects that use TTLs and are updated often this could lead to a very large list. How it was fixed. The list was removed and the hashmap is now search randomly. This required a new hashmap implementation, as the built-in Go map does not provide an operation for randomly geting entries. The chosen implementation is a robinhood-hash because it provides open-addressing, which makes for simple random bucket selections. Issue #502 2019-10-29 21:04:07 +03:00			`// +build !appengine`
			`// +build gc`
			`// +build !purego`

			`#include "textflag.h"`

			`// Register allocation:`
			`// AX h`
			`// CX pointer to advance through b`
			`// DX n`
			`// BX loop end`
			`// R8 v1, k1`
			`// R9 v2`
			`// R10 v3`
			`// R11 v4`
			`// R12 tmp`
			`// R13 prime1v`
			`// R14 prime2v`
			`// R15 prime4v`

			`// round reads from and advances the buffer pointer in CX.`
			`// It assumes that R13 has prime1v and R14 has prime2v.`
			`#define round(r) \`
			`MOVQ (CX), R12 \`
			`ADDQ $8, CX \`
			`IMULQ R14, R12 \`
			`ADDQ R12, r \`
			`ROLQ $31, r \`
			`IMULQ R13, r`

			`// mergeRound applies a merge round on the two registers acc and val.`
			`// It assumes that R13 has prime1v, R14 has prime2v, and R15 has prime4v.`
			`#define mergeRound(acc, val) \`
			`IMULQ R14, val \`
			`ROLQ $31, val \`
			`IMULQ R13, val \`
			`XORQ val, acc \`
			`IMULQ R13, acc \`
			`ADDQ R15, acc`

			`// func Sum64(b []byte) uint64`
			`TEXT ·Sum64(SB), NOSPLIT, $0-32`
			`// Load fixed primes.`
			`MOVQ ·prime1v(SB), R13`
			`MOVQ ·prime2v(SB), R14`
			`MOVQ ·prime4v(SB), R15`

			`// Load slice.`
			`MOVQ b_base+0(FP), CX`
			`MOVQ b_len+8(FP), DX`
			`LEAQ (CX)(DX*1), BX`

			`// The first loop limit will be len(b)-32.`
			`SUBQ $32, BX`

			`// Check whether we have at least one block.`
			`CMPQ DX, $32`
			`JLT noBlocks`

			`// Set up initial state (v1, v2, v3, v4).`
			`MOVQ R13, R8`
			`ADDQ R14, R8`
			`MOVQ R14, R9`
			`XORQ R10, R10`
			`XORQ R11, R11`
			`SUBQ R13, R11`

			`// Loop until CX > BX.`
			`blockLoop:`
			`round(R8)`
			`round(R9)`
			`round(R10)`
			`round(R11)`

			`CMPQ CX, BX`
			`JLE blockLoop`

			`MOVQ R8, AX`
			`ROLQ $1, AX`
			`MOVQ R9, R12`
			`ROLQ $7, R12`
			`ADDQ R12, AX`
			`MOVQ R10, R12`
			`ROLQ $12, R12`
			`ADDQ R12, AX`
			`MOVQ R11, R12`
			`ROLQ $18, R12`
			`ADDQ R12, AX`

			`mergeRound(AX, R8)`
			`mergeRound(AX, R9)`
			`mergeRound(AX, R10)`
			`mergeRound(AX, R11)`

			`JMP afterBlocks`

			`noBlocks:`
			`MOVQ ·prime5v(SB), AX`

			`afterBlocks:`
			`ADDQ DX, AX`

			`// Right now BX has len(b)-32, and we want to loop until CX > len(b)-8.`
			`ADDQ $24, BX`

			`CMPQ CX, BX`
			`JG fourByte`

			`wordLoop:`
			`// Calculate k1.`
			`MOVQ (CX), R8`
			`ADDQ $8, CX`
			`IMULQ R14, R8`
			`ROLQ $31, R8`
			`IMULQ R13, R8`

			`XORQ R8, AX`
			`ROLQ $27, AX`
			`IMULQ R13, AX`
			`ADDQ R15, AX`

			`CMPQ CX, BX`
			`JLE wordLoop`

			`fourByte:`
			`ADDQ $4, BX`
			`CMPQ CX, BX`
			`JG singles`

			`MOVL (CX), R8`
			`ADDQ $4, CX`
			`IMULQ R13, R8`
			`XORQ R8, AX`

			`ROLQ $23, AX`
			`IMULQ R14, AX`
			`ADDQ ·prime3v(SB), AX`

			`singles:`
			`ADDQ $4, BX`
			`CMPQ CX, BX`
			`JGE finalize`

			`singlesLoop:`
			`MOVBQZX (CX), R12`
			`ADDQ $1, CX`
			`IMULQ ·prime5v(SB), R12`
			`XORQ R12, AX`

			`ROLQ $11, AX`
			`IMULQ R13, AX`

			`CMPQ CX, BX`
			`JL singlesLoop`

			`finalize:`
			`MOVQ AX, R12`
			`SHRQ $33, R12`
			`XORQ R12, AX`
			`IMULQ R14, AX`
			`MOVQ AX, R12`
			`SHRQ $29, R12`
			`XORQ R12, AX`
			`IMULQ ·prime3v(SB), AX`
			`MOVQ AX, R12`
			`SHRQ $32, R12`
			`XORQ R12, AX`

			`MOVQ AX, ret+24(FP)`
			`RET`

			`// writeBlocks uses the same registers as above except that it uses AX to store`
			`// the d pointer.`

			`// func writeBlocks(d *Digest, b []byte) int`
			`TEXT ·writeBlocks(SB), NOSPLIT, $0-40`
			`// Load fixed primes needed for round.`
			`MOVQ ·prime1v(SB), R13`
			`MOVQ ·prime2v(SB), R14`

			`// Load slice.`
			`MOVQ b_base+8(FP), CX`
			`MOVQ b_len+16(FP), DX`
			`LEAQ (CX)(DX*1), BX`
			`SUBQ $32, BX`

			`// Load vN from d.`
			`MOVQ d+0(FP), AX`
			`MOVQ 0(AX), R8 // v1`
			`MOVQ 8(AX), R9 // v2`
			`MOVQ 16(AX), R10 // v3`
			`MOVQ 24(AX), R11 // v4`

			`// We don't need to check the loop condition here; this function is`
			`// always called with at least one block of data to process.`
			`blockLoop:`
			`round(R8)`
			`round(R9)`
			`round(R10)`
			`round(R11)`

			`CMPQ CX, BX`
			`JLE blockLoop`

			`// Copy vN back to d.`
			`MOVQ R8, 0(AX)`
			`MOVQ R9, 8(AX)`
			`MOVQ R10, 16(AX)`
			`MOVQ R11, 24(AX)`

			`// The number of bytes written is CX minus the old base pointer.`
			`SUBQ b_base+8(FP), CX`
			`MOVQ CX, ret+32(FP)`

			`RET`