glob/lexer/lexer.go

package lexer

import (
	"bytes"
	"fmt"
	"github.com/gobwas/glob/util/runes"
	"unicode/utf8"
)

const (
	char_any           = '*'
	char_comma         = ','
	char_single        = '?'
	char_escape        = '\\'
	char_range_open    = '['
	char_range_close   = ']'
	char_terms_open    = '{'
	char_terms_close   = '}'
	char_range_not     = '!'
	char_range_between = '-'
)

var specials = []byte{
	char_any,
	char_single,
	char_escape,
	char_range_open,
	char_range_close,
	char_terms_open,
	char_terms_close,
}

func Special(c byte) bool {
	return bytes.IndexByte(specials, c) != -1
}

type tokens []Token

func (i *tokens) shift() (ret Token) {
	ret = (*i)[0]
	copy(*i, (*i)[1:])
	*i = (*i)[:len(*i)-1]
	return
}

func (i *tokens) push(v Token) {
	*i = append(*i, v)
}

func (i *tokens) empty() bool {
	return len(*i) == 0
}

var eof rune = 0

type lexer struct {
	data string
	pos  int
	err  error

	tokens     tokens
	termsLevel int

	lastRune     rune
	lastRuneSize int
	hasRune      bool
}

func newLexer(source string) *lexer {
	l := &lexer{
		data:   source,
		tokens: tokens(make([]Token, 0, 4)),
	}
	return l
}

func (l *lexer) peek() (r rune, w int) {
	if l.pos == len(l.data) {
		return eof, 0
	}

	r, w = utf8.DecodeRuneInString(l.data[l.pos:])
	if r == utf8.RuneError {
		l.errorf("could not read rune")
		r = eof
		w = 0
	}

	return
}

func (l *lexer) read() rune {
	if l.hasRune {
		l.hasRune = false
		l.seek(l.lastRuneSize)
		return l.lastRune
	}

	r, s := l.peek()
	l.seek(s)

	l.lastRune = r
	l.lastRuneSize = s

	return r
}

func (l *lexer) seek(w int) {
	l.pos += w
}

func (l *lexer) unread() {
	if l.hasRune {
		l.errorf("could not unread rune")
		return
	}
	l.seek(-l.lastRuneSize)
	l.hasRune = true
}

func (l *lexer) errorf(f string, v ...interface{}) {
	l.err = fmt.Errorf(f, v...)
}

func (l *lexer) inTerms() bool {
	return l.termsLevel > 0
}

func (l *lexer) termsEnter() {
	l.termsLevel++
}

func (l *lexer) termsLeave() {
	l.termsLevel--
}

func (l *lexer) nextItem() Token {
	if l.err != nil {
		return Token{Error, l.err.Error()}
	}
	if !l.tokens.empty() {
		return l.tokens.shift()
	}

	l.fetchItem()
	return l.nextItem()
}

var inTextBreakers = []rune{char_single, char_any, char_range_open, char_terms_open}
var inTermsBreakers = append(inTextBreakers, char_terms_close, char_comma)

func (l *lexer) fetchItem() {
	r := l.read()
	switch {
	case r == eof:
		l.tokens.push(Token{EOF, ""})

	case r == char_terms_open:
		l.termsEnter()
		l.tokens.push(Token{TermsOpen, string(r)})

	case r == char_comma && l.inTerms():
		l.tokens.push(Token{Separator, string(r)})

	case r == char_terms_close && l.inTerms():
		l.tokens.push(Token{TermsClose, string(r)})
		l.termsLeave()

	case r == char_range_open:
		l.tokens.push(Token{RangeOpen, string(r)})
		l.fetchRange()

	case r == char_single:
		l.tokens.push(Token{Single, string(r)})

	case r == char_any:
		if l.read() == char_any {
			l.tokens.push(Token{Super, string(r) + string(r)})
		} else {
			l.unread()
			l.tokens.push(Token{Any, string(r)})
		}

	default:
		l.unread()

		var breakers []rune
		if l.inTerms() {
			breakers = inTermsBreakers
		} else {
			breakers = inTextBreakers
		}
		l.fetchText(breakers)
	}
}

func (l *lexer) fetchRange() {
	var wantHi bool
	var wantClose bool
	var seenNot bool
	for {
		r := l.read()
		if r == eof {
			l.errorf("unexpected end of input")
			return
		}

		if wantClose {
			if r != char_range_close {
				l.errorf("expected close range character")
			} else {
				l.tokens.push(Token{RangeClose, string(r)})
			}
			return
		}

		if wantHi {
			l.tokens.push(Token{RangeHi, string(r)})
			wantClose = true
			continue
		}

		if !seenNot && r == char_range_not {
			l.tokens.push(Token{Not, string(r)})
			seenNot = true
			continue
		}

		if n, w := l.peek(); n == char_range_between {
			l.seek(w)
			l.tokens.push(Token{RangeLo, string(r)})
			l.tokens.push(Token{RangeBetween, string(n)})
			wantHi = true
			continue
		}

		l.unread() // unread first peek and fetch as text
		l.fetchText([]rune{char_range_close})
		wantClose = true
	}
}

func (l *lexer) fetchText(breakers []rune) {
	var data []rune
	var escaped bool

reading:
	for {
		r := l.read()
		if r == eof {
			break
		}

		if !escaped {
			if r == char_escape {
				escaped = true
				continue
			}

			if runes.IndexRune(breakers, r) != -1 {
				l.unread()
				break reading
			}
		}

		escaped = false
		data = append(data, r)
	}

	if len(data) > 0 {
		l.tokens.push(Token{Text, string(data)})
	}
}
refactoring 2016-05-27 20:47:19 +03:00			`package lexer`
test lexer 2015-12-24 22:30:20 +03:00
			`import (`
quote meta func 2016-02-24 23:53:19 +03:00			`"bytes"`
test lexer 2015-12-24 22:30:20 +03:00			`"fmt"`
refactoring 2016-05-27 20:47:19 +03:00			`"github.com/gobwas/glob/util/runes"`
test lexer 2015-12-24 22:30:20 +03:00			`"unicode/utf8"`
			`)`

Progress 2016-01-08 20:14:31 +03:00			`const (`
			`char_any = '*'`
fix lexer with comma in text 2016-05-12 00:17:33 +03:00			`char_comma = ','`
Progress 2016-01-08 20:14:31 +03:00			`char_single = '?'`
			`char_escape = '\\'`
			`char_range_open = '['`
			`char_range_close = ']'`
			`char_terms_open = '{'`
			`char_terms_close = '}'`
			`char_range_not = '!'`
			`char_range_between = '-'`
			`)`

quote meta func 2016-02-24 23:53:19 +03:00			`var specials = []byte{`
			`char_any,`
			`char_single,`
			`char_escape,`
			`char_range_open,`
reimplement lexer 2016-05-15 00:31:14 +03:00			`char_range_close,`
quote meta func 2016-02-24 23:53:19 +03:00			`char_terms_open,`
			`char_terms_close,`
			`}`

refactoring 2016-05-27 20:47:19 +03:00			`func Special(c byte) bool {`
quote meta func 2016-02-24 23:53:19 +03:00			`return bytes.IndexByte(specials, c) != -1`
			`}`

refactoring 2016-05-27 20:47:19 +03:00			`type tokens []Token`
test lexer 2015-12-24 22:30:20 +03:00
refactoring 2016-05-27 20:47:19 +03:00			`func (i *tokens) shift() (ret Token) {`
reduce allocs for items 2016-05-16 01:08:55 +03:00			`ret = (*i)[0]`
			`copy(i, (i)[1:])`
			`i = (i)[:len(*i)-1]`
remove bufio 2016-05-16 01:01:08 +03:00			`return`
			`}`

refactoring 2016-05-27 20:47:19 +03:00			`func (i *tokens) push(v Token) {`
remove bufio 2016-05-16 01:01:08 +03:00			`i = append(i, v)`
			`}`

refactoring 2016-05-27 20:47:19 +03:00			`func (i *tokens) empty() bool {`
remove bufio 2016-05-16 01:01:08 +03:00			`return len(*i) == 0`
			`}`

			`var eof rune = 0`

test lexer 2015-12-24 22:30:20 +03:00			`type lexer struct {`
remove bufio 2016-05-16 01:01:08 +03:00			`data string`
			`pos int`
			`err error`

refactoring 2016-05-27 20:47:19 +03:00			`tokens tokens`
reimplement lexer 2016-05-15 00:31:14 +03:00			`termsLevel int`
remove bufio 2016-05-16 01:01:08 +03:00
			`lastRune rune`
			`lastRuneSize int`
			`hasRune bool`
test lexer 2015-12-24 22:30:20 +03:00			`}`

lexer tests 2015-12-25 19:40:36 +03:00			`func newLexer(source string) *lexer {`
			`l := &lexer{`
refactoring 2016-05-27 20:47:19 +03:00			`data: source,`
			`tokens: tokens(make([]Token, 0, 4)),`
lexer tests 2015-12-25 19:40:36 +03:00			`}`
			`return l`
			`}`

remove bufio 2016-05-16 01:01:08 +03:00			`func (l *lexer) peek() (r rune, w int) {`
			`if l.pos == len(l.data) {`
			`return eof, 0`
			`}`

			`r, w = utf8.DecodeRuneInString(l.data[l.pos:])`
			`if r == utf8.RuneError {`
			`l.errorf("could not read rune")`
			`r = eof`
			`w = 0`
			`}`

test lexer 2015-12-24 22:30:20 +03:00			`return`
			`}`

remove bufio 2016-05-16 01:01:08 +03:00			`func (l *lexer) read() rune {`
			`if l.hasRune {`
			`l.hasRune = false`
			`l.seek(l.lastRuneSize)`
			`return l.lastRune`
			`}`

			`r, s := l.peek()`
			`l.seek(s)`

			`l.lastRune = r`
			`l.lastRuneSize = s`

			`return r`
lexer tests 2015-12-25 19:40:36 +03:00			`}`

remove bufio 2016-05-16 01:01:08 +03:00			`func (l *lexer) seek(w int) {`
			`l.pos += w`
test lexer 2015-12-24 22:30:20 +03:00			`}`

remove bufio 2016-05-16 01:01:08 +03:00			`func (l *lexer) unread() {`
			`if l.hasRune {`
			`l.errorf("could not unread rune")`
			`return`
			`}`
			`l.seek(-l.lastRuneSize)`
			`l.hasRune = true`
			`}`

			`func (l *lexer) errorf(f string, v ...interface{}) {`
			`l.err = fmt.Errorf(f, v...)`
test lexer 2015-12-24 22:30:20 +03:00			`}`

reimplement lexer 2016-05-15 00:31:14 +03:00			`func (l *lexer) inTerms() bool {`
			`return l.termsLevel > 0`
fix lexer with comma in text 2016-05-12 00:17:33 +03:00			`}`
Progress 2016-01-08 20:14:31 +03:00
reimplement lexer 2016-05-15 00:31:14 +03:00			`func (l *lexer) termsEnter() {`
			`l.termsLevel++`
test lexer 2015-12-24 22:30:20 +03:00			`}`

reimplement lexer 2016-05-15 00:31:14 +03:00			`func (l *lexer) termsLeave() {`
			`l.termsLevel--`
test lexer 2015-12-24 22:30:20 +03:00			`}`

refactoring 2016-05-27 20:47:19 +03:00			`func (l *lexer) nextItem() Token {`
remove bufio 2016-05-16 01:01:08 +03:00			`if l.err != nil {`
refactoring 2016-05-27 20:47:19 +03:00			`return Token{Error, l.err.Error()}`
test lexer 2015-12-24 22:30:20 +03:00			`}`
refactoring 2016-05-27 20:47:19 +03:00			`if !l.tokens.empty() {`
			`return l.tokens.shift()`
Progress 2016-01-08 20:14:31 +03:00			`}`

remove bufio 2016-05-16 01:01:08 +03:00			`l.fetchItem()`
			`return l.nextItem()`
			`}`

reduce allocs for items 2016-05-16 01:08:55 +03:00			`var inTextBreakers = []rune{char_single, char_any, char_range_open, char_terms_open}`
			`var inTermsBreakers = append(inTextBreakers, char_terms_close, char_comma)`

remove bufio 2016-05-16 01:01:08 +03:00			`func (l *lexer) fetchItem() {`
			`r := l.read()`
			`switch {`
			`case r == eof:`
refactoring 2016-05-27 20:47:19 +03:00			`l.tokens.push(Token{EOF, ""})`
remove bufio 2016-05-16 01:01:08 +03:00
			`case r == char_terms_open:`
reimplement lexer 2016-05-15 00:31:14 +03:00			`l.termsEnter()`
refactoring 2016-05-27 20:47:19 +03:00			`l.tokens.push(Token{TermsOpen, string(r)})`
test lexer 2015-12-24 22:30:20 +03:00
remove bufio 2016-05-16 01:01:08 +03:00			`case r == char_comma && l.inTerms():`
refactoring 2016-05-27 20:47:19 +03:00			`l.tokens.push(Token{Separator, string(r)})`
fix lexer with comma in text 2016-05-12 00:17:33 +03:00
remove bufio 2016-05-16 01:01:08 +03:00			`case r == char_terms_close && l.inTerms():`
refactoring 2016-05-27 20:47:19 +03:00			`l.tokens.push(Token{TermsClose, string(r)})`
remove bufio 2016-05-16 01:01:08 +03:00			`l.termsLeave()`
fix lexer with comma in text 2016-05-12 00:17:33 +03:00
remove bufio 2016-05-16 01:01:08 +03:00			`case r == char_range_open:`
refactoring 2016-05-27 20:47:19 +03:00			`l.tokens.push(Token{RangeOpen, string(r)})`
reimplement lexer 2016-05-15 00:31:14 +03:00			`l.fetchRange()`
fix lexer with comma in text 2016-05-12 00:17:33 +03:00
remove bufio 2016-05-16 01:01:08 +03:00			`case r == char_single:`
refactoring 2016-05-27 20:47:19 +03:00			`l.tokens.push(Token{Single, string(r)})`
fix lexer with comma in text 2016-05-12 00:17:33 +03:00
remove bufio 2016-05-16 01:01:08 +03:00			`case r == char_any:`
			`if l.read() == char_any {`
refactoring 2016-05-27 20:47:19 +03:00			`l.tokens.push(Token{Super, string(r) + string(r)})`
remove bufio 2016-05-16 01:01:08 +03:00			`} else {`
			`l.unread()`
refactoring 2016-05-27 20:47:19 +03:00			`l.tokens.push(Token{Any, string(r)})`
fix lexer with comma in text 2016-05-12 00:17:33 +03:00			`}`

remove bufio 2016-05-16 01:01:08 +03:00			`default:`
			`l.unread()`
reduce allocs for items 2016-05-16 01:08:55 +03:00
			`var breakers []rune`
remove bufio 2016-05-16 01:01:08 +03:00			`if l.inTerms() {`
reduce allocs for items 2016-05-16 01:08:55 +03:00			`breakers = inTermsBreakers`
			`} else {`
			`breakers = inTextBreakers`
remove bufio 2016-05-16 01:01:08 +03:00			`}`
			`l.fetchText(breakers)`
enable tests, fix lexer 2016-05-14 22:08:32 +03:00			`}`
fix lexer with comma in text 2016-05-12 00:17:33 +03:00			`}`

reimplement lexer 2016-05-15 00:31:14 +03:00			`func (l *lexer) fetchRange() {`
			`var wantHi bool`
			`var wantClose bool`
			`var seenNot bool`
test lexer 2015-12-24 22:30:20 +03:00			`for {`
remove bufio 2016-05-16 01:01:08 +03:00			`r := l.read()`
			`if r == eof {`
			`l.errorf("unexpected end of input")`
reimplement lexer 2016-05-15 00:31:14 +03:00			`return`
lexer tests 2015-12-25 19:40:36 +03:00			`}`
test lexer 2015-12-24 22:30:20 +03:00
reimplement lexer 2016-05-15 00:31:14 +03:00			`if wantClose {`
			`if r != char_range_close {`
remove bufio 2016-05-16 01:01:08 +03:00			`l.errorf("expected close range character")`
reimplement lexer 2016-05-15 00:31:14 +03:00			`} else {`
refactoring 2016-05-27 20:47:19 +03:00			`l.tokens.push(Token{RangeClose, string(r)})`
test lexer 2015-12-24 22:30:20 +03:00			`}`
reimplement lexer 2016-05-15 00:31:14 +03:00			`return`
			`}`
test lexer 2015-12-24 22:30:20 +03:00
reimplement lexer 2016-05-15 00:31:14 +03:00			`if wantHi {`
refactoring 2016-05-27 20:47:19 +03:00			`l.tokens.push(Token{RangeHi, string(r)})`
reimplement lexer 2016-05-15 00:31:14 +03:00			`wantClose = true`
			`continue`
			`}`
test lexer 2015-12-24 22:30:20 +03:00
reimplement lexer 2016-05-15 00:31:14 +03:00			`if !seenNot && r == char_range_not {`
refactoring 2016-05-27 20:47:19 +03:00			`l.tokens.push(Token{Not, string(r)})`
reimplement lexer 2016-05-15 00:31:14 +03:00			`seenNot = true`
			`continue`
			`}`
fix lexer with comma in text 2016-05-12 00:17:33 +03:00
remove bufio 2016-05-16 01:01:08 +03:00			`if n, w := l.peek(); n == char_range_between {`
			`l.seek(w)`
refactoring 2016-05-27 20:47:19 +03:00			`l.tokens.push(Token{RangeLo, string(r)})`
			`l.tokens.push(Token{RangeBetween, string(n)})`
reimplement lexer 2016-05-15 00:31:14 +03:00			`wantHi = true`
			`continue`
test lexer 2015-12-24 22:30:20 +03:00			`}`
reimplement lexer 2016-05-15 00:31:14 +03:00
remove bufio 2016-05-16 01:01:08 +03:00			`l.unread() // unread first peek and fetch as text`
reimplement lexer 2016-05-15 00:31:14 +03:00			`l.fetchText([]rune{char_range_close})`
			`wantClose = true`
test lexer 2015-12-24 22:30:20 +03:00			`}`
			`}`

reimplement lexer 2016-05-15 00:31:14 +03:00			`func (l *lexer) fetchText(breakers []rune) {`
			`var data []rune`
			`var escaped bool`
tests 2015-12-25 21:08:54 +03:00
reimplement lexer 2016-05-15 00:31:14 +03:00			`reading:`
lexer tests 2015-12-25 19:40:36 +03:00			`for {`
remove bufio 2016-05-16 01:01:08 +03:00			`r := l.read()`
			`if r == eof {`
reimplement lexer 2016-05-15 00:31:14 +03:00			`break`
lexer tests 2015-12-25 19:40:36 +03:00			`}`

reimplement lexer 2016-05-15 00:31:14 +03:00			`if !escaped {`
			`if r == char_escape {`
			`escaped = true`
tests 2015-12-25 21:08:54 +03:00			`continue`
			`}`

reimplement lexer 2016-05-15 00:31:14 +03:00			`if runes.IndexRune(breakers, r) != -1 {`
remove bufio 2016-05-16 01:01:08 +03:00			`l.unread()`
reimplement lexer 2016-05-15 00:31:14 +03:00			`break reading`
tests 2015-12-25 21:08:54 +03:00			`}`
lexer tests 2015-12-25 19:40:36 +03:00			`}`
Progress 2016-01-08 20:14:31 +03:00
reimplement lexer 2016-05-15 00:31:14 +03:00			`escaped = false`
			`data = append(data, r)`
Progress 2016-01-08 20:14:31 +03:00			`}`

reimplement lexer 2016-05-15 00:31:14 +03:00			`if len(data) > 0 {`
refactoring 2016-05-27 20:47:19 +03:00			`l.tokens.push(Token{Text, string(data)})`
Progress 2016-01-08 20:14:31 +03:00			`}`
test lexer 2015-12-24 22:30:20 +03:00			`}`