go-json/internal/decoder/unmarshal_text.go

package decoder

import (
	"bytes"
	"encoding"
	"fmt"
	"unicode"
	"unicode/utf16"
	"unicode/utf8"
	"unsafe"

	"github.com/goccy/go-json/internal/errors"
	"github.com/goccy/go-json/internal/runtime"
)

type unmarshalTextDecoder struct {
	typ        *runtime.Type
	structName string
	fieldName  string
}

func newUnmarshalTextDecoder(typ *runtime.Type, structName, fieldName string) *unmarshalTextDecoder {
	return &unmarshalTextDecoder{
		typ:        typ,
		structName: structName,
		fieldName:  fieldName,
	}
}

func (d *unmarshalTextDecoder) annotateError(cursor int64, err error) {
	switch e := err.(type) {
	case *errors.UnmarshalTypeError:
		e.Struct = d.structName
		e.Field = d.fieldName
	case *errors.SyntaxError:
		e.Offset = cursor
	}
}

var (
	nullbytes = []byte(`null`)
)

func (d *unmarshalTextDecoder) DecodeStream(s *Stream, depth int64, p unsafe.Pointer) error {
	s.skipWhiteSpace()
	start := s.cursor
	if err := s.skipValue(depth); err != nil {
		return err
	}
	src := s.buf[start:s.cursor]
	if len(src) > 0 {
		switch src[0] {
		case '[':
			return &errors.UnmarshalTypeError{
				Value:  "array",
				Type:   runtime.RType2Type(d.typ),
				Offset: s.totalOffset(),
			}
		case '{':
			return &errors.UnmarshalTypeError{
				Value:  "object",
				Type:   runtime.RType2Type(d.typ),
				Offset: s.totalOffset(),
			}
		case '-', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9':
			return &errors.UnmarshalTypeError{
				Value:  "number",
				Type:   runtime.RType2Type(d.typ),
				Offset: s.totalOffset(),
			}
		case 'n':
			if bytes.Equal(src, nullbytes) {
				*(*unsafe.Pointer)(p) = nil
				return nil
			}
		}
	}
	dst := make([]byte, len(src))
	copy(dst, src)

	if b, ok := unquoteBytes(dst); ok {
		dst = b
	}
	v := *(*interface{})(unsafe.Pointer(&emptyInterface{
		typ: d.typ,
		ptr: p,
	}))
	if err := v.(encoding.TextUnmarshaler).UnmarshalText(dst); err != nil {
		d.annotateError(s.cursor, err)
		return err
	}
	return nil
}

func (d *unmarshalTextDecoder) Decode(ctx *RuntimeContext, cursor, depth int64, p unsafe.Pointer) (int64, error) {
	buf := ctx.Buf
	cursor = skipWhiteSpace(buf, cursor)
	start := cursor
	end, err := skipValue(buf, cursor, depth)
	if err != nil {
		return 0, err
	}
	src := buf[start:end]
	if len(src) > 0 {
		switch src[0] {
		case '[':
			return 0, &errors.UnmarshalTypeError{
				Value:  "array",
				Type:   runtime.RType2Type(d.typ),
				Offset: start,
			}
		case '{':
			return 0, &errors.UnmarshalTypeError{
				Value:  "object",
				Type:   runtime.RType2Type(d.typ),
				Offset: start,
			}
		case '-', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9':
			return 0, &errors.UnmarshalTypeError{
				Value:  "number",
				Type:   runtime.RType2Type(d.typ),
				Offset: start,
			}
		case 'n':
			if bytes.Equal(src, nullbytes) {
				*(*unsafe.Pointer)(p) = nil
				return end, nil
			}
		}
	}

	if s, ok := unquoteBytes(src); ok {
		src = s
	}
	v := *(*interface{})(unsafe.Pointer(&emptyInterface{
		typ: d.typ,
		ptr: *(*unsafe.Pointer)(unsafe.Pointer(&p)),
	}))
	if err := v.(encoding.TextUnmarshaler).UnmarshalText(src); err != nil {
		d.annotateError(cursor, err)
		return 0, err
	}
	return end, nil
}

func (d *unmarshalTextDecoder) DecodePath(ctx *RuntimeContext, cursor, depth int64) ([][]byte, int64, error) {
	return nil, 0, fmt.Errorf("json: unmarshal text decoder does not support decode path")
}

func unquoteBytes(s []byte) (t []byte, ok bool) { //nolint: nonamedreturns
	length := len(s)
	if length < 2 || s[0] != '"' || s[length-1] != '"' {
		return
	}
	s = s[1 : length-1]
	length -= 2

	// Check for unusual characters. If there are none,
	// then no unquoting is needed, so return a slice of the
	// original bytes.
	r := 0
	for r < length {
		c := s[r]
		if c == '\\' || c == '"' || c < ' ' {
			break
		}
		if c < utf8.RuneSelf {
			r++
			continue
		}
		rr, size := utf8.DecodeRune(s[r:])
		if rr == utf8.RuneError && size == 1 {
			break
		}
		r += size
	}
	if r == length {
		return s, true
	}

	b := make([]byte, length+2*utf8.UTFMax)
	w := copy(b, s[0:r])
	for r < length {
		// Out of room? Can only happen if s is full of
		// malformed UTF-8 and we're replacing each
		// byte with RuneError.
		if w >= len(b)-2*utf8.UTFMax {
			nb := make([]byte, (len(b)+utf8.UTFMax)*2)
			copy(nb, b[0:w])
			b = nb
		}
		switch c := s[r]; {
		case c == '\\':
			r++
			if r >= length {
				return
			}
			switch s[r] {
			default:
				return
			case '"', '\\', '/', '\'':
				b[w] = s[r]
				r++
				w++
			case 'b':
				b[w] = '\b'
				r++
				w++
			case 'f':
				b[w] = '\f'
				r++
				w++
			case 'n':
				b[w] = '\n'
				r++
				w++
			case 'r':
				b[w] = '\r'
				r++
				w++
			case 't':
				b[w] = '\t'
				r++
				w++
			case 'u':
				r--
				rr := getu4(s[r:])
				if rr < 0 {
					return
				}
				r += 6
				if utf16.IsSurrogate(rr) {
					rr1 := getu4(s[r:])
					if dec := utf16.DecodeRune(rr, rr1); dec != unicode.ReplacementChar {
						// A valid pair; consume.
						r += 6
						w += utf8.EncodeRune(b[w:], dec)
						break
					}
					// Invalid surrogate; fall back to replacement rune.
					rr = unicode.ReplacementChar
				}
				w += utf8.EncodeRune(b[w:], rr)
			}

		// Quote, control characters are invalid.
		case c == '"', c < ' ':
			return

		// ASCII
		case c < utf8.RuneSelf:
			b[w] = c
			r++
			w++

		// Coerce to well-formed UTF-8.
		default:
			rr, size := utf8.DecodeRune(s[r:])
			r += size
			w += utf8.EncodeRune(b[w:], rr)
		}
	}
	return b[0:w], true
}

func getu4(s []byte) rune {
	if len(s) < 6 || s[0] != '\\' || s[1] != 'u' {
		return -1
	}
	var r rune
	for _, c := range s[2:6] {
		switch {
		case '0' <= c && c <= '9':
			c = c - '0'
		case 'a' <= c && c <= 'f':
			c = c - 'a' + 10
		case 'A' <= c && c <= 'F':
			c = c - 'A' + 10
		default:
			return -1
		}
		r = r*16 + rune(c)
	}
	return r
}
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`package decoder`
Support UnmarshalText for decoding 2020-05-08 14:25:49 +03:00
			`import (`
Fix decoding of null value 2021-02-16 19:51:42 +03:00			`"bytes"`
Support UnmarshalText for decoding 2020-05-08 14:25:49 +03:00			`"encoding"`
Support JSON Path 2022-11-28 21:55:56 +03:00			`"fmt"`
Copy unquoteBytes from encoding/json and use it for UnmarshalText 2020-08-27 15:00:49 +03:00			`"unicode"`
			`"unicode/utf16"`
			`"unicode/utf8"`
Support UnmarshalText for decoding 2020-05-08 14:25:49 +03:00			`"unsafe"`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00
			`"github.com/goccy/go-json/internal/errors"`
			`"github.com/goccy/go-json/internal/runtime"`
Support UnmarshalText for decoding 2020-05-08 14:25:49 +03:00			`)`

			`type unmarshalTextDecoder struct {`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`typ *runtime.Type`
Fix decoding for UnmarshalJSON / UnmarshalText 2020-11-24 14:15:11 +03:00			`structName string`
			`fieldName string`
Support UnmarshalText for decoding 2020-05-08 14:25:49 +03:00			`}`

Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`func newUnmarshalTextDecoder(typ runtime.Type, structName, fieldName string) unmarshalTextDecoder {`
Fix decoding for UnmarshalJSON / UnmarshalText 2020-11-24 14:15:11 +03:00			`return &unmarshalTextDecoder{`
			`typ: typ,`
			`structName: structName,`
			`fieldName: fieldName,`
			`}`
			`}`

Fix syntax error 2020-11-27 11:11:53 +03:00			`func (d *unmarshalTextDecoder) annotateError(cursor int64, err error) {`
			`switch e := err.(type) {`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`case *errors.UnmarshalTypeError:`
Fix syntax error 2020-11-27 11:11:53 +03:00			`e.Struct = d.structName`
			`e.Field = d.fieldName`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`case *errors.SyntaxError:`
Fix syntax error 2020-11-27 11:11:53 +03:00			`e.Offset = cursor`
Fix decoding for UnmarshalJSON / UnmarshalText 2020-11-24 14:15:11 +03:00			`}`
Support UnmarshalText for decoding 2020-05-08 14:25:49 +03:00			`}`

Fix decoding of null value 2021-02-16 19:51:42 +03:00			`var (`
			nullbytes = []byte(`null`)
			`)`

Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`func (d unmarshalTextDecoder) DecodeStream(s Stream, depth int64, p unsafe.Pointer) error {`
Support Decoder.Token 2020-07-30 16:41:53 +03:00			`s.skipWhiteSpace()`
			`start := s.cursor`
Fix decoding of deep recursive structure 2021-02-18 13:05:06 +03:00			`if err := s.skipValue(depth); err != nil {`
Support Decoder.Token 2020-07-30 16:41:53 +03:00			`return err`
			`}`
			`src := s.buf[start:s.cursor]`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`if len(src) > 0 {`
			`switch src[0] {`
			`case '[':`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`return &errors.UnmarshalTypeError{`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`Value: "array",`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`Type: runtime.RType2Type(d.typ),`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`Offset: s.totalOffset(),`
			`}`
			`case '{':`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`return &errors.UnmarshalTypeError{`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`Value: "object",`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`Type: runtime.RType2Type(d.typ),`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`Offset: s.totalOffset(),`
			`}`
			`case '-', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9':`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`return &errors.UnmarshalTypeError{`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`Value: "number",`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`Type: runtime.RType2Type(d.typ),`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`Offset: s.totalOffset(),`
			`}`
			`case 'n':`
			`if bytes.Equal(src, nullbytes) {`
			`(unsafe.Pointer)(p) = nil`
			`return nil`
			`}`
Fix decoding of null value 2021-02-16 19:51:42 +03:00			`}`
Add error handling for unmarshal text 2020-12-24 12:45:26 +03:00			`}`
Fix stream decoding 2020-12-05 16:27:33 +03:00			`dst := make([]byte, len(src))`
			`copy(dst, src)`

			`if b, ok := unquoteBytes(dst); ok {`
			`dst = b`
Copy unquoteBytes from encoding/json and use it for UnmarshalText 2020-08-27 15:00:49 +03:00			`}`
Move rtype to internal/runtime package 2021-03-13 08:12:31 +03:00			`v := (interface{})(unsafe.Pointer(&emptyInterface{`
Support Decoder.Token 2020-07-30 16:41:53 +03:00			`typ: d.typ,`
Fix double pointer 2020-12-07 04:44:24 +03:00			`ptr: p,`
Support Decoder.Token 2020-07-30 16:41:53 +03:00			`}))`
Fix stream decoding 2020-12-05 16:27:33 +03:00			`if err := v.(encoding.TextUnmarshaler).UnmarshalText(dst); err != nil {`
Fix syntax error 2020-11-27 11:11:53 +03:00			`d.annotateError(s.cursor, err)`
Support Decoder.Token 2020-07-30 16:41:53 +03:00			`return err`
			`}`
			`return nil`
			`}`

Use RuntimeContext 2021-06-04 19:08:27 +03:00			`func (d unmarshalTextDecoder) Decode(ctx RuntimeContext, cursor, depth int64, p unsafe.Pointer) (int64, error) {`
			`buf := ctx.Buf`
Support UnmarshalText for decoding 2020-05-08 14:25:49 +03:00			`cursor = skipWhiteSpace(buf, cursor)`
			`start := cursor`
Fix decoding of deep recursive structure 2021-02-18 13:05:06 +03:00			`end, err := skipValue(buf, cursor, depth)`
Support UnmarshalText for decoding 2020-05-08 14:25:49 +03:00			`if err != nil {`
			`return 0, err`
			`}`
			`src := buf[start:end]`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`if len(src) > 0 {`
			`switch src[0] {`
			`case '[':`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`return 0, &errors.UnmarshalTypeError{`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`Value: "array",`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`Type: runtime.RType2Type(d.typ),`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`Offset: start,`
			`}`
			`case '{':`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`return 0, &errors.UnmarshalTypeError{`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`Value: "object",`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`Type: runtime.RType2Type(d.typ),`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`Offset: start,`
			`}`
			`case '-', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9':`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`return 0, &errors.UnmarshalTypeError{`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`Value: "number",`
Fix package layout for decoder 2021-06-03 12:49:01 +03:00			`Type: runtime.RType2Type(d.typ),`
Fix decoding of invalid value 2021-02-18 10:42:38 +03:00			`Offset: start,`
			`}`
			`case 'n':`
			`if bytes.Equal(src, nullbytes) {`
			`(unsafe.Pointer)(p) = nil`
			`return end, nil`
			`}`
			`}`
Fix decoding of null value 2021-02-16 19:51:42 +03:00			`}`

Copy unquoteBytes from encoding/json and use it for UnmarshalText 2020-08-27 15:00:49 +03:00			`if s, ok := unquoteBytes(src); ok {`
			`src = s`
			`}`
Move rtype to internal/runtime package 2021-03-13 08:12:31 +03:00			`v := (interface{})(unsafe.Pointer(&emptyInterface{`
Support UnmarshalText for decoding 2020-05-08 14:25:49 +03:00			`typ: d.typ,`
Fix all invalid usages of unsafe.Pointer Most of the invalid usages due to the conversion from uintptr to unsafe.Pointer. In general, unsafe.Pointer(p) where p of type uintptr is considered unsafe. To fix that, use &p instead of p, then introduce another dereference. Example, the invalid usage: (int)(unsafe.Pointer(p)) = int(v) wil become: (int)(unsafe.Pointer(&p)) = int(v) Closes #53 2020-11-14 23:27:15 +03:00			`ptr: (unsafe.Pointer)(unsafe.Pointer(&p)),`
Support UnmarshalText for decoding 2020-05-08 14:25:49 +03:00			`}))`
			`if err := v.(encoding.TextUnmarshaler).UnmarshalText(src); err != nil {`
Fix syntax error 2020-11-27 11:11:53 +03:00			`d.annotateError(cursor, err)`
Support UnmarshalText for decoding 2020-05-08 14:25:49 +03:00			`return 0, err`
			`}`
			`return end, nil`
			`}`
Copy unquoteBytes from encoding/json and use it for UnmarshalText 2020-08-27 15:00:49 +03:00
Support JSON Path 2022-11-28 21:55:56 +03:00			`func (d unmarshalTextDecoder) DecodePath(ctx RuntimeContext, cursor, depth int64) ([][]byte, int64, error) {`
			`return nil, 0, fmt.Errorf("json: unmarshal text decoder does not support decode path")`
			`}`

Add license for string processing (#476) * add license for string processing * update golangci-lint 2023-10-13 06:33:43 +03:00			`func unquoteBytes(s []byte) (t []byte, ok bool) { //nolint: nonamedreturns`
Copy unquoteBytes from encoding/json and use it for UnmarshalText 2020-08-27 15:00:49 +03:00			`length := len(s)`
			`if length < 2 \|\| s[0] != '"' \|\| s[length-1] != '"' {`
			`return`
			`}`
			`s = s[1 : length-1]`
			`length -= 2`

			`// Check for unusual characters. If there are none,`
			`// then no unquoting is needed, so return a slice of the`
			`// original bytes.`
			`r := 0`
			`for r < length {`
			`c := s[r]`
			`if c == '\\' \|\| c == '"' \|\| c < ' ' {`
			`break`
			`}`
			`if c < utf8.RuneSelf {`
			`r++`
			`continue`
			`}`
			`rr, size := utf8.DecodeRune(s[r:])`
			`if rr == utf8.RuneError && size == 1 {`
			`break`
			`}`
			`r += size`
			`}`
			`if r == length {`
			`return s, true`
			`}`

			`b := make([]byte, length+2*utf8.UTFMax)`
			`w := copy(b, s[0:r])`
			`for r < length {`
			`// Out of room? Can only happen if s is full of`
			`// malformed UTF-8 and we're replacing each`
			`// byte with RuneError.`
			`if w >= len(b)-2*utf8.UTFMax {`
			`nb := make([]byte, (len(b)+utf8.UTFMax)*2)`
			`copy(nb, b[0:w])`
			`b = nb`
			`}`
			`switch c := s[r]; {`
			`case c == '\\':`
			`r++`
			`if r >= length {`
			`return`
			`}`
			`switch s[r] {`
			`default:`
			`return`
			`case '"', '\\', '/', '\'':`
			`b[w] = s[r]`
			`r++`
			`w++`
			`case 'b':`
			`b[w] = '\b'`
			`r++`
			`w++`
			`case 'f':`
			`b[w] = '\f'`
			`r++`
			`w++`
			`case 'n':`
			`b[w] = '\n'`
			`r++`
			`w++`
			`case 'r':`
			`b[w] = '\r'`
			`r++`
			`w++`
			`case 't':`
			`b[w] = '\t'`
			`r++`
			`w++`
			`case 'u':`
			`r--`
			`rr := getu4(s[r:])`
			`if rr < 0 {`
			`return`
			`}`
			`r += 6`
			`if utf16.IsSurrogate(rr) {`
			`rr1 := getu4(s[r:])`
			`if dec := utf16.DecodeRune(rr, rr1); dec != unicode.ReplacementChar {`
			`// A valid pair; consume.`
			`r += 6`
			`w += utf8.EncodeRune(b[w:], dec)`
			`break`
			`}`
			`// Invalid surrogate; fall back to replacement rune.`
			`rr = unicode.ReplacementChar`
			`}`
			`w += utf8.EncodeRune(b[w:], rr)`
			`}`

			`// Quote, control characters are invalid.`
			`case c == '"', c < ' ':`
			`return`

			`// ASCII`
			`case c < utf8.RuneSelf:`
			`b[w] = c`
			`r++`
			`w++`

			`// Coerce to well-formed UTF-8.`
			`default:`
			`rr, size := utf8.DecodeRune(s[r:])`
			`r += size`
			`w += utf8.EncodeRune(b[w:], rr)`
			`}`
			`}`
			`return b[0:w], true`
			`}`

			`func getu4(s []byte) rune {`
			`if len(s) < 6 \|\| s[0] != '\\' \|\| s[1] != 'u' {`
			`return -1`
			`}`
			`var r rune`
			`for _, c := range s[2:6] {`
			`switch {`
			`case '0' <= c && c <= '9':`
			`c = c - '0'`
			`case 'a' <= c && c <= 'f':`
			`c = c - 'a' + 10`
			`case 'A' <= c && c <= 'F':`
			`c = c - 'A' + 10`
			`default:`
			`return -1`
			`}`
			`r = r*16 + rune(c)`
			`}`
			`return r`
			`}`