Skip to content

Commit babcd73

Browse files
committed
minor tweaks
1 parent 8de2fbd commit babcd73

File tree

1 file changed

+13
-13
lines changed

1 file changed

+13
-13
lines changed

9-regular-expressions/03-regexp-unicode/article.md

Lines changed: 13 additions & 13 deletions
Original file line numberDiff line numberDiff line change
@@ -4,15 +4,15 @@ O JavaScript usa a [codificação Unicode](https://pt.wikipedia.org/wiki/Unicode
44

55
Esse alcance não é grande o bastante para codificar todos os caracteres possíveis, por isso alguns caracteres são codificados com 4 bytes, como o `𝒳` (X matemático) ou o `😄` (emoji sorridente), alguns ideogramas e assim por diante.
66

7-
Aqui estão os valores no Unicode de alguns caracteres:
7+
Aqui estão os códigos Unicode de alguns caracteres:
88

9-
| Carácter | Unicode | Contagem de bytes no Unicode |
10-
| -------- | --------- | ---------------------------- |
11-
| a | `0x0061` | 2 |
12-
|| `0x2248` | 2 |
13-
| 𝒳 | `0x1d4b3` | 4 |
14-
| 𝒴 | `0x1d4b4` | 4 |
15-
| 😄 | `0x1f604` | 4 |
9+
| Carácter | Unicode | Tamanho em bytes do caractere em Unicode |
10+
| -------- | --------- | ---------------------------------------- |
11+
| a | `0x0061` | 2 |
12+
|| `0x2248` | 2 |
13+
| 𝒳 | `0x1d4b3` | 4 |
14+
| 𝒴 | `0x1d4b4` | 4 |
15+
| 😄 | `0x1f604` | 4 |
1616

1717
Note que caracteres como `a` e `` ocupam 2 bytes, enquanto os códigos para `𝒳`, `𝒴` e `😄` são maiores, e ocupam 4 bytes.
1818

@@ -21,8 +21,8 @@ Há muito tempo atrás, quando o JavaScript foi criado, a codificação Unicode
2121
Por exemplo, o método `length` pensa que aqui há dois caracteres:
2222

2323
```js run
24-
alert('😄'.length); // 2
25-
alert('𝒳'.length); // 2
24+
alert("😄".length); // 2
25+
alert("𝒳".length); // 2
2626
```
2727

2828
...Mas nós podemos ver que há apenas um, certo? O ponto é que o método `length` trata 4 bytes como dois caracteres de 2 bytes. Isso está errado, porque eles devem ser somente considerados juntos (os chamados "pares substitutos", você pode ler mais sobre eles no artigo <info:string>).
@@ -44,10 +44,10 @@ Por exemplo, `\p{Letter}` denota uma letra em qualquer língua. Também podemos
4444
No exemplo abaixo três tipos de letras serão encontrados: Inglês, Georgiano e Coreano.
4545

4646
```js run
47-
let str = 'A ბ ㄱ';
47+
let str = "A ბ ㄱ";
4848

4949
alert(str.match(/\p{L}/gu)); // A,ბ,ㄱ
50-
alert(str.match(/\p{L}/g)); // null (nenhum casamento, \p não funciona sem a flag "u")
50+
alert(str.match(/\p{L}/g)); // null (nenhuma correspondência, \p não funciona sem a flag "u")
5151
```
5252

5353
Estas são as principais categorias de caracteres e suas sub-categorias:
@@ -114,7 +114,7 @@ Um dígito hexadecimal pode ser indicado por `pattern:\p{Hex_Digit}`:
114114
```js run
115115
let regexp = /x\p{Hex_Digit}\p{Hex_Digit}/u;
116116

117-
alert('number: xAF'.match(regexp)); // xAF
117+
alert("number: xAF".match(regexp)); // xAF
118118
```
119119

120120
### Exemplo: Sinogramas Chineses

0 commit comments

Comments
 (0)