-
Notifications
You must be signed in to change notification settings - Fork 2.5k
Closed
Labels
Description
What happens?
These two queries should have the same results, but they don't.
To Reproduce
Download reprex.json and rename it to reprex.parquet
(github will accept a .json extension but not a .parquet)
D FROM 'reprex.parquet' ORDER BY trigram;
┌─────────┬────────────────┐
│ trigram │ document_count │
│ varchar │ int64 │
├─────────┼────────────────┤
│ \1\2\3 │ 1 │
│ \1 N │ 1 │
│ \2\3\4 │ 1 │
│ \2\n │ 2 │
│ \2\na │ 1 │
│ \2\nd │ 2 │
│ \2\nl │ 3 │
│ \2\np │ 5 │
│ \2 C │ 1 │
│ \2 M │ 2 │
│ \2 R │ 1 │
│ \2 c │ 2 │
│ \2 d │ 3 │
│ \2 f │ 1 │
│ \2 g │ 1 │
│ \2 m │ 3 │
│ \2 n │ 1 │
│ \2 t │ 4 │
│ \2 w │ 2 │
│ \2-m │ 1 │
│ · │ · │
│ · │ · │
│ · │ · │
│ lo │ 1 │
│ ba │ 1 │
│ \n• │ 2 │
│ \n• │ 1 │
│ N │ 1 │
│ U │ 3 │
│ u │ 11 │
│ ia │ 1 │
│ ig │ 2 │
│ ng │ 1 │
│ F │ 1 │
│ at │ 1 │
│ es │ 1 │
│ - │ 1 │
│ id │ 1 │
│ │ 1 │
│ P │ 1 │
│ T │ 1 │
│ s │ 5 │
│ ic │ 1 │
├─────────┴────────────────┤
│ 2398312 rows (40 shown) │
└──────────────────────────┘
D CREATE TABLE reprex AS (SELECT * FROM 'reprex.parquet');
D FROM reprex ORDER BY trigram;
┌─────────┬────────────────┐
│ trigram │ document_count │
│ varchar │ int64 │
├─────────┼────────────────┤
│ �\n\n │ 16 │
│ �\n• │ 9 │
│ � + │ 2 │
│ � E │ 3 │
│ � I │ 4 │
│ � a │ 7 │
│ � å │ 7 │
│ � è │ 7 │
│ �-5 │ 6 │
│ �/h │ 1 │
│ �/q │ 1 │
│ �32 │ 8 │
│ �34 │ 5 │
│ �38 │ 8 │
│ �41 │ 1 │
│ �44 │ 1 │
│ �46 │ 1 │
│ �48 │ 1 │
│ �5m │ 1 │
│ �?D │ 1 │
│ · │ · │
│ · │ · │
│ · │ · │
│ ~・賞 │ 1 │
│ ~¥2 │ 61 │
│ ~¥8 │ 3 │
│ ~𝐄𝐦 │ 1 │
│ ~𝐓𝐨 │ 1 │
│ ~🚀 │ 1 │
│ " │ 4 │
│ 1 │ 3 │
│ B │ 5 │
│ O │ 27 │
│ P │ 24 │
│ U │ 4 │
│ V │ 14 │
│ )\n │ 1 │
│ Gu │ 1 │
│ Mo │ 3 │
│ Mu │ 1 │
│ St │ 1 │
│ it │ 1 │
│ ti │ 4 │
├─────────┴────────────────┤
│ 2398312 rows (40 shown) │
└──────────────────────────┘
OS:
macOS Sequoia 15.5
DuckDB Version:
1.3.1, v1.4.0-dev1190 (Development Version) 977e76d
DuckDB Client:
CLI
Hardware:
No response
Full Name:
Jason Punyon
Affiliation:
Sumble
What is the latest build you tested with? If possible, we recommend testing with the latest nightly build.
I have tested with the latest nightly.
Did you include all relevant data sets for reproducing the issue?
Yes
Did you include all code required to reproduce the issue?
- Yes, I have
Did you include all relevant configuration (e.g., CPU architecture, Python version, Linux distribution) to reproduce the issue?
- Yes, I have