Salve a tutti, sto lavorando a un progetto di analisi dati che coinvolge dataset enormi (20+ GB CSV). Ho uno script che calcola statistiche aggregate con Pandas, ma diventa lentissimo durante le operazioni di groupby e merge. Dopo aver provato a ottimizzarlo con dtypes corretti e chunking, i tempi restano inaccettabili. Questo è un frammento critico:
```python
df = pd.read_csv('dati.csv', chunksize=100000)
results = []
for chunk in df:
agg = chunk.groupby('categoria')['valore'].agg(['sum', 'mean'])
results.append(agg)
final = pd.concat(results).groupby(level=0).sum()
```
Qualcuno ha esperienza con alternative efficienti? Ho sentito parlare di Dask o modin, ma non so se valgano lo sforzo. Suggerimenti su ottimizzazioni specifiche o librerie migliori? Ogni consiglio è benvenuto per scalare questo progetto!
```python
df = pd.read_csv('dati.csv', chunksize=100000)
results = []
for chunk in df:
agg = chunk.groupby('categoria')['valore'].agg(['sum', 'mean'])
results.append(agg)
final = pd.concat(results).groupby(level=0).sum()
```
Qualcuno ha esperienza con alternative efficienti? Ho sentito parlare di Dask o modin, ma non so se valgano lo sforzo. Suggerimenti su ottimizzazioni specifiche o librerie migliori? Ogni consiglio è benvenuto per scalare questo progetto!