PDA

Visualizza Versione Completa : Excel



Major Sludgebucket (ABS)
17-03-21, 08:27
A third of all genetics papers published in Nature over a decade (and 20% across all journals) had errors due to the fact that many genes have names like SEPT2 (the official name of Septin 2), which were automatically coded as dates by Microsoft Excel. https://twitter.com/kgong/status/1370616101474758657

Scientists rename human genes to stop Microsoft Excel from misreading them as dates https://www.theverge.com/2020/8/6/21355674/human-genes-rename-microsoft-excel-misreading-dates

Kraven VanHelsing
17-03-21, 10:38
O magari potrebbero fare lo sforzo di imparare ad usare strumenti pensati appositamente per fare ricerca seriamente.

Lo Zio
17-03-21, 10:44
basta semplicemente impostare correttamente il formato dati della cella :asd:

Moloch
17-03-21, 10:47
basta semplicemente impostare correttamente il formato dati della cella :asd:

il problema è il passaggio xlsx -> csv -> xlsx che fa perdere tutte le formattazioni

- - - Aggiornato - - -


O magari potrebbero fare lo sforzo di imparare ad usare strumenti pensati appositamente per fare ricerca seriamente.

per il mero data entry purtroppo ancora excel è impareggiabile.
ovviamente le elaborazioni le fai altrove.

Kraven VanHelsing
17-03-21, 10:59
basta semplicemente impostare correttamente il formato dati della cella :asd:

Da quel che ho visto, bioinformatici a parte, gli altri ricercatori di ambito life sciences sono fortemente a disagio con statistica, matematica e strumenti informatici.
"Imparano" il minimo indispensabile per sfangarla.

E dato che questo difetto appartiene sia a chi scrive articoli, sia ai "peers" che li "controllano" prima dell'agognata pubblicazione... un gran numero di errori rimangono undetected.
E' davvero grottesco.

Lo Zio
17-03-21, 11:00
il problema è il passaggio xlsx -> csv -> xlsx che fa perdere tutte le formattazioni

ok pace. però quando stai analizzando dati dovresti almeno avere idea di cosa stai analizzando... altrimenti siamo al "i have no idea what i am doing" :asd:

Moloch
17-03-21, 11:02
ok pace. però quando stai analizzando dati dovresti almeno avere idea di cosa stai analizzando... altrimenti siamo al "i have no idea what i am doing" :asd:

mi sa che non hai idea della dimensione dei dataset di genomica.

Kraven VanHelsing
17-03-21, 11:02
ok pace. però quando stai analizzando dati dovresti almeno avere idea di cosa stai analizzando... altrimenti siamo al "i have no idea what i am doing" :asd:

https://media.giphy.com/media/iBEW5Amz0ztza/giphy.gif

Lo Zio
17-03-21, 11:16
mi sa che non hai idea della dimensione dei dataset di genomica.

no ovviamente, mai visto uno :boh2: a questo punto andrebbe quindi ottimizzata la struttura o quella roba lì

:asd: un problema grosso si può scomporre in problemi piccoli :fag:

Moloch
17-03-21, 11:18
no ovviamente, mai visto uno :boh2: a questo punto andrebbe quindi ottimizzata la struttura o quella roba lì

:asd: un problema grosso si può scomporre in problemi piccoli :fag:

no, i dataset genomici spesso hanno centinaia di variabili.
"ottimizzare la struttura" non esiste ed è una semplicistica semplificazione da ingegnere: se devi elaborare analisi statistiche su quei dati lì cosa cazzo vuoi "ottimizzare"? :asd:

Lo Zio
17-03-21, 11:20
:asd: beh ottimizzi, o quanto meno rendi cosciente chi fa le cose, che se devi analizzare delle date (gg.mm.aaaa) e dentro trovi "pere mele arance" magari qualcosa non torna :fag:

:asd:

golem101
17-03-21, 12:01
E qui ragazzi e meno giovani, avete un esempio diretto delle tre risposte standard dell'ingegnere:

è impossibile/hai sbagliato
dipende
non è un problema mio

Napoleoga
17-03-21, 12:03
E qui ragazzi e meno giovani, avete un esempio diretto delle tre risposte standard dell'ingegnere:

è impossibile/hai sbagliato
dipende
non è un problema mio


Non esiste risposta corretta che non sia anticipata da un dipende :sisi:

Moloch
17-03-21, 12:04
:asd: beh ottimizzi, o quanto meno rendi cosciente chi fa le cose, che se devi analizzare delle date (gg.mm.aaaa) e dentro trovi "pere mele arance" magari qualcosa non torna :fag:

:asd:

quando importi da csv un dataset 300*300.000 è molto efficiente andare a vedere in giro dove i geni informatici della microsoft hanno deciso di sputtanarti i contenuti di cella.

che poi hai capito l'esatto contrario: il problema di excel è che ti riconosce come data tutto quello che in realtà data non è, non c'è modo di disabilitare questo orrore di default e se cambi manualmente il formato di cella in dataset importati da data a testo o a numero ti viene restituita la codifica nativa, cioè il numero di giorni trascorsi dal 1 gennaio 1900, perdendo totalmente l'informazione originaria.

una programmazione da scimmie spastiche.

golem101
17-03-21, 12:04
Taaaaaac! (cit.) :asd:

Lo Zio
17-03-21, 12:11
E qui ragazzi e meno giovani, avete un esempio diretto delle tre risposte standard dell'ingegnere:


dipende

così è corretto :asd:

- - - Aggiornato - - -

mi fa piacere che in una discussione generica si finisca sempre a insultare :fag:

Kraven VanHelsing
17-03-21, 12:24
https://www.theregister.com/2020/08/06/excel_gene_names/



"There are lots of better alternatives," Neil Saunders, a data scientist who sounded (https://nsaunders.wordpress.com/2012/10/22/gene-name-errors-and-excel-lessons-not-learned/) the alarm about genetic mishaps with Excel back in 2012, told The Register today. "But Excel is on their computers and they feel familiar with it, even if they can't actually use it properly. Biologists in particular are reluctant to invest time in learning programming skills."

[...]

"It's often pointed out that the problem is entirely avoidable, by setting Excel column type when importing CSV files," Saunders told us. "But no one does this – they just click on a file name, it opens in Excel – boom, the damage is done." He blames Microsoft for the blunders. "Really I think the issue is that non-explicit auto-conversion of data types is a bad default software behavior."

"Personally I think that changing the gene symbols is not a great solution," Saunders told us. "But given that Microsoft won't change its default Excel behavior and 16-plus years of attempts to educate biologists on the issue have failed, I suppose it is a practical solution."

e persino dall'articolo di verge nel primo post


There’s no easy fix, either. Excel doesn’t offer the option to turn off this auto-formatting, and the only way to avoid it is to change the data type (https://www.youtube.com/watch?v=SppKiKIdCkI&feature=youtu.be) for individual columns. Even then, a scientist might fix their data but export it as a CSV file without saving the formatting. Or, another scientist might load the data without the correct formatting, changing gene symbols back into dates. The end result is that while knowledgeable Excel users can avoid this problem, it’s easy for mistakes to be introduced.

https://www.abbreviations.com/images/109180_PEBCAK.png

tigerwoods
17-03-21, 13:12
quando importi da csv un dataset 300*300.000 è molto efficiente andare a vedere in giro dove i geni informatici della microsoft hanno deciso di sputtanarti i contenuti di cella.

che poi hai capito l'esatto contrario: il problema di excel è che ti riconosce come data tutto quello che in realtà data non è, non c'è modo di disabilitare questo orrore di default e se cambi manualmente il formato di cella in dataset importati da data a testo o a numero ti viene restituita la codifica nativa, cioè il numero di giorni trascorsi dal 1 gennaio 1900, perdendo totalmente l'informazione originaria.

una programmazione da scimmie spastiche.

non mi é chiaro perché usare proprio excel, importa il csv in matlab e hai zero problemi. :fag:

Glasco
17-03-21, 13:18
https://static-3.bitchute.com/live/cover_images/pKTun4Tz3PTC/H2QjQN3KqpXE_640x360.jpg

Moloch
17-03-21, 14:44
non mi é chiaro perché usare proprio excel, importa il csv in matlab e hai zero problemi. :fag:

in genere arrivano csv già sformattati :asd:

Tene
17-03-21, 15:00
Questa cosa che ogni cella è sempre una data l'ho notata anche io, mi sembra che libre office non sia così fastidioso!

Lo Zio
17-03-21, 15:00
in genere arrivano csv già sformattati :asd:

almeno non vi arrivano come docx :asd:

Stefansen
17-03-21, 15:48
Ricordo il sistema sanitario britannico essere andato in palla per qualche giorno (in tempi preCovid) per un problema su formattazioni varie in Excel

Lo Zio
17-03-21, 15:49
eh sarà stato il millennial bag :snob:

Lolliker
17-03-21, 18:02
Qualcuno mi linka un file tipo?

Mi piacerebbe capire se è vero che "non si può" o è più "non siamo capaci quindi diciamo che non si può".

Che poi, se Molocco dice che gli arrivano già sformattati il problema è all'origine.

Milton
17-03-21, 19:26
Libre Office & R e passa la paura :snob:

fulviuz
17-03-21, 19:57
Trattasi di pebcak

-=S8=-
17-03-21, 20:12
Basta dire ad excel di importare il dato come testo... :smugranking:

Dehor
17-03-21, 20:24
programma di merda, fortunatamente lo uso poco ma quando capita partono dei bestemmioni assurdi

che cazzo converti di default certi input, se lo voglio devo indicartelo io, m****** ladra