Solo una: internet non funziona o non puoi usarlo e hai assolutamente bisogno del documento
Questa è veramente una killer feature per me: se una app non ha l'accesso offline io non la uso
Allora, partiamo da alcuni presupposti che penso sian fondamentali:
-
Che tipo di documenti personali? Leggendo la lista che hai dato credo sian più che altro documentazioni di lavoro che, bene o male, anche se finissero nel vasto web non sarebbe una problematica seria. Fastidioso? Certo. Problematico? Eh.
-
È quasi impossibile far veramente un discorso sull'impatto ambientale senza saper seriamente che tipo d'uso e casistiche d'utilizzo hai. E anche sapendo quello sarebbe un discorso incredibilmente approssimativo. Puoi calcolare magari quanti W/h finiresti per usare, ma questo dice ben poco sul vero impatto ambientale.
In linea di massima, però, parti dal pensiero che se puoi metter tutto su un Raspberry Pi, o tenertelo direttamente sul tuo portatile/fisso perché ti serve solo quando sei con il PC acceso, di sicuro l'impatto è inferiore a qualsiasi altra soluzione. Al contempo la riduzione non è sinceramente significativa a livello globale.
Con questi presupposti ti direi: Usa il servizio che è più comodo per il tuo uso, senza perderci troppo sonno.
Mettendo ciò da parte mi piacerebbe parlare, più in generale, del cloud: credo sia importante per le persone capire cosa significa mettere qualcosa "nel cloud".
Il cloud è solo una collezione di computer da qualche altra parte. Qualcuno gestisce i servizi per te, dandoti in cambio dei tuoi soldi (o direttamente dei tuoi dati) una comodità, o rendendo meno oneroso per la tua azienda l'uso di un servizio (stai praticamente esternalizzando il reparto IT).
Quando usi un servizio cloud devi però tenere a mente questo:
1- Per un attore malevolo avanzato più sei piccolo e meno sei interessante. Certo puoi aver litigato su qualche forum con xXxX420UberKringer69XxXx che in realtà è un esperto h4x0r, ma è abbastanza improbabile.
Questo significa che, generalmente, avere il tuo serverino in casa con le dovute minime accortezze (non lasciare tutte le porte aperte ed evitare di metterlo direttamente collegato alla rete esterna son già buoni passi, cosa che purtroppo in molti non fanno) è più sicuro di essere sul cloud di una qualche nuova startup che è recentemente esplosa in fama passando da 0 clienti a 10 milioni.
Perché, al contrario di quello che certi soggetti marketing vogliono farti credere, non si tratta di un "se" un servizio verrà bucato, ma di "quando".
Più appetibili e numerosi sono i dati che un servizio contiene, più sofisticati diventano gli attacchi a cui deve far fronte. E non si tratta solo dell'hacker e degli 0-day ma anche, molto più spesso, di semplice ingegneria sociale (l'articolo di Wikipedia non è gran che, ma rende l'idea) che parte dal basso e pian piano scala i livelli di sicurezza, letteralmente truffando le persone e i sistemi informatici.
2- Se è sul cloud significa che finché sia tu che i loro server hanno l'accesso ad internet, potrai accedere ai tuoi dati ovunque tu (o chiunque altro con i dati d'accesso) sia, il che oggigiorno non è male. Al contempo se tu, o loro, hanno problemi (magari perché soggetti ad un attacco di negazione del servizio ) allora i tuoi dati non saranno accessibili per tutta la durata del disservizio. Puoi ovviare a questo problema mantenendo una copia aggiornata locale, ma a questo punto, vale lo sforzo d'avere un cloud? Usa direttamente qualcosa come rsync o syncthing. Al contrario del punto di prima qui più un servizio è grosso più è improbabile che ciò abbia un impatto significativo. È più semplice fare un DDoS di lemmy.world che buttare giù github.com . Ma succede anche quello.
3- Quando metti qualcosa su internet devi esser sempre pronto al fatto che l'informazione venga trapelata, in un modo o nell'altro. Questa è una regola di base che è sempre sano tener presente.
4- Le aziende mentono o travisano la realtà attraverso il marketing. Spesso parlano di "Military-grade cryptography" o altri bei paroloni che, spesso, si traducono in un meno ampolloso "usiamo un qualche standard". E, ancor più spesso, anche se quello che dicono è tecnicamente vero, alla prova dei fatti è ininfluente. Per esempio anche se il servizio offre la criptografia dei tuoi dati mentre non sono utilizzati (un esempio del concetto: Collegamento ), ma offre la decriptazione lato server, significa che sono loro ad avere la chiave ai tuoi dati: non tu! Questo significa che se i loro server vengono bucati è plausibilissimo che anche la chiave ai tuoi dati venga ottenuta in un modo o nell'altro.
Senza considerare che è sempre possibile che condividano i tuoi dati con agenti terzi, come forze di polizia o "business partners".
Ovviamente esistono centinaia di modi per prevenirlo, ma devi comunque fidarti che l'azienda prenda questi passi supplementari. Il che spesso significa spese maggiori per loro. Eh.
5- Anche quando sono veramente crittografati e l'azienda non ha accesso alla chiave, può succedere che i loro server vengano bucati e i dati estrapolati: ci sono gruppi che mantengono i blob crittografati nella prospettiva che i computer di domani potranno bucarli, o perché abbastanza veloci, o perché si troverà una falla nello standard.
Questo non significa "non usare il cloud!" ma semplicemente che prima di usarlo bisogna tener presente quali sono i potenziali problemi. Un'azienda - o una persona - dovrebbe sempre fare una valutazione del rischio conscia prima d'inviare i propri dati, o quelli dei propri clienti, a qualche azienda terza.
Grazie per questa panoramica dei rischi del cloud, anche per i riferimenti esterni! L'immagine che ne esce è quindi di evitare di mettere informazioni confidenziali sul cloud - il che è veramente una buona pratica. Non sapevo che alcuni gruppi tengono anche i blob crittografati e questo in generale mi sembra furbo da parte loro, e un rischio in più per chi si difende.
Secondo te c'è il rischio che, per esempio, i documenti sul cloud vengano usati per il training AI? Mi sembra una mole di dati potenzialmente nuova che le compagnie potrebbero iniziare a sfruttare.
Secondo te c’è il rischio che, per esempio, i documenti sul cloud vengano usati per il training AI? Mi sembra una mole di dati potenzialmente nuova che le compagnie potrebbero iniziare a sfruttare.
Beh, senza andare troppo lontano possiamo guardare direttamente a Google e alle loro risposte: (Collegamento)
Google Docs, Sheets, & Slides uses data to improve your experience
To provide services like spam filtering, virus detection, malware protection and the ability to search for files within your individual account, we process your content.
To improve Google Docs, Sheets, & Slides’ performance and reliability, and to help with troubleshooting in case of issues while you use Google Docs, Sheets, & Slides, we collect performance data and crash analytics. We also save this info to help prevent abuse of our services and for analysis.
Questo cosa significa? Tutto e niente. Di sicuro non useranno i tuoi dati privati per addestrare Bard - per quello han già letteralmente l'intero internet di dati pubblici.
Però, per esempio, le tue Email son usate, dichiaratamente, per generare un modello per il tuo personale Smart Compose in Gmail:
For each user, a dedicated n-gram language model is trained on his or her “Sent” e-mails in the past a few months. The personal vocabulary is extracted from the same data set according to word frequency with a minimum number of word occurrence threshold, and the vocabulary size is constrained to be below a maximum threshold. Since there are always some out-of-vocabulary (OOV) words that are not included in either the global or personal vocabularies, we assign OOVs a tiny probability to ensure that the probability of all possible words sum up to one.
I dati aggregati vengon usati anche per altro? Molto probabile, ma non ho la pazienza di sfogliare tutto il ciarpame legale che i TOS di Google rappresenta. Comunque puoi trovare una discussione interessante, di qualche mese fa, su Hackernews. E sicuramente se hai tempo di cercare ce ne sono centinaia d'altre.
Non mi stupirebbe poi che startup di varia natura abbiano da qualche parte, in legalese e scritto in piccolo, che posson far quel che vogliono in qualsiasi momento con i dati che gli dai. Per questo, ripeto, una valutazione dei rischi dovrebbe esser obbligatoria per ogni azienda quando decide di utilizzare qualche servizio per la gestione dei suoi dati.
Ricapitolando, usare i tuoi dati privati per addestrare LLM? Rischioso e sinceramente non ne vale la pena. Usare i tuoi dati personali per creare modelli di varia natura per qualche tipo di analisi? Senza dubbio alcuno.
La risposta è sempre dipende, poiché per tutte le soluzioni e le mitigazioni proposte è imprescindibile secondo me prima discutere di:
- Qual'è il tuo Threat model (chi scrive qui assumo che sia: avere il più possibile controllo sui propri dati personali e non darli a big tech)
- Il livello di alfabetizzazione digitale (nota alfabetizzazione digitale: non significa che devi saper installare Arch Linux)
- Quanto tempo o denaro sei disposto a pagare per la tua privacy (si, dovrebbe essere un diritto è vero, ma ci stiamo lavorando)
Un breve elenco dei problemi:
- Impatto ambientale: ogni volta che ho provato a cercare in letteratura scientifica non ho mai trovato un consensus sul fatto che l'IT sia green o meno, proprio perché quelle aziende non hanno alcun interesse a divulgare i propri dati. Le argomentazioni che ho trovato sono:
Pro: Big Tech ottimizza il proprio hardware per consumare meno, sfrutta datacenter green, li raffredda anche utilizzando l'aria esterna bla bla Contro: Big Tech utilizzando algoritmi di Machine Learning che hanno consumo di corrente elevato e richiedono processori dedicati, fabbricati con materie prime prese facendo danni ambientali in paesi del terzo mondo. Fonte per approfondire: Atlas of AI di Kate Crawford
Contro: Utilizzare i propri dispositivi piuttosto che i servizi cloud dovrebbe essere in qualche modo più ecologico. In generale è una argomentazione molto debole in quanto deve essere provata con dei dati che AFAIK non ci sono (se invece ci sono, sono felice di essere smentito).
-
Impatto sulla sicurezza: fare attacchi mirati a Google o in generale ai driver online o offline al tuo computer è in entrambi i casi molto difficile, il secondo non conviene al criminale informatico non avrebbe alcun guadagno dall'avere solo i tuoi documenti (a meno che non sei CEO salcazzo o parlamentare o qualcosa del genere, ma quello è un altro discorso). Assumendo che venga applicata correttamente la cifratura, è da preferire un drive cifrato online con zero knowledge da parte di chi ti fornisce il servizio. Vedi link: https://www.lealternative.net/2019/10/29/alternative-a-google-drive/
-
Privacy: Il modello di business di Big Tech è basato sulla analisi e vendita di dati personali. Se ti forniranno dei servizi cifrati (es Whatsapp) allora inizieranno ad analizzare i tuoi metadati, che non sono ovviamente cifrati. Per la maggiore parte delle persone, questo non è un problema e quindi può non essere una argomentazione, il Fediverso è frequentato da una nicchia di persone per cui invece la privacy è una killer feature.
-
Accesso ai documenti: questo in teoria andrebbe nel punto 2 però va be:
Rischio ambientale legato al cambiamento climatico, le alte temperature mettono a rischio i sistemi che mantengono l'energia elettrica Questo punto è un po' apocalittico ad oggi 2023, ma sarà più concreto man mano che la temperatura media si alza in tutto il pianeta. Tuttavia con la tecnologia, data la grande disponibilità e la cultura dell'usa-e-getta, non riusciamo a ragionare nel medio-lungo termine e diamo per scontato tante cose. Mitigazione: vedi punto successivo
Impossibile accedere offline: apparte il punto precedente, immagina che un giorno non hai la connessione internet, o non hai la linea. Ti serve per forza accedere ai tuoi documenti personali ma l'app non te lo fa fare. Ovviamente controlla sempre che il Drive che usi consenta l'accesso anche da offline, non so se è il caso di Google.
Ban dell'account: il rischio è basso, ma se per qualsiasi motivo il tuo account viene bandito, perderai tutti i tuoi dati. Il supporto è notoriamente lento a rispondere e si potrebbe rifiutare di ripristinare l'account. Caso noto: https://www.theguardian.com/technology/2022/aug/22/google-csam-account-blocked
Se non fai i backup in modo appropriato, potresti perdere i tuoi documenti: questa è una argomentazione a favore del drive. Questo punto può essere mitigato se sei capace a fare un backup e segui le buone pratiche.
Comodità: Il drive è comodo, l'offline è scomodo.
In conclusione, se hai tempo o denaro o competenze/alfabetizzazione digitale o una combinazione delle precedenti, una soluzione che sia rispettosa della privacy, "green" e sicura si trova. C'è un articolo delle alternative che consiglio https://www.lealternative.net/2019/10/29/alternative-a-google-drive/
Se nessuna delle soluzioni proposte nell'articolo soddisfano la tua necessità, allora meglio Google Drive che avere i documenti offline.
Grazier davvero per tutte queste informazioni La soluzione self hosted per i dati mi piace molto, soprattutto perché soitamente si impara molto. Tuttavia questo restringe un po' l'utenza e in generale non sembra troppo facile da diffondere e consigliare un cloud sembra la strana migliore quanto meno per i backup.
@panbroggi Io uso #LibreOffice in locale. Per quanto riguarda la parte cloud, mi sono creato mia istanza personale #Nextcloud su #Raspberry. Quindi il locale è in formato ODF che usi il desktop quando a casa o lo smartphone da remoto.
Ne ho scritto un articolo sul blog (link) proprio l'altro giorno, riguardo i password manager. In quel caso, io sono assolutamente per una soluzione locale perché si ha controllo sui propri dati sensibili.
Le uniche suite che hanno senso usate "online" sono quelle che permettono una collaborazione in tempo reale a un qualche file.
Ove possibile, sono per l'utilizzo in locale e poi una sincronizzazione in cloud al momento del salvataggio (Dropbox, OneDrive, ecc.), soprattutto per evitare sprechi computazionali non necessari in cloud.
Come tutto nella vita... Dipende
La terza: estensione office su un'istanza Nextcloud! /s
Battute a parte offline tutta la vita
Etica Digitale (Feddit)
Etica Digitale è un gruppo volontario indipendente attivismo con l’intento di riportare la persona e i diritti al centro del dibattito tecnologico.
Se fatto nel rispetto del regolamento, ogni contributo è benvenuto!
Regolamento:
- Rispetto e cordialità sempre
- Niente troll
- Niente pubblicità
- Evitare di andare fuori tema nelle discussioni
- Evitare discorsi con sfondi politici o propagandistici che non siano strettamente correlati agli argomenti trattati
- No attività illegali
- Non importunare le e gli utenti in privato.
Alcune informazioni utili:
🔹 Sito: eticadigitale.org
📧 Email: etica.digitale@mailfence.com
🦣 Mastodon
📣 Telegram (canale)
👥 Telegram (gruppo)