Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
I record relativi alle corse dei taxi gialli includono campi contenenti data e ora di partenza e di arrivo, luogo di partenza e di arrivo, distanze delle corse, dettaglio delle tariffe, tipi di tariffa, tipi di pagamento e numero di passeggeri segnalato dal tassista".
Note
Microsoft fornisce i set di dati aperti di Azure "così come sono". non fornisce né garanzie, esplicite o implicite, né specifica alcuna condizione in relazione all'uso dei set di dati. Nella misura consentita dalla legge locale, Microsoft declina tutte le responsabilità per eventuali danni o perdite, incluse dirette, consequenziali, speciali, indirette, accidentali o irreversibili, risultanti dall'uso dei set di dati.
Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.
Volume e conservazione
Il set di dati viene archiviato nel formato Parquet. Al 2018 sono presenti in totale circa 1,5 miliardi di righe (50 GB). A partire dal 2019, i registri di viaggio ad alto volume vengono registrati separatamente.
Questo set di dati contiene record cronologici accumulati dal 2009 al 2025. È possibile usare le impostazioni dei parametri nell'SDK per recuperare i dati entro un intervallo di tempo specifico.
Posizione di archiviazione
Questo set di dati è archiviato nell'area Stati Uniti orientali di Azure. L'allocazione delle risorse di calcolo nell'area Stati Uniti orientali è consigliata per motivi di affinità.
Informazioni aggiuntive
Nyc Taxi and Limousine Commission (TLC):
I dati sono stati raccolti e forniti a NYC Taxi and Limousine Commission (TLC) da fornitori di soluzioni tecnologiche autorizzati in conformità con i programmi Taxicab e Livery Passenger Enhancement Program (TPEP/LPEP). I dati relativi alle corse non sono stati creati da TLC e TLC non rilascia alcuna dichiarazione relativamente alla correttezza di tali dati.
Vedere il percorso del set di dati originale e le condizioni per l'utilizzo originali.
Colonne
| Nome | Tipo di dati | Univoco | Valori (esempio) | Descrizione |
|---|---|---|---|---|
| doLocationId | string | 265 | 161 236 | Area taxi TLC in cui è stato disattivato il tassametro. |
| endLat | double | 961,994 | 41.366138 40.75 | |
| endLon | double | 1,144,935 | -73.137393 -73.9824 | |
| extra | double | 877 | 0.5 1.0 | Extra e maggiorazioni vari. Include attualmente solo gli addebiti pari a 0,50 USD e 1 USD per l'ora di punta e per la notte. |
| fareAmount | double | 18,935 | 6.5 4.5 | Tariffa in base a durata e distanza calcolata dal tassametro. |
| improvementSurcharge | string | 60 | 0.3 0 | Maggiorazione di 0,30 USD per il miglioramento del servizio aggiunta alla tariffa fissa sulle corse dei taxi. La maggiorazione per il miglioramento del servizio viene applicata dal 2015. |
| mtaTax | double | 360 | 0.5 -0.5 | Imposta MTA di 0,50 USD attivata automaticamente in base alla tariffa del tassametro in uso. |
| passengerCount | INT | 64 | 1 2 | Numero di passeggeri nel veicolo. Si tratta di un valore immesso dall'autista. |
| paymentType | string | 6,282 | CSH CRD | Codice numerico che indica il modo in cui il passeggero ha pagato la corsa. 1= Carta di credito; 2= Contanti; 3= Nessun addebito; 4= Controversia; 5= Sconosciuto; 6= Viaggio annullato. |
| puLocationId | string | 266 | 237 161 | Valore TLC Taxi Zone in cui è stato attivato il tassametro. |
| puMonth | INT | 12 | 3 5 | |
| puYear | INT | 29 | 2012 2011 | |
| rateCodeId | INT | 56 | 1 2 | Codice di tariffa finale in vigore alla fine della corsa. 1= Tariffa standard; 2= JFK; 3= Newark; 4= Nassau o Westchester; 5= Tariffa negoziata; 6= Corsa di gruppo. |
| startLat | double | 833,016 | 41.366138 40.7741 | |
| startLon | double | 957,428 | -73.137393 -73.9821 | |
| storeAndFwdFlag | string | 8 | N 0 | Questo flag indica se il record della corsa è stato conservato nella memoria del veicolo prima dell'invio al fornitore, noto anche come "archiviazione e inoltro" perché il veicolo non disponeva di una connessione al server. Y= corsa con archiviazione e inoltro; N= non una corsa con archiviazione e inoltro. |
| tipAmount | double | 12,121 | 1.0 2.0 | Questo campo viene popolato automaticamente per le mance tramite carta di credito. Le mance in contanti non sono incluse. |
| tollsAmount | double | 6,634 | 5.33 4.8 | Importo totale di tutti i pedaggi pagati durante la corsa. |
| totalAmount | double | 39,707 | 7.0 7.8 | Importo totale addebitato ai passeggeri. Non include le mance in contanti. |
| tpepDropoffDateTime | timestamp | 290,185,010 | 2010-11-07 01:29:00 2013-11-03 01:22:00 | Data e ora in cui è stato disattivato il tassametro. |
| tpepPickupDateTime | timestamp | 289,948,585 | 2010-11-07 01:00:00 2009-11-01 01:05:00 | Data e ora in cui è stato attivato il contatore. |
| tripDistance | double | 14,003 | 1.0 0.9 | Distanza percorsa durante la corsa in miglia segnalata dal tassametro. |
| vendorID | string | 7 | VTS CMT | Codice che indica il fornitore TPEP che ha fornito il record. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
| vendorID | INT | 2 | 2 1 | Codice che indica il fornitore LPEP che ha fornito il record. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Anteprima
| vendorID | tpepPickupDateTime | tpepDropoffDateTime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | puYear | puMonth |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2 | 24/1/2088 12:25:39 AM | 24/1/2088 7:28:25 AM | 1 | 4.05 | 24 | 162 | 1 | N | 2 | 14,5 | 0 | 0.5 | 0,3 | 0 | 0 | 15.3 | 2088 | 1 |
| 2 | 1/24/2088 12:15:42 AM | 24/1/2088 00:19:46 | 1 | 0,63 | 41 | 166 | 1 | N | 2 | 4.5 | 0 | 0.5 | 0,3 | 0 | 0 | 5.3 | 2088 | 1 |
| 2 | 11/4/2084 12:32:24 PM | 11/4/2084 12:47:41 PM | 1 | 1,34 | 238 | 236 | 1 | N | 2 | 10 | 0 | 0.5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
| 2 | 11/4/2084 12:25:53 PM | 11/4/2084 12:29:00 PM | 1 | 0,32 | 238 | 238 | 1 | N | 2 | 4 | 0 | 0.5 | 0,3 | 0 | 0 | 4.8 | 2084 | 11 |
| 2 | 11/4/2084 12:08:33 PM | 11/4/2084 12:22:24 PM | 1 | 1.85 | 236 | 238 | 1 | N | 2 | 10 | 0 | 0.5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
| 2 | 11/4/2084 11:41:35 | 04/11/2084 11:59:41 AM | 1 | 1,65 | 68 | 237 | 1 | N | 2 | 12.5 | 0 | 0.5 | 0,3 | 0 | 0 | 13.3 | 2084 | 11 |
| 2 | 11/4/2084 11:27:28 AM | 4/11/2084 11:39:52 | 1 | 1,07 | 170 | 68 | 1 | N | 2 | 9 | 0 | 0.5 | 0,3 | 0 | 0 | 9.8 | 2084 | 11 |
| 2 | 11/4/2084 11:19:06 AM | 11/4/2084 11:26:44 del mattino | 1 | 1.3 | 107 | 170 | 1 | N | 2 | 7.5 | 0 | 0.5 | 0,3 | 0 | 0 | 8.3 | 2084 | 11 |
| 2 | 11/4/2084 11:02:59 | 11/04/2084 11:15:51 AM | 1 | 1.85 | 113 | 137 | 1 | N | 2 | 10 | 0 | 0.5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
| 2 | 11/4/2084 10:46:05 AM | 11/4/2084 10:50:09 AM | 1 | 0,62 | 231 | 231 | 1 | N | 2 | 4.5 | 0 | 0.5 | 0,3 | 0 | 0 | 5.3 | 2084 | 11 |
Accesso ai dati
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://dotnet.territoriali.olinfo.it/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Passaggi successivi
Il resto dei set di dati è disponibile nel catalogo dei set di dati aperti.