pysparkデータフレームで日時から時間を抽出する方法は?

0
投票

私はCADE-0を持っています|次のようなデータフレーム:

次のようなpyspark pysparkデータフレームがあります。
df.show(5)

+----------+
|   t_start|
+----------+
|1506125172|
|1506488793|
|1506242331|
|1506307472|
|1505613973|
+----------+
df.show(5) +----------+ | t_start| +----------+ |1506125172| |1506488793| |1506242331| |1506307472| |1505613973| +----------+ df.show(5) + ----------+ | t_start| + ----------+ | 1506125172| | 1506488793| | 1506242331| | 1506307472| | 1505613973| + ----------+

各UNIXタイムスタンプの時間と曜日を取得したいと思います。これが私がしていることです:

各UNIXタイムスタンプの時間と曜日を取得したいと思います。これは私がしていることです:
df=df.withColumn("datetime", F.from_unixtime("t_start","dd/MM/yyyy HH:mm:ss"))
df=df.withColumn("hour", F.date_trunc('hour',F.to_timestamp("datetime","yyyy-MM-dd HH:mm:ss")))
df.show(5)

+----------+-------------------+----+
|   t_start|           datetime|hour|
+----------+-------------------+----+
|1506125172|23/09/2017 00:06:12|null|
|1506488793|27/09/2017 05:06:33|null|
|1506242331|24/09/2017 08:38:51|null|
|1506307472|25/09/2017 02:44:32|null|
|1505613973|17/09/2017 02:06:13|null|
+----------+-------------------+----+
df=df.withColumn("datetime", F.from_unixtime("t_start","dd/MM/yyyy HH:mm:ss")) df=df.withColumn("hour", F.date_trunc('hour',F.to_timestamp("datetime","yyyy-MM-dd HH:mm:ss"))) df.show(5) +----------+-------------------+----+ | t_start| datetime|hour| +----------+-------------------+----+ |1506125172|23/09/2017 00:06:12|null| |1506488793|27/09/2017 05:06:33|null| |1506242331|24/09/2017 08:38:51|null| |1506307472|25/09/2017 02:44:32|null| |1505613973|17/09/2017 02:06:13|null| +----------+-------------------+----+ df=df.withColumn("datetime"、F.from_unixtime("t_start"、"dd/MM/yyyy HH:mm:ss")) df=df.withColumn("hour"、F.date_trunc( 'hour'、F.to_timestamp("datetime"、"yyyy-MM-dd HH:mm:ss"))) df.show(5) + ----------+ -------------------+ ----+ | t_start|日時|時間| + ----------+ -------------------+ ----+ | 1506125172| 23/09/2017 00:06:12| null| | 1506488793| 27/09/2017 05:06:33| null| | 1506242331| 24/09/2017 08:38:51| null| | 1506307472| 25/09/2017 02:44:32| null| | 1505613973| 17/09/2017 02:06:13| null| + ----------+ -------------------+ ----+

そして私はCADE-4を手に入れました|列hour

null null列hour時間

ソース

pyspark python

-Joe Ferndz

-Joe Ferndz

2 答え
0
投票

CADE-0を使用できます|タイムスタンプ列から時間単位を抽出する関数。 (また、日付形式を変更します。dd/MM/yyyyにあります)

プリコード-0|
ソース
0
投票

CADE-0を使用できます| CADE-1で機能|簡単に。

プリコード-0|
ソース

興味があるかもしれません

© 2021   KonnichiwaSekai.Com