<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0"
  xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
  xmlns:atom="http://www.w3.org/2005/Atom">

<channel>

<title>Yuriy Gavrilov: posts tagged Data Proc</title>
<link>https://gavrilov.info/tags/data-proc/</link>
<description>Welcome to my personal place for love, peace and happiness 🤖 Yuiry Gavrilov</description>
<author></author>
<language>en</language>
<generator>Aegea 11.4 (v4171e)</generator>

<itunes:owner>
<itunes:name></itunes:name>
<itunes:email>yvgavrilov@gmail.com</itunes:email>
</itunes:owner>
<itunes:subtitle>Welcome to my personal place for love, peace and happiness 🤖 Yuiry Gavrilov</itunes:subtitle>
<itunes:image href="https://gavrilov.info/pictures/userpic/userpic-square@2x.jpg?1643451008" />
<itunes:explicit>no</itunes:explicit>

<item>
<title>Тестирую Yandex Data Proc</title>
<guid isPermaLink="false">32</guid>
<link>https://gavrilov.info/all/data-doc/</link>
<pubDate>Sun, 24 Jul 2022 18:39:34 +0300</pubDate>
<author></author>
<comments>https://gavrilov.info/all/data-doc/</comments>
<description>
&lt;p&gt;Не буду описывать подробно как заказать услугу Data Proc, так как это оказалось достаточно просто.&lt;br /&gt;
Генерируем ключ ( желательно без пароля ) для более удобного доступа.&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;ssh-keygen -t rsa&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Создаем Data Proc кластер ... next next finish ...&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Копируем данные на ноду:&lt;/b&gt;&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;cat &amp;quot;/Users/yuriygavrilov/Documents/My Tableau Repository/Datasources/2022.1/en_US-US/Sample - Superstore.txt&amp;quot; | ssh -i /Users/yuriygavrilov/ssh_key/ya_np/ya ubuntu@51.250.79.62 'cat | hadoop fs -put - &amp;quot;hdfs://rc1a-dataproc-m-a1s92pxkgxp555pm.mdb.yandexcloud.net:8020/user/hive/warehouse/stor/stor.csv&amp;quot;'&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;&lt;b&gt;Обвязываем табличку:&lt;/b&gt;&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;create external table store 
(Row_IDstring,
Order_IDstring,
Order_Datestring,
Ship_Datestring,
Ship_Modestring,
Customer_IDstring,
Customer_Namestring,
Segmentstring,
Country_Regionstring,
Citystring,
Statestring,
Postal_Codestring,
Regionstring,
Product_IDstring,
Categorystring,
Sub_Categorystring,
Product_Namestring,
Salesstring,
Quantitystring,
Discountstring,
Profitstring
)       
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE
LOCATION 'hdfs://rc1a-dataproc-m-a1s92pxkgxp555pm.mdb.yandexcloud.net:8020/user/hive/warehouse/stor/'
tblproperties (&amp;quot;skip.header.line.count&amp;quot;=&amp;quot;1&amp;quot;);&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;&lt;b&gt;Создаем таблицу итогов продаж по регионам:&lt;/b&gt;&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;create table region_sales
(region string,
sales float 
);&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;&lt;b&gt;Загружаем данные:&lt;/b&gt;&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;insert into region_sales (region, sales) select region, sum(REPLACE(sales, &amp;quot;,&amp;quot;, &amp;quot;.&amp;quot;)) as sales from store group by region ;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;&lt;b&gt;Проверяем итоги: &lt;/b&gt;&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;select * from region_sales&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Central501239.9&lt;br /&gt;
East678781.25&lt;br /&gt;
South391721.9&lt;br /&gt;
West725457.8&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Все ровно) &lt;/b&gt;&lt;br /&gt;
но вот запросы исполняются достаточно долго 12 секунд, но никто и не обещал скорость на малых данных.&lt;/p&gt;
&lt;p&gt;В целом очень удобно. Заказал, загрузил, посчитал и выключил.&lt;/p&gt;
&lt;p&gt;&lt;b&gt;А теперь тестируем Спарк:&lt;/b&gt;&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;spark-shell
import spark.implicits._
import spark.sql
sql(&amp;quot;SELECT region, sum(sales) FROM store_orc group by Region&amp;quot;).show()
+-------+------------------+
| region|        sum(sales)|
+-------+------------------+
|  South|391721.90536534786|
|Central|  501239.889593184|
|   East| 678781.2377765179|
|   West| 725457.8231142759|
+-------+------------------+&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Класс!) заработало)&lt;/p&gt;
</description>
</item>


</channel>
</rss>