HiveServer2配置

翻譯: https://cwiki.apache.org/confluence/display/Hive/Setting+Up+HiveServer2
版本: 2.3.3

HiveServer2

HiveServer2(HS2)是服務(wù)器接口,使遠程客戶端執(zhí)行對hive的查詢和檢索結(jié)果(更詳細的介紹這里)。目前基于Thrift RPC的實現(xiàn),是HiveServer的改進版本,并支持多客戶端并發(fā)和身份驗證。它旨在為JDBC和ODBC等開放API客戶端提供更好的支持。

本文檔介紹如何設(shè)置服務(wù)器。HiveServer2客戶端文檔中描述了如何使用客戶

如何配置

hive-site.xml文件中的配置屬性

hive.server2.thrift.min.worker.threads - 工作線程的最小數(shù)量,默認為5。

hive.server2.thrift.max.worker.threads - 最大工作線程數(shù),默認值為500。

hive.server2.thrift.port - 偵聽的TCP端口號,默認為10000。

hive.server2.thrift.bind.host - 綁定到的TCP接口。

有關(guān)可以為HiveServer2設(shè)置的其他屬性,請參閱“配置屬性”文檔中的HiveServer2。

可選的環(huán)境設(shè)置

HIVE_SERVER2_THRIFT_BIND_HOST - 要綁定的可選TCP主機接口。覆蓋配置文件設(shè)置。
HIVE_SERVER2_THRIFT_PORT - 要偵聽的可選TCP端口號,默認為10000.覆蓋配置文件設(shè)置。

以HTTP模式運行

HiveServer2支持通過HTTP傳輸發(fā)送Thrift RPC消息(Hive 0.13以上,請參閱HIVE-4752)。這對于支持客戶端和服務(wù)器之間的代理中介(例如,出于負載平衡或安全原因)特別有用。目前,您可以在TCP模式或HTTP模式下運行HiveServer2,但不能同時運行這兩種模式。對于相應(yīng)的JDBC URL,請檢查此鏈接:HiveServer2客戶端 - JDBC連接URL。使用以下設(shè)置啟用和配置HTTP模式:

設(shè)置 默認 描述
hive.server2.transport.mode binary 設(shè)置為http以啟用HTTP傳輸模式
hive.server2.thrift.http.port 10001 要監(jiān)聽的HTTP端口號
hive.server2.thrift.http.max.worker.threads 500 服務(wù)器池中的最大工作線程數(shù)
hive.server2.thrift.http.min.worker.threads 5 服務(wù)器池中的最小工作線程數(shù)
hive.server2.thrift.http.path cliservice 服務(wù)端點(service endpoint)
基于Cookie的認證

HIVE-9709HIVE-9710在HTTP模式下為HiveServer2引入了基于cookie的認證。可以在此處找到與此更改相關(guān)的HiveServer2參數(shù)(hive.server2.thrift.http.cookie.*)。

可選全局初始化文件

全局init文件可以放置在配置的 hive.server2.global.init.file.location位置(Hive 0.14以后,參見HIVE-5160HIVE-7497HIVE-8138)。這可以是init文件本身的路徑,也可以是包含名為“.hiverc”的目錄。

init文件列出了一組將為此HiveServer2實例的用戶運行的命令,例如注冊一組標準的jar和函數(shù)。

日志配置

HiveServer2操作日志可用于Beeline客戶端(Hive 0.14以上)。這些參數(shù)配置記錄:

如何開始

$HIVE_HOME/bin/hiveserver2

OR

$HIVE_HOME/bin/hive --service hiveserver2

Usage信息

-H--help選項顯示用法消息,例如:

`$HIVE_HOME/bin/hive --service hiveserver2 -H`

`Starting HiveServer2`

`usage: hiveserver2`

`-H,--help                        Print help information`

`--hiveconf <property=value>   Use value for given property`

認證/安全配置

HiveServer2支持匿名(不啟用認證)和使用SASL,Kerberos(GSSAPI),通過LDAP,可插入自定義認證和可插入認證模塊(PAM,支持Hive 0.13以上)。

配置

  • 認證模式:
    hive.server2.authentication - 身份驗證模式,默認為NONE。可選項是NONE(使用普通SASL),NOSASL,KERBEROS,LDAP,PAM和CUSTOM。

  • 設(shè)置啟用KERBEROS模式:

hive.server2.authentication.kerberos.principal - 服務(wù)器的Kerberos主體。

hive.server2.authentication.kerberos.keytab - 服務(wù)器主體的Keytab。

  • 設(shè)置LDAP模式的以下內(nèi)容:

hive.server2.authentication.ldap.url - LDAP URL(例如,ldap://hostname.com:389)。

hive.server2.authentication.ldap.baseDN - LDAP基本DN。(對AD可選)

hive.server2.authentication.ldap.Domain - LDAP域。(Hive 0.12.0及更高版本)。

有關(guān) Hive 1.3.0及更高版本中的其他LDAP配置參數(shù),請參閱HiveServer2中的LDAP Atn Provider的用戶和組過濾器支持

  • 設(shè)置自定義模式:

hive.server2.custom.authentication.class - 實現(xiàn)org.apache.hive.service.auth.PasswdAuthenticationProvider接口的定制認證類。

Impersonation

默認情況下,HiveServer2以提交查詢的用戶身份執(zhí)行查詢處理。但是,如果以下參數(shù)設(shè)置為false,則查詢將以運行hiveserver2進程的用戶身份運行。

hive.server2.enable.doAs - 模擬連接的用戶,默認為true。

要防止在不安全模式下發(fā)生內(nèi)存泄漏,請通過將以下參數(shù)設(shè)置為true來禁用文件系統(tǒng)緩存(請參閱 HIVE-4501):

fs.hdfs.impl.disable.cache - 禁用HDFS文件系統(tǒng)緩存,默認為false。

fs.file.impl.disable.cache - 禁用本地文件系統(tǒng)緩存,默認為false。

完整性/機密性保護*

Hive JDBC驅(qū)動程序與HiveServer2之間進行通信的完整性保護和機密性保護(不僅僅是缺省認證)已啟用(Hive 0.12以上,請參閱HIVE-4911)。您可以使用SASL QOP屬性來配置它。

  • 這僅在Kerberos用于HiveServer2的HS2客戶端(JDBC / ODBC應(yīng)用程序)身份驗證時使用。
  • hive-site.xml必須將hive.server2.thrift.sasl.qop 設(shè)置為有效的QOP值之一('auth','auth-int'或'auth-conf')。

SSL加密

支持SSL加密(Hive 0.13以上,請參閱 HIVE-5351)。要啟用,請在以下位置設(shè)置以下配置 hive-site.xml

hive.server2.use.SSL - 將其設(shè)置為true。

hive.server2.keystore.path - 將其設(shè)置為您的密鑰庫路徑。

hive.server2.keystore.password - 將其設(shè)置為您的密鑰庫密碼。

注意

當hive.server2.transport.mode是binary并且hive.server2.authentication是KERBEROS時,SSL加密在Hive 2.0之前不起作用。將hive.server2.thrift.sasl.qop設(shè)置為auth-conf以啟用加密。詳情請參閱HIVE-14019

使用自簽名證書設(shè)置SSL

使用以下步驟創(chuàng)建并驗證用于HiveServer2的自簽名SSL證書:

  1. 使用以下命令創(chuàng)建自簽名證書并將其添加到密鑰庫文件: keytool -genkey -alias example.com -keyalg RSA -keystore keystore.jks -keysize 2048,確保自簽名證書中使用的名稱與HiveServer2將運行的主機名相匹配。

  2. 列出密鑰庫條目以驗證是否添加了證書。請注意,密鑰庫可以包含多個此類證書:keytool -list -keystore keystore.jks

  3. 將此證書從keystore.jks導(dǎo)出到證書文件:keytool -export -alias example.com -file example.com.crt -keystore keystore.jks

  4. 將此證書添加到客戶端的信任庫以建立信任關(guān)系:keytool -import -trustcacerts -alias example.com -file example.com.crt -keystore truststore.jks

  5. 驗證truststore.jks中是否存在證書:keytool -list -keystore truststore.jks

  6. 然后啟動HiveServer2,并嘗試使用以下命令連接直線: jdbc:hive2://<host>:<port>/<database>;ssl=true;sslTrustStore=<path-to-truststore>;trustStorePassword=<truststore-password>

選擇性地禁用SSL協(xié)議版本

要禁用特定的SSL協(xié)議版本,請使用以下步驟:

  1. 運行openssl ciphers -v(或者不使用openssl的相應(yīng)命令)查看所有協(xié)議版本。
  2. 除了1之外,可能還需要執(zhí)行額外的步驟來查看HiveServer2日志,以查看運行HiveServer2的節(jié)點支持的所有協(xié)議。為此,請在HiveServer2日志文件中搜索“啟用SSL服務(wù)器套接字的協(xié)議:”。
  3. 將所有需要禁用的SSL協(xié)議添加到hive.ssl.protocol.blacklist。確保hiveserver2-site.xml中的屬性不覆蓋hive-site.xml中的屬性。

可插入認證模塊(PAM)

警告

如果用戶的密碼已過期,用于提供PAM身份驗證模式的JPAM庫可能會導(dǎo)致HiveServer2關(guān)閉。發(fā)生這種情況是因為JPAM調(diào)用本地代碼的segfault / core轉(zhuǎn)儲。在其他情況下,某些用戶也在登錄過程中報告了崩潰。建議使用LDAP或KERBEROS。

PAM提供了支持(Hive 0.13,參見HIVE-6466)。配置PAM:

  • 下載 相關(guān)體系結(jié)構(gòu)的JPAM 本機庫。
  • 解壓并將libjpam.so復(fù)制到系統(tǒng)上的目錄(<libjmap-directory>)。
  • 將目錄添加到LD_LIBRARY_PATH環(huán)境變量中,如下所示:export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:<libjmap-directory>
  • 對于某些PAM模塊,您必須確保運行HiveServer2進程的用戶可以讀取您的文件/etc/shadow/etc/login.defs 文件。

最后,在以下位置設(shè)置以下配置 hive-site.xml

hive.server2.authentication - 將其設(shè)置為PAM。

hive.server2.authentication.pam.services - 將其設(shè)置為將使用的以逗號分隔的PAM服務(wù)列表。請注意,名稱與PAM服務(wù)同名的文件必須存在于/etc/pam.d中。

設(shè)置HiveServer2作業(yè)憑證提供程序

啟動Hive 2.2.0(參見 HIVE-14822)Hiveserver2支持MR和Spark作業(yè)的作業(yè)特定hadoop憑證提供程序。當通過Hadoop Credential Provider使用加密密碼時,HiveServer2需要將足夠的信息轉(zhuǎn)發(fā)到作業(yè)配置,以便跨群集啟動的作業(yè)可以讀取這些秘密。此外,HiveServer2可能具有作業(yè)不應(yīng)該具有的秘密,例如Hive Metastore數(shù)據(jù)庫密碼。如果你的工作需要訪問這些秘密,比如S3憑證,那么你可以使用下面的配置步驟來配置它們:

  1. 在HDFS中的安全位置使用Hadoop Credential Provider API創(chuàng)建特定于作業(yè)的密鑰庫。此密鑰庫應(yīng)包含作業(yè)所需配置的加密密鑰/值對。例如:對于S3憑證,密鑰庫應(yīng)該包含fs.s3a.secret.key和fs.s3a.access.key及其相應(yīng)的值。
  2. 解密密鑰庫的密碼應(yīng)設(shè)置為名為HIVE_JOB_CREDSTORE_PASSWORD的HiveServer2環(huán)境變量
  3. 將hive.server2.job.credential.provider.path設(shè)置 為URL,指向上面(1)中創(chuàng)建的密鑰存儲的類型和位置。如果沒有作業(yè)特定的密鑰庫,則HiveServer2將使用core-site.xml中使用hadoop.credential.provider.path的一個集(如果可用)。
  4. 如果未提供步驟2中設(shè)置的密碼使用環(huán)境變量,則HiveServer2將使用HADOOP_CREDSTORE_PASSWORD環(huán)境變量(如果可用)。
  5. HiveServer2現(xiàn)在將修改使用MR或Spark執(zhí)行引擎啟動的作業(yè)的作業(yè)配置,以包含作業(yè)憑證提供程序,以便作業(yè)任務(wù)可以使用秘密訪問加密的密鑰庫。

hive.server2.job.credential.provider.path - 將其設(shè)置為您的作業(yè)特定的hadoop憑據(jù)提供程序。例如:jceks://hdfs/user/hive/secret/jobcreds.jceks。

HIVE_JOB_CREDSTORE_PASSWORD - 將此HiveServer2環(huán)境變量設(shè)置為上面設(shè)置的特定于作業(yè)的Hadoop憑據(jù)提供程序密碼。

臨時目錄管理

HiveServer2允許配置Hive用來存儲臨時輸出和計劃的暫存目錄的各個方面。

配置屬性

以下是可以配置與臨時目錄相關(guān)的屬性:

ClearDanglingScratchDir工具

可以運行Cleardanglingscratchdir工具來清理Hive不正常關(guān)閉時可能遺留的任何懸掛臨時目錄,例如當虛擬機重新啟動并且Hive無法運行關(guān)閉掛鉤時。

hive --service cleardanglingscratchdir [-r] [-v] [-s scratchdir]
    -r      dry-run mode, which produces a list on console
    -v      verbose mode, which prints extra debugging information
    -s      if you are using non-standard scratch directory

該工具測試是否正在使用暫存目錄,如果沒有,將刪除它。這依賴于HDFS寫鎖定來檢測暫存目錄是否正在使用中。HDFS客戶端打開一個HDFS文件($scratchdir/inuse.lck)進行寫入,并且僅在會話關(guān)閉時關(guān)閉它。cleardanglingscratchdir將嘗試打開$scratchdir/inuse.lck以測試相應(yīng)的HiveCli / HiveServer2是否仍在運行。如果鎖正在使用中,則暫存目錄不會被清除。如果鎖定可用,則暫存目錄將被清除。請注意,NameNode最多可能需要10分鐘才能從死亡的HiveCli / HiveServer2中收回臨時文件鎖定的契約,屆時cleardanglingscratchdir將能夠在再次運行時將其刪除

HiveServer2的Web UI


在Hive 2.0.0中引入。參見HIVE-12338及其子任務(wù)。

HiveServer2的Web用戶界面(UI)提供配置,日志記錄,指標和活動會話信息。默認情況下,Web UI在端口10002(127.0.0.1:10002)可用。

該界面目前正在開發(fā) HIVE-12338

圖片.png

Python客戶端驅(qū)動

HiveServer2的Python客戶端驅(qū)動程序可在 https://github.com/BradRuderman/pyhs2上找到 (謝謝Brad)。它包括所有必需的軟件包,如SASL和Thrift包裝。

該驅(qū)動程序已經(jīng)通過了Python 2.6及更新版本的認證。

要使用pyhs2驅(qū)動程序:
pip install pyhs2

`import` `pyhs2`

`with [pyhs2.connect(host](https://cwiki.apache.org/confluence/display/Hive/pyhs2.connect(host)``=``'localhost'``,`

`port``=``10000``,`

`authMechanism``=``"PLAIN"``,`

`user``=``'root'``,`

`password``=``'test'``,`

`database``=``'default'``) as conn:`

`with [conn.cursor()](https://cwiki.apache.org/confluence/display/Hive/conn.cursor()) as cur:`

`#Show databases`

`print` `[cur.getDatabases()](https://cwiki.apache.org/confluence/display/Hive/cur.getDatabases())`

`#Execute query`

`[cur.execute(](https://cwiki.apache.org/confluence/display/Hive/cur.execute()``"select * from table"``)`

`#Return column info from query`

`print` `[cur.getSchema()](https://cwiki.apache.org/confluence/display/Hive/cur.getSchema())`

`#Fetch table results`

`for` `i ``in` `[cur.fetch():](https://cwiki.apache.org/confluence/display/Hive/cur.fetch():)`

`print` `i`

您可以在user@hive.apache.org郵件列表上討論此驅(qū)動程序 。

Ruby客戶端驅(qū)動

https://github.com/forward3d/rbhive上的github上提供了一個Ruby客戶端驅(qū)動程序 。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 說到理財,有很多人都在說: “理財干嘛呀?沒關(guān)系啦,省著點花好了嘛。” 對此我想說:如果到了日益發(fā)展的現(xiàn)在,你還保...
    暖暖泡沫閱讀 426評論 0 0
  • 作者:胡莊在這個/暴雨侵襲/城市里只為/在這片汪洋里/你早已懶得深一腳/淺一腳/試探心意人生風(fēng)雨/他的心墻/早已筑...
    獨立撰稿人胡莊閱讀 154評論 0 0
  • 新的開始 重拾計劃 勿忘初心 懂得感恩 充實自己
    sevencn閱讀 238評論 0 0
  • 327. Count of Range Sum 中午請人吃飯,結(jié)果吃多了,好困,有點坐不動了。這題有segment...
    健時總向亂中忙閱讀 234評論 0 0
  • 1. 家里的水管漏水了。媽媽請來了修水管的建。 現(xiàn)在的建,已經(jīng)50出頭了。掐指一算,我認識他已經(jīng)有20多年了。歲月...
    藍粉筆頭閱讀 313評論 1 2