<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Marine Engineering</title>
<title_fa>مهندسی دریا</title_fa>
<short_title>marineeng</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://marine-eng.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>1735-7608</journal_id_issn>
<journal_id_issn_online>2645-8136</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.61882/marineeng</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid></journal_id_sid>
<journal_id_nlai></journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1404</year>
	<month>4</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2025</year>
	<month>7</month>
	<day>1</day>
</pubdate>
<volume>21</volume>
<number>46</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>کنترل عمق عملیاتی ربات زیرسطحی AUV با روش یادگیری تقویتی (RL)</title_fa>
	<title>Depth control of an AUV robot using reinforcement learning (RL)</title>
	<subject_fa>طراحي، هیدروديناميك و ساخت زيرسطحي </subject_fa>
	<subject>Submarine Hydrodynamic &amp; Design</subject>
	<content_type_fa>مقاله پژوهشي</content_type_fa>
	<content_type>Research Paper</content_type>
	<abstract_fa>&lt;span dir=&quot;RTL&quot; lang=&quot;FA&quot; style=&quot;font-size:11.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;امروزه استفاده از روش&amp;shy;های پیشرفته برای کنترل حرکات ربات&amp;shy;های زیرسطحی سبب بهبود راندمان و افزایش کیفیت عملیات آن &amp;shy;ها شده است. در این پژوهش با استفاده از روش یادگیری تقویتی برای حرکت عمقی ربات&amp;shy;های &lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;AUV&lt;/span&gt;&lt;/span&gt;&lt;/span&gt; &lt;span dir=&quot;RTL&quot; lang=&quot;FA&quot; style=&quot;font-size:11.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;روشی توسعه داده شده است که براساس معیار پاداش الگوی حرکت ربات را یاد گرفته و براساس آن بهترین تصمیم را برای حرکت و کنترل سطوح کنترلی اتخاذ می&amp;shy;کند. کنترل حرکت عمقی براساس یادگیری تقویتی سبب بهبود عملکرد ربات میگردد و بهینه&amp;shy;ترین سیگنال کنترلی را براساس شرایط لحظه&amp;shy;ای ربات و پاداش&amp;shy;ها اتخاذ می&amp;shy;کند. در این پژوهش از مدل دینامیکی خطی حرکت پیچ برای توسعه مدل حرکت عمقی استفاده شده است. برای هر هدف مطلوب 500 مرتبه سناریو تکرار می&amp;shy;شود تا در حین شبیه&amp;shy;سازی ماتریس &lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;i&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;Q&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/i&gt; &lt;span dir=&quot;RTL&quot; lang=&quot;FA&quot; style=&quot;font-size:11.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;به روزرسانی شود. در ادامه با ارائه پاداش به هر سیگنال مقدار مطلوب مشخص می&amp;shy;گردد. پس از پایان سناریو، با انتخاب مقدار بهینه از ماتریس &lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;i&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;Q&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/i&gt;&lt;span dir=&quot;RTL&quot; lang=&quot;FA&quot; style=&quot;font-size:11.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;، مقدار سیگنال کنترلی برای بالک مشخص می&amp;shy;گردد. نتایج نشان داد که استفاده از روش یادگیری تقویتی کمک شایانی به کیفیت سیستم کنترل ربات&amp;shy;های &lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;AUV&lt;/span&gt;&lt;/span&gt;&lt;/span&gt; &lt;span dir=&quot;RTL&quot; lang=&quot;FA&quot; style=&quot;font-size:11.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;می&amp;shy;کند تا جایی که مقدار فرارفت و نوسان کمی در عملکرد مشاهده شد.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;</abstract_fa>
	<abstract>&lt;p dir=&quot;auto&quot;&gt;Nowadays, the use of advanced methods for controlling the movements of underwater robots has led to improved efficiency and enhanced operational quality. In this research, a method based on reinforcement learning has been developed for the depth control of AUV robots. This method learns the robot&amp;#39;s movement pattern based on a reward criterion and makes the optimal decision for motion and control surface adjustments accordingly. Depth control using reinforcement learning improves the robot&amp;#39;s performance and selects the most optimal control signal based on the robot&amp;#39;s conditions and rewards. In this study, a linear dynamic model of pitch motion was used to develop the depth control model. For each desired state, the scenario is repeated 500 times to update the Q-matrix during simulation. Subsequently, by assigning rewards to each signal, the optimal value is determined. After completing the scenario, the optimal value from the Q-matrix is selected to determine the control signal for the fin. The results showed that the use of reinforcement learning significantly enhances the quality of the AUV robot&amp;#39;s control system, resulting in minimal overshoot and oscillation in performance.&lt;/p&gt;</abstract>
	<keyword_fa>یادگیری تقویتی,کنترل عمق,ربات AUV,Under actuated</keyword_fa>
	<keyword>یادگیری تقویتی,کنترل عمق,ربات AUV,Under actuated</keyword>
	<start_page>71</start_page>
	<end_page>79</end_page>
	<web_url>http://marine-eng.ir/browse.php?a_code=A-10-1369-6&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>ali</first_name>
	<middle_name></middle_name>
	<last_name>hasanvand</last_name>
	<suffix></suffix>
	<first_name_fa>علی</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>حسنوند</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>ali.hassanvand@yahoo.com</email>
	<code>10031947532846006137</code>
	<orcid>10031947532846006137</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>Postdoctoral</affiliation>
	<affiliation_fa>پسا دکتری دانشگاه شریف</affiliation_fa>
	 </author>


	<author>
	<first_name>Mohammad Saeed</first_name>
	<middle_name></middle_name>
	<last_name>Seif</last_name>
	<suffix></suffix>
	<first_name_fa>محمد سعید</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>سیف</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>seif@sharif.edu</email>
	<code>10031947532846006138</code>
	<orcid>10031947532846006138</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>professor, sharif university of technology</affiliation>
	<affiliation_fa>استاد دانشگاه شریف</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
