亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

Rumah pembangunan bahagian belakang C++ Bolehkah Arahan SIMD pada CPU Intel Meningkatkan Prestasi Algoritma Jumlah Awalan dengan ketara?

Bolehkah Arahan SIMD pada CPU Intel Meningkatkan Prestasi Algoritma Jumlah Awalan dengan ketara?

Nov 27, 2024 am 03:27 AM

Can SIMD Instructions on Intel CPUs Significantly Improve Prefix Sum Algorithm Performance?

Jumlah Awalan SIMD pada Pemproses Intel

Pengenalan

Algoritma jumlah awalan mencari jumlah terkumpul daripada tatasusunan yang diberikan. Operasi ini dihadapi dalam pelbagai masalah pengiraan dan memerlukan prestasi tinggi untuk pemprosesan yang cekap. Dalam artikel ini, kami membincangkan sama ada arahan SIMD pada CPU Intel boleh meningkatkan prestasi algoritma jumlah awalan.

Jumlah Awalan Selari dengan SIMD

Satu algoritma jumlah awalan selari melibatkan melakukan operasi dalam dua hantaran. Dalam hantaran pertama, jumlah separa dikira secara selari, diikuti dengan pengumpulan jumlah keseluruhan bagi setiap jumlah separa. Hantaran kedua menambah jumlah keseluruhan jumlah separa kepada yang seterusnya. Menggunakan berbilang benang melalui OpenMP untuk selari dan arahan SIMD untuk hantaran kedua boleh meningkatkan kecekapan.

Kod untuk Jumlah Awalan SIMD

Berikut ialah contoh kod untuk di atas algoritma:

__m128 scan_SSE(__m128 x) {
    x = _mm_add_ps(x, _mm_castsi128_ps(_mm_slli_si128(_mm_castps_si128(x), 4)));
    x = _mm_add_ps(x, _mm_shuffle_ps(_mm_setzero_ps(), x, 0x40));
    return x;
}

void pass1_SSE(float *a, float *s, const int n) {
    __m128 offset = _mm_setzero_ps();
    #pragma omp for schedule(static) nowait
    for (int i = 0; i < n / 4; i++) {
        __m128 x = _mm_load_ps(&amp;a[4 * i]);
        __m128 out = scan_SSE(x);
        out = _mm_add_ps(out, offset);
        _mm_store_ps(&amp;s[4 * i], out);
        offset = _mm_shuffle_ps(out, out, _MM_SHUFFLE(3, 3, 3, 3));
    }
    float tmp[4];
    _mm_store_ps(tmp, offset);
    return tmp[3];
}

void pass2_SSE(float *s, __m128 offset, const int n) {
    #pragma omp for schedule(static)
    for (int i = 0; i<n/4; i++) {
        __m128 tmp1 = _mm_load_ps(&amp;s[4 * i]);
        tmp1 = _mm_add_ps(tmp1, offset);
        _mm_store_ps(&amp;s[4 * i], tmp1);
    }
}

Perbincangan

Pengoptimuman ini membolehkan peningkatan prestasi yang ketara untuk operasi jumlah awalan pada tatasusunan besar. Menggunakan SIMD untuk kedua-dua pas meningkatkan lagi kecekapan, mengurangkan masa pengiraan. Kod yang disediakan menggunakan SIMD untuk hantaran kedua dan mencapai peningkatan prestasi kira-kira 7x pada sistem empat teras.

Atas ialah kandungan terperinci Bolehkah Arahan SIMD pada CPU Intel Meningkatkan Prestasi Algoritma Jumlah Awalan dengan ketara?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial PHP
1488
72
Menggunakan std :: chrono di c Menggunakan std :: chrono di c Jul 15, 2025 am 01:30 AM

STD :: Chrono digunakan dalam C untuk memproses masa, termasuk mendapatkan masa semasa, mengukur masa pelaksanaan, titik masa operasi dan tempoh, dan masa analisis pemformatan. 1. Gunakan std :: chrono :: system_clock :: sekarang () untuk mendapatkan masa semasa, yang boleh ditukar menjadi rentetan yang boleh dibaca, tetapi jam sistem mungkin tidak membosankan; 2. Gunakan std :: chrono :: steady_clock untuk mengukur masa pelaksanaan untuk memastikan monoton, dan mengubahnya menjadi milisaat, saat dan unit lain melalui duration_cast; 3. Titik masa (time_point) dan tempoh (tempoh) boleh saling beroperasi, tetapi perhatian harus dibayar kepada keserasian unit dan zaman jam (Epoch)

Bagaimana untuk mendapatkan jejak timbunan di C? Bagaimana untuk mendapatkan jejak timbunan di C? Jul 07, 2025 am 01:41 AM

Terdapat terutamanya kaedah berikut untuk mendapatkan jejak timbunan dalam C: 1. Gunakan fungsi backtrace dan backtrace_symbols pada platform Linux. Dengan memasukkan maklumat simbol panggilan dan percetakan, parameter -rdynamic perlu ditambah semasa menyusun; 2. Gunakan fungsi CaptureStackBackTrace pada platform Windows, dan anda perlu menghubungkan dbghelp.lib dan bergantung pada fail PDB untuk menghuraikan nama fungsi; 3. Gunakan perpustakaan pihak ketiga seperti GoogleBreakPad atau Boost.StackTrace untuk merentas platform dan memudahkan operasi menangkap stack; 4. Dalam Pengendalian Pengecualian, menggabungkan kaedah di atas untuk mengeluarkan maklumat timbunan secara automatik di blok tangkapan

Apakah jenis pod (data lama biasa) dalam c? Apakah jenis pod (data lama biasa) dalam c? Jul 12, 2025 am 02:15 AM

Dalam C, jenis POD (Plainolddata) merujuk kepada jenis dengan struktur mudah dan serasi dengan pemprosesan data bahasa C. Ia perlu memenuhi dua syarat: ia mempunyai semantik salinan biasa, yang boleh disalin oleh memcpy; Ia mempunyai susun atur standard dan struktur memori boleh diramal. Keperluan khusus termasuk: Semua ahli bukan statik adalah awam, tiada pembina atau pemusnah yang ditentukan oleh pengguna, tiada fungsi maya atau kelas asas, dan semua ahli yang tidak statik sendiri adalah pod. Contohnya structpoint {intx; inty;} adalah pod. Kegunaannya termasuk I/O binari, Ceroperabilitas C, Pengoptimuman Prestasi, dan lain -lain. Anda boleh menyemak sama ada jenisnya adalah pod melalui std :: is_pod, tetapi disyorkan untuk menggunakan std :: is_trivia selepas c 11.

Bagaimana untuk memanggil Python dari C? Bagaimana untuk memanggil Python dari C? Jul 08, 2025 am 12:40 AM

Untuk memanggil kod Python di C, anda mesti terlebih dahulu memulakan penterjemah, dan kemudian anda boleh mencapai interaksi dengan melaksanakan rentetan, fail, atau memanggil fungsi tertentu. 1. Inisialisasi penterjemah dengan py_initialize () dan tutupnya dengan py_finalize (); 2. Jalankan kod rentetan atau pyrun_simplefile dengan pyrun_simplefile; 3. Modul import melalui pyimport_importmodule, dapatkan fungsi melalui pyobject_getattrstring, bina parameter py_buildvalue, panggil fungsi dan proses kembali

Apakah fungsi bersembunyi di C? Apakah fungsi bersembunyi di C? Jul 05, 2025 am 01:44 AM

FunctionHidingInC yang berlaku slswhenaderivedclassdefinesafunctionwiththesamenamameasabaseclassfunction, makethebaseversioninaccessiblethroughthederivedclass.thishappenswhenthenthebasefunctionis'tvirtualorsignaturesdon'tmatchforoverriding, andnousingdechlorover

Bagaimana untuk lulus fungsi sebagai parameter dalam C? Bagaimana untuk lulus fungsi sebagai parameter dalam C? Jul 12, 2025 am 01:34 AM

Di C, terdapat tiga cara utama untuk lulus fungsi sebagai parameter: menggunakan penunjuk fungsi, std :: fungsi dan ekspresi lambda, dan generik templat. 1. Penunjuk fungsi adalah kaedah yang paling asas, sesuai untuk senario mudah atau antara muka C yang serasi, tetapi kebolehbacaan yang lemah; 2. STD :: Fungsi yang digabungkan dengan ekspresi lambda adalah kaedah yang disyorkan dalam moden C, menyokong pelbagai objek yang boleh dipanggil dan jenis selamat; 3. Kaedah generik templat adalah yang paling fleksibel, sesuai untuk kod perpustakaan atau logik umum, tetapi boleh meningkatkan masa penyusunan dan jumlah kod. Lambdas yang menangkap konteks mesti diluluskan melalui fungsi STD :: atau templat dan tidak boleh ditukar terus ke dalam penunjuk fungsi.

Apakah penunjuk null di C? Apakah penunjuk null di C? Jul 09, 2025 am 02:38 AM

Anullpointerinc isaspecialvalueindicatingthatapointerdoesnotpointoanyanyvalidmemorylocation, anditisusedtosafelymanageandcheckpointersbeforedereferencing.1.beforec 11,0ornullwasused,

Bagaimana std :: bergerak bekerja di c? Bagaimana std :: bergerak bekerja di c? Jul 07, 2025 am 01:27 AM

STD :: MOVE tidak benar -benar memindahkan apa -apa, ia hanya menukarkan objek ke rujukan RValue, memberitahu pengkompil bahawa objek itu boleh digunakan untuk operasi bergerak. Sebagai contoh, apabila tugasan rentetan, jika kelas menyokong semantik bergerak, objek sasaran boleh mengambil alih sumber objek sumber tanpa menyalin. Harus digunakan dalam senario di mana sumber perlu dipindahkan dan sensitif prestasi, seperti mengembalikan objek tempatan, memasukkan bekas, atau bertukar pemilikan. Walau bagaimanapun, ia tidak boleh disalahgunakan, kerana ia akan merosot ke dalam satu salinan tanpa struktur bergerak, dan status objek asal tidak ditentukan selepas pergerakan. Penggunaan yang sesuai apabila lulus atau mengembalikan objek boleh mengelakkan salinan yang tidak perlu, tetapi jika fungsi mengembalikan pembolehubah tempatan, pengoptimuman RVO mungkin sudah berlaku, sambil menambah STD :: MOVE boleh menjejaskan pengoptimuman. Terdedah kepada kesilapan termasuk penyalahgunaan objek yang masih perlu digunakan, pergerakan yang tidak perlu, dan jenis yang tidak boleh dimanfaatkan

See all articles